中文字幕亚洲欧美一区二区三区_亚洲精品菠萝久久久久久久_日本成人免费视频_狠狠躁少妇一区二区三区_国产精品中文字幕久久久_国产乱子伦农村叉叉叉_麻豆tv免费在线观看_av在线这里只有精品_色吧亚洲视频_嫩草影院一二三

設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

GPT-5大提升,o3對(duì)抗賽奪冠,但OpenAI越來(lái)越難讓人驚艷了?

2025-08-11 10:37:12 來(lái)源: 觀察者網(wǎng)

yWq速刷資訊——每天刷點(diǎn)最新資訊,了解這個(gè)世界多一點(diǎn)SUSHUAPOS.COM

(文/觀察者網(wǎng) 張廣凱 編輯/呂棟)yWq速刷資訊——每天刷點(diǎn)最新資訊,了解這個(gè)世界多一點(diǎn)SUSHUAPOS.COM

北京時(shí)間8月8日凌晨,備受期待的OpenAI最新大模型ChatGPT-5終于正式發(fā)布,就在同時(shí),谷歌舉辦的首屆大模型國(guó)際象棋對(duì)抗賽中,o3也以4-0完勝Grok 4奪冠。這本該是對(duì)OpenAI雙喜臨門(mén)的一天,但作為一款關(guān)注度如此之高的產(chǎn)品,網(wǎng)友也很快發(fā)現(xiàn)了GPT-5的一些小小的瑕疵。yWq速刷資訊——每天刷點(diǎn)最新資訊,了解這個(gè)世界多一點(diǎn)SUSHUAPOS.COM

盡管大模型的能力仍然在快速進(jìn)步,但其進(jìn)步幅度越來(lái)越難以給人帶了驚艷感了。這不是OpenAI自己的問(wèn)題,甚至某種意義上,這也不是一件壞事,因?yàn)槭侵叭藗兊念A(yù)期已經(jīng)被拉到過(guò)高。但無(wú)論如何,在現(xiàn)有的算法范式下,AI大模型或許也離瓶頸越來(lái)越近了。yWq速刷資訊——每天刷點(diǎn)最新資訊,了解這個(gè)世界多一點(diǎn)SUSHUAPOS.COM

GPT-5水平如何?yWq速刷資訊——每天刷點(diǎn)最新資訊,了解這個(gè)世界多一點(diǎn)SUSHUAPOS.COM

作為OpenAI今年最受期待又屢屢跳票的重磅產(chǎn)品,ChatGPT-5今天的確給出了一些頗具說(shuō)服力的測(cè)評(píng)數(shù)據(jù),證明其推理能力有著顯著進(jìn)步。yWq速刷資訊——每天刷點(diǎn)最新資訊,了解這個(gè)世界多一點(diǎn)SUSHUAPOS.COM

例如,在數(shù)學(xué)能力測(cè)試AIME 2025上,GPT-5 Pro在開(kāi)啟推理模式并調(diào)用工具(Python)的情況下,拿下滿分成績(jī)。即使不調(diào)用工具,GPT-5 Pro仍能拿下96.7的高分,GPT-5標(biāo)準(zhǔn)版也能拿到94.65分,顯著高于o3的88.9分。yWq速刷資訊——每天刷點(diǎn)最新資訊,了解這個(gè)世界多一點(diǎn)SUSHUAPOS.COM

yWq速刷資訊——每天刷點(diǎn)最新資訊,了解這個(gè)世界多一點(diǎn)SUSHUAPOS.COM

編程方面,GPT-5在SWE-bench Verified上得到74.9分,高于o3的69.1和4o的30.8分。yWq速刷資訊——每天刷點(diǎn)最新資訊,了解這個(gè)世界多一點(diǎn)SUSHUAPOS.COM

yWq速刷資訊——每天刷點(diǎn)最新資訊,了解這個(gè)世界多一點(diǎn)SUSHUAPOS.COM

博士水平的科學(xué)知識(shí)測(cè)試GPQA Diamond中,不調(diào)用工具的GPT-5 Pro推理模式拿到88.4分,創(chuàng)造新紀(jì)錄。yWq速刷資訊——每天刷點(diǎn)最新資訊,了解這個(gè)世界多一點(diǎn)SUSHUAPOS.COM

yWq速刷資訊——每天刷點(diǎn)最新資訊,了解這個(gè)世界多一點(diǎn)SUSHUAPOS.COM

多模態(tài)方面,GPT-5得到84.2分,比o3的82.9分有小幅提升。yWq速刷資訊——每天刷點(diǎn)最新資訊,了解這個(gè)世界多一點(diǎn)SUSHUAPOS.COM

yWq速刷資訊——每天刷點(diǎn)最新資訊,了解這個(gè)世界多一點(diǎn)SUSHUAPOS.COM

高難度的Humanity's Last Exam(人性終極測(cè)試)上,GPT-5 Pro和GPT-5在不調(diào)用工具時(shí)分別得到30.7和24.8分,較o3的14.7分大幅提升。yWq速刷資訊——每天刷點(diǎn)最新資訊,了解這個(gè)世界多一點(diǎn)SUSHUAPOS.COM

yWq速刷資訊——每天刷點(diǎn)最新資訊,了解這個(gè)世界多一點(diǎn)SUSHUAPOS.COM

大模型競(jìng)技場(chǎng)LM Arena的評(píng)分也已經(jīng)出爐,GPT-5橫掃所有單項(xiàng)的第一名。yWq速刷資訊——每天刷點(diǎn)最新資訊,了解這個(gè)世界多一點(diǎn)SUSHUAPOS.COM

yWq速刷資訊——每天刷點(diǎn)最新資訊,了解這個(gè)世界多一點(diǎn)SUSHUAPOS.COM

此外,GPT-5推理模式的幻覺(jué)數(shù)量比o3少了六倍,成本方面則可以減少50-80%的token輸出量。yWq速刷資訊——每天刷點(diǎn)最新資訊,了解這個(gè)世界多一點(diǎn)SUSHUAPOS.COM

這些數(shù)據(jù)都證明,GPT-5算得上是一次成功的大版本升級(jí)。yWq速刷資訊——每天刷點(diǎn)最新資訊,了解這個(gè)世界多一點(diǎn)SUSHUAPOS.COM

但另人尷尬的是,在發(fā)布會(huì)后,網(wǎng)友迅速發(fā)現(xiàn)GPT-5在解一道極其簡(jiǎn)單的方程時(shí)又犯了計(jì)算錯(cuò)誤:yWq速刷資訊——每天刷點(diǎn)最新資訊,了解這個(gè)世界多一點(diǎn)SUSHUAPOS.COM

yWq速刷資訊——每天刷點(diǎn)最新資訊,了解這個(gè)世界多一點(diǎn)SUSHUAPOS.COM

看起來(lái),GPT-5還是沒(méi)能解決小數(shù)比大小的問(wèn)題。yWq速刷資訊——每天刷點(diǎn)最新資訊,了解這個(gè)世界多一點(diǎn)SUSHUAPOS.COM

而OpenAI發(fā)布會(huì)PPT里的小瑕疵,也引起了網(wǎng)友熱議。大家發(fā)現(xiàn)在這張圖表里,柱狀圖的高度出現(xiàn)了明顯錯(cuò)誤,但并不知道這是人為錯(cuò)誤還是由AI生成。yWq速刷資訊——每天刷點(diǎn)最新資訊,了解這個(gè)世界多一點(diǎn)SUSHUAPOS.COM

yWq速刷資訊——每天刷點(diǎn)最新資訊,了解這個(gè)世界多一點(diǎn)SUSHUAPOS.COM

yWq速刷資訊——每天刷點(diǎn)最新資訊,了解這個(gè)世界多一點(diǎn)SUSHUAPOS.COM
yWq速刷資訊——每天刷點(diǎn)最新資訊,了解這個(gè)世界多一點(diǎn)SUSHUAPOS.COM

有網(wǎng)友指出,在關(guān)于機(jī)翼升力原理的回答中,GPT-5也引用了一個(gè)廣為流傳的錯(cuò)誤觀點(diǎn)。當(dāng)然,這樣的問(wèn)題歸咎于AI未免過(guò)于苛刻。yWq速刷資訊——每天刷點(diǎn)最新資訊,了解這個(gè)世界多一點(diǎn)SUSHUAPOS.COM

馬斯克則“嘴硬”稱,Grok 4在ARC-AGI測(cè)試中仍然打敗了GPT-5。yWq速刷資訊——每天刷點(diǎn)最新資訊,了解這個(gè)世界多一點(diǎn)SUSHUAPOS.COM

yWq速刷資訊——每天刷點(diǎn)最新資訊,了解這個(gè)世界多一點(diǎn)SUSHUAPOS.COM

做題好是不是真的好?yWq速刷資訊——每天刷點(diǎn)最新資訊,了解這個(gè)世界多一點(diǎn)SUSHUAPOS.COM

那么,如何評(píng)價(jià)GPT-5的真實(shí)水平,或許日前的大模型國(guó)際象棋對(duì)抗賽恰好給我們提供了一個(gè)很好的參考。yWq速刷資訊——每天刷點(diǎn)最新資訊,了解這個(gè)世界多一點(diǎn)SUSHUAPOS.COM

yWq速刷資訊——每天刷點(diǎn)最新資訊,了解這個(gè)世界多一點(diǎn)SUSHUAPOS.COM

同樣在今天凌晨結(jié)束的對(duì)抗賽上,OpenAI旗下的o3以4-0完勝Grok 4,奪得最終冠軍。盡管Grok 4在此前兩輪中都表現(xiàn)出色,但在決賽中,隨著對(duì)局長(zhǎng)度增加,Grok 4也開(kāi)始表現(xiàn)出棋力下降。yWq速刷資訊——每天刷點(diǎn)最新資訊,了解這個(gè)世界多一點(diǎn)SUSHUAPOS.COM

例如在第一局中,Grok 4莫名其妙地放棄了自己的象,并且沒(méi)有獲得任何明顯的回報(bào),而Grok 4也并未在推理中說(shuō)明理由。yWq速刷資訊——每天刷點(diǎn)最新資訊,了解這個(gè)世界多一點(diǎn)SUSHUAPOS.COM

yWq速刷資訊——每天刷點(diǎn)最新資訊,了解這個(gè)世界多一點(diǎn)SUSHUAPOS.COM

o3盡管表現(xiàn)相對(duì)出色,在昨天的半決賽中還下出過(guò)正確率評(píng)分100%的棋局,但縱觀整個(gè)比賽過(guò)程,也不乏低級(jí)失誤。yWq速刷資訊——每天刷點(diǎn)最新資訊,了解這個(gè)世界多一點(diǎn)SUSHUAPOS.COM

yWq速刷資訊——每天刷點(diǎn)最新資訊,了解這個(gè)世界多一點(diǎn)SUSHUAPOS.COM

或許有人會(huì)質(zhì)疑,讓AI下棋究竟能證明什么?AI對(duì)抗賽的勝負(fù),是不是僅僅取決于它們使用了多大規(guī)模的訓(xùn)練數(shù)據(jù)?DeepSeek下棋不好,但是作詩(shī)是不是更好?yWq速刷資訊——每天刷點(diǎn)最新資訊,了解這個(gè)世界多一點(diǎn)SUSHUAPOS.COM

事實(shí)上,如果只糾結(jié)于下棋或者作詩(shī)的技能水平,說(shuō)明并未理解谷歌采用這種比賽形式的邏輯。yWq速刷資訊——每天刷點(diǎn)最新資訊,了解這個(gè)世界多一點(diǎn)SUSHUAPOS.COM

此次國(guó)際象棋比賽的意義,并非考驗(yàn)大模型的算力,而是考驗(yàn)其推理能力。yWq速刷資訊——每天刷點(diǎn)最新資訊,了解這個(gè)世界多一點(diǎn)SUSHUAPOS.COM

如果大模型在接受了大量棋譜訓(xùn)練之后,體現(xiàn)出高超棋力,這只能證明AI的記憶力或者算力強(qiáng)大,而這件事在2017年就已經(jīng)被AlphaGo證明過(guò)了。yWq速刷資訊——每天刷點(diǎn)最新資訊,了解這個(gè)世界多一點(diǎn)SUSHUAPOS.COM

但是由于這些通用大模型都沒(méi)有接受過(guò)專門(mén)的棋譜訓(xùn)練,因此往往只能在開(kāi)局階段憑借記憶下出經(jīng)典開(kāi)局。在幾個(gè)回合之后,大模型已經(jīng)無(wú)法找到人類棋譜作為參考,它們的思維結(jié)構(gòu)也并非像AlphaGo那樣專為下棋設(shè)計(jì)。因此,這時(shí)候的AI推理,是跟人類相同的推理方式,通過(guò)語(yǔ)言邏輯來(lái)推演棋盤(pán)變化。yWq速刷資訊——每天刷點(diǎn)最新資訊,了解這個(gè)世界多一點(diǎn)SUSHUAPOS.COM

上述無(wú)工具的數(shù)學(xué)測(cè)試,起到的也是類似作用:考驗(yàn)AI用人類邏輯進(jìn)行計(jì)算的能力,而不是使用專門(mén)的機(jī)器算法。yWq速刷資訊——每天刷點(diǎn)最新資訊,了解這個(gè)世界多一點(diǎn)SUSHUAPOS.COM

因?yàn)闊o(wú)論是AlphaGo也好,還是計(jì)算工具也好,這樣的AI在特定任務(wù)中無(wú)比強(qiáng)大,但是卻毫無(wú)泛化性,不能解決任何其它問(wèn)題。只有使用人類邏輯推理的模型,才能在人類世界中擁有最好的泛化性。yWq速刷資訊——每天刷點(diǎn)最新資訊,了解這個(gè)世界多一點(diǎn)SUSHUAPOS.COM

而在這個(gè)維度上,我們可以看到,無(wú)論是o3、Grok 4,還是最新升級(jí)的GPT-5,哪怕他們大部分時(shí)間都能夠解決復(fù)雜問(wèn)題,但也還會(huì)犯下對(duì)人類來(lái)說(shuō)的低級(jí)錯(cuò)誤。這是現(xiàn)有的Next Token Predicting范式下仍然難以完全克服的問(wèn)題,也說(shuō)明它們或許離AGI的最終形態(tài)還有遙遠(yuǎn)距離。yWq速刷資訊——每天刷點(diǎn)最新資訊,了解這個(gè)世界多一點(diǎn)SUSHUAPOS.COM

OpenAI顯然也不再希望把外界的胃口掉得過(guò)高。在本次發(fā)布會(huì)上,我們可以看到OpenAI花了更多時(shí)間介紹GPT-5在垂直場(chǎng)景應(yīng)用的能力,例如生成小游戲、回答健康問(wèn)題的能力,這都是為了讓AI與人類更好地共存與協(xié)作。yWq速刷資訊——每天刷點(diǎn)最新資訊,了解這個(gè)世界多一點(diǎn)SUSHUAPOS.COM

本文鏈接:GPT-5大提升,o3對(duì)抗賽奪冠,但OpenAI越來(lái)越難讓人驚艷了?http://www.sq15.cn/show-3-151659-0.html

聲明:本網(wǎng)站為非營(yíng)利性網(wǎng)站,本網(wǎng)頁(yè)內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻(xiàn),不代表本站觀點(diǎn),本站不承擔(dān)任何法律責(zé)任。天上不會(huì)到餡餅,請(qǐng)大家謹(jǐn)防詐騙!若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。

上一篇: 籌劃發(fā)行H股,綻家母公司若羽臣欲“雙重上市”

下一篇: 增收不增利大跌8%,中芯國(guó)際稱國(guó)內(nèi)客戶需求猛漲

熱門(mén)資訊

推薦資訊

  • 日榜
  • 周榜
  • 月榜
欧美日本国产| 欧美日本免费| 欧美电影免费| 日韩av片免费播放| 国产伦精品一区二区三区在线观看 | 欧美激情在线精品video| 999久久狠狠免费精品| a级毛片免费观看网站| 国产极品精频在线观看| 成人免费网站视频ww| 国产视频一区二区三区四区| 欧美大片aaaa一级毛片| 美女被草网站| 欧美激情伊人| 日韩av片免费播放| 国产精品自拍一区| 国产高清视频免费观看| 青青久热| 午夜久久网| 日本特黄特黄aaaaa大片 | 一级女性全黄久久生活片| 青青久热| 久草免费在线色站| 91麻豆精品国产片在线观看| 欧美激情一区二区三区视频高清| 国产亚洲精品成人a在线| 日韩一级黄色片| 国产视频一区二区在线观看| 天天色成人网| 99久久视频| 久久国产精品只做精品| 99久久精品国产免费| 精品国产亚一区二区三区| 午夜在线影院| a级黄色毛片免费播放视频| 99热热久久| 一本高清在线| 亚洲第一页乱| 青青久久精品| 日韩一级黄色| 在线观看导航| 精品久久久久久免费影院| 日韩专区在线播放| 国产极品精频在线观看| 麻豆网站在线看| 成人高清视频在线观看| 欧美一区二区三区在线观看| 91麻豆爱豆果冻天美星空| 日本在线不卡免费视频一区| 尤物视频网站在线观看| 毛片电影网| 欧美电影免费| 国产网站免费在线观看| 午夜在线亚洲| 亚州视频一区二区| 精品在线观看国产| 国产高清在线精品一区二区| 香蕉视频久久| 中文字幕一区二区三区精彩视频 | 精品视频一区二区三区免费| 日本伦理片网站| 欧美1区| 欧美1区| 亚洲女人国产香蕉久久精品| 免费国产在线视频| 色综合久久久久综合体桃花网| 久久99中文字幕| 香蕉视频一级| 精品视频一区二区三区| 国产一区二区精品| 亚洲女人国产香蕉久久精品 | 精品在线视频播放| 国产伦久视频免费观看 视频| 久久精品店| 国产视频久久久| 精品久久久久久综合网 | 99色精品| 免费的黄视频| 欧美夜夜骑 青草视频在线观看完整版 久久精品99无色码中文字幕 欧美日韩一区二区在线观看视频 欧美中文字幕在线视频 www.99精品 香蕉视频久久 | 日韩av东京社区男人的天堂| 亚洲 激情| 久久国产一久久高清| 欧美18性精品| 国产伦精品一区二区三区无广告| 国产一区二区精品在线观看| 成人a级高清视频在线观看| 日韩专区在线播放| 久草免费在线观看| 欧美国产日韩久久久| 二级特黄绝大片免费视频大片| 欧美另类videosbestsex视频| 好男人天堂网 久久精品国产这里是免费 国产精品成人一区二区 男人天堂网2021 男人的天堂在线观看 丁香六月综合激情 | 麻豆系列 在线视频| 欧美激情一区二区三区在线| 深夜做爰性大片中文| 国产亚洲免费观看| 九九精品久久| 一a一级片| 久久国产精品自线拍免费| 欧美日本免费| 久久成人亚洲| 尤物视频网站在线观看| 国产a免费观看| 99色视频在线观看| 黄视频网站免费观看| 日日夜人人澡人人澡人人看免| 日韩免费在线视频| 国产亚洲精品aaa大片| 日韩在线观看免费| 欧美激情一区二区三区视频 | 日本伦理片网站| 韩国三级视频网站| 麻豆网站在线看| 毛片成人永久免费视频| 国产美女在线观看| 欧美1卡一卡二卡三新区| 国产激情视频在线观看| 午夜精品国产自在现线拍| 成人免费网站视频ww| 国产一区二区福利久久| 欧美a级片视频| 国产一区二区精品久久| 国产伦久视频免费观看 视频 | 成人高清视频在线观看| 国产精品自拍在线观看| 欧美激情在线精品video| 色综合久久天天综线观看| 亚洲精品影院久久久久久| 成人影院久久久久久影院| 亚久久伊人精品青青草原2020| 国产综合成人观看在线| 日本伦理黄色大片在线观看网站| 欧美激情一区二区三区视频| 91麻豆精品国产自产在线观看一区| 成人影视在线播放| 99热精品一区| 亚洲女人国产香蕉久久精品 | 黄视频网站在线免费观看| 在线观看成人网 | 尤物视频网站在线| 人人干人人草| 成人免费高清视频| 精品视频在线观看免费| 色综合久久天天综合观看| 麻豆午夜视频| 亚洲天堂免费| 高清一级毛片一本到免费观看| 黄视频网站免费| 久久精品大片| 午夜激情视频在线观看| 国产成a人片在线观看视频| 日本久久久久久久 97久久精品一区二区三区 狠狠色噜噜狠狠狠狠97 日日干综合 五月天婷婷在线观看高清 九色福利视频 | 黄视频网站免费观看| 香蕉视频一级| 久久99中文字幕| 亚洲精品影院| 亚洲精品影院| 成人免费高清视频| 久久国产影院| 国产伦理精品| 91麻豆精品国产自产在线| 欧美激情一区二区三区视频高清| 黄色短视频网站| 精品国产一区二区三区久久久蜜臀| 黄色免费三级| 久久福利影视| 成人a大片在线观看| 999精品在线| 黄视频网站在线看| 日本久久久久久久 97久久精品一区二区三区 狠狠色噜噜狠狠狠狠97 日日干综合 五月天婷婷在线观看高清 九色福利视频 | 色综合久久天天综合绕观看| 国产网站在线| 国产欧美精品| 午夜激情视频在线观看| 99久久精品国产麻豆| 青青久在线视频| 久草免费在线观看| 韩国毛片免费大片| 亚洲爆爽| 国产网站麻豆精品视频| 日本特黄一级| 欧美一区二区三区性| 亚欧视频在线| 精品久久久久久免费影院| 国产一区免费观看| 成人高清护士在线播放| 国产国语对白一级毛片| 色综合久久手机在线| 国产伦久视频免费观看 视频 | 精品国产一区二区三区免费| 91麻豆精品国产高清在线| 亚欧视频在线| 99热精品一区| 天天做人人爱夜夜爽2020毛片| 国产一区免费观看| 亚洲精品影院| 日本在线www| 国产一区二区精品久| 可以免费看污视频的网站| 国产91视频网|