中文字幕亚洲欧美一区二区三区_亚洲精品菠萝久久久久久久_日本成人免费视频_狠狠躁少妇一区二区三区_国产精品中文字幕久久久_国产乱子伦农村叉叉叉_麻豆tv免费在线观看_av在线这里只有精品_色吧亚洲视频_嫩草影院一二三

設置
  • 日夜間
    隨系統
    淺色
    深色
  • 主題色

AGI走到分岔路口 大模型“思考力”被低估

2024-12-25 17:26:28 來源:

21世紀經濟報道記者孔海麗 北京報道h1l速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

OpenAI的圣誕節驚喜比原定多持續了一天,第13天,OpenAI CEO 塞姆·奧特曼(Sam Altman)宣布,圣誕假期期間為所有plus用戶提供無限次使用Sora的機會,這原本是月費200美元的Pro用戶才有的待遇。h1l速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

連續12天的新品發布中,OpenAI先后拿出了完整版o1、加強版Sora、ChatGPT Search、電話功能、新模型o3。h1l速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

尤其是o3,被評為OpenAI的“大殺器”,也就是推理模型o1的第二代。為了避開與英國知名電信運營商o2可能的知識產權糾紛,OpenAI推理模型系列跳過o2,直接命名為o3。h1l速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

但OpenAI的ChatGPT-5卻遲遲不見動靜。據知情人士透露,該項目已開發超過18個月,成本花費巨大,卻仍未取得預期成果——Scaling Law的暴力美學似乎已經遇到瓶頸,更大的參數、更多的數據,已經不能為AI大模型帶來質的飛躍。h1l速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

當擴大AI大模型的訓練規模失去“高回報”,OpenAI強調推理時間、思考時長的o系列,會是解題思路嗎?h1l速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

被低估的推理路線h1l速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

OpenAI o系列發布時,就有觀點認為,“當大模型具備了‘思考’能力,通往AGI再也沒有障礙”。如今,o3較o1獲得大幅進步,也再次證明了增加推理時間是一條有效路徑。h1l速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

OpenAI知名研究員、o1研究團隊的核心科學家諾姆·布朗(Noam Brown)近期表達了對“推理時計算”技術的樂觀期待。h1l速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

所謂“推理時計算”技術,是擴展推理過程中的計算量,讓大模型能夠在推理階段進行更深入的思考和計算,從而解決更復雜的問題。h1l速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

諾姆·布朗認為,在Scaling Law法則下,通過擴大預訓練規模來提升模型性能雖行之有效,但其所伴隨的高昂成本問題不容忽視,并且從長遠來看,這種方式必然會遭遇發展瓶頸,難以為繼。而“推理時計算”技術的出現,為解決這一瓶頸提供了全新的思路,將加速AGI的到來。h1l速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

o1和o3大模型是“推理時計算”技術迭代出來的大模型,可以自主學習策略、拆解任務、識別并糾正錯誤,更深入地推理和解決更復雜的問題。h1l速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

并且,據透露,OpenAI內部也意識到了靠擴大預訓練規模無法實現AGI,“推理時計算”也是他們尋找的新突破口。h1l速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

“‘推理時計算’技術的意義被大大低估了,而且目前這項技術處于早期發展階段,未來會有巨大的提升空間。” 諾姆·布朗介紹說,當大模型“思考”更長時間時,它開始展現出一些原本需要人工添加到模型中的能力,比如嘗試不同的策略、將復雜問題拆解成數個子問題、識別并自我糾正錯誤。這也是研究人員們相信“推理時計算”是通往AGI的關鍵路徑的原因。h1l速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

o3被寄予厚望

作為推理模型的升級版,o3的多項性能表現堪稱卓越,從測試成績看稱得上是碾壓目前市面上的大模型。h1l速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

在真實世界軟件任務評估(HumanEval-Verified)中,o3編程能力的準確率為71.7%,比o1提升20%以上;在競爭性代碼編程平臺(Competition Code)上,評分為2727分,超過了OpenAI首席科學家的2665分,而o1為1891分。h1l速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

數學推理能力方面,在美國數學奧林匹克考試(AIME)中,o3只漏掉了一個題,準確率為96.7%,在博士級科學問題測試(GPQA Diamond)中,準確率為87.7%,而人類專家的平均水平為70%。在前沿數學基準測試EpochAI Frontier Math中,準確率超過o1 10倍。h1l速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

最讓業界震驚的,是它在Arc AGI測試中的表現。Arc AGI是法國人工智能開發者弗朗索瓦·肖萊(Fran?ois Chollet)2019年設計的,目前公認為衡量AI系統在數學和邏輯問題水平的一種權威測試。在該項測試中,o3低算力配置下的準確率為75.7%,高算力下的準確率為87.5%,而人類平均水平為85%。h1l速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

這些性能表現,尤其是在Arc AGI的測試成績,表明AI在即時學習新規則和進行推理方面,已經勝過人類。h1l速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

有從業者甚至表示,OpenAI o3是通往AGI(通用人工智能)的關鍵一步,或者說在通往AGI的路上已經沒有任何障礙。h1l速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

狂熱的另一面

也有不少研究者和科學家冷靜看待。在o3測試中,有兩個問題引起了從業人員的關注。一是太過昂貴。Arc AGI研究人員透露,在高算力配置下,o3完成每個任務需要花費3400美元。短期內,這種高昂成本是其商業化的絆腳石。h1l速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

大模型訓練是典型的“燒錢游戲”。據透露,GPT-4的訓練成本超1億美元,而正在研發中的GPT-5,6個月的訓練僅算力成本就達5億美元。h1l速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

二是o3還會犯簡單的推理錯誤。弗朗索瓦·肖萊認為,o3能夠適應以前從未遇到過的任務,在ARC-AGI領域接近人類水平。但是,通過ARC-AGI測試拿到高分并不等同于實現AGI,“實際上,我認為o3還不是AGI。o3在一些非常簡單的任務上仍然會失敗,這表明它與人類智能存在根本性的差異。”h1l速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

弗朗索瓦·肖萊后面的這句話,也正是一些科學家所強調的。h1l速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

AI機器視覺知名學者、香港大學計算與數據科學學院院長兼數據科學研究院院長馬毅說,現在的大模型只有Knowledge(知識),沒有intelligence(智能),“知識是智能活動的積分,而智能是知識的微分”。GPT-4有知識,但沒有智能;新生兒有智能,不一定有知識,但一個新生兒很可能變成下一代愛因斯坦。h1l速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

一位在硅谷工作的AI工程師說,o3雖然多項性能表現卓越,但仍然只是OpenAI推理模型的第二代,不宜過分拔高。而且其測試樣本(人數)有限,不能就此得出結論說它的智慧就已經在整體上達到甚至超越人類的專家水平。h1l速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

幻覺難題待解

能思考、懂推理的人工智能,會不會犯錯?h1l速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

人工智能近兩年的快速發展,尤其是大模型的高速迭代,涌現了一些需要重新厘定的新問題。比如,谷歌發布量子芯片Willow后,阿里云創始人王堅院士就提出,特定裝置下量子計算的“計算”,與傳統計算機的“計算”,是不是同一個定義,值得探索。同樣,以OpenAI o3在編程和數學推理能力表現出的intelligence,與人類的intelligence,是不是同一個定義,也值得探討。h1l速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

至今仍存在的大模型幻覺問題是一項行業難題。所謂幻覺,是指大模型或垂直模型生成的部分信息,貌似合理卻自相矛盾,一本正經卻完全錯誤。這類似于人類的說謊。在金融、醫療、公共安全等領域,如果模型生成的關鍵信息不準確,而人工在后期又不加以甄別,可能釀成嚴重后果。h1l速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

OpenAI 的語音轉寫工具Whisper 最近被曝出現較大比例的幻覺現象。密歇根大學研究員發現,Whisper 每10份音頻轉錄中有8份出現幻覺;有機器學習工程師稱其分析的超100小時轉錄文件約一半出現幻覺。今年10月有媒體報道,美國很多醫生和醫療機構利用Whisper來轉錄醫生與患者的會診,比如包括明尼蘇達州的曼卡托診所和洛杉磯兒童醫院在內的超30000名臨床醫生和40個醫療系統,使用由Nabla公司基于Whisper開發的工具,該工具已用于轉錄約700萬次醫療就診。h1l速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

雖然去年5月OpenAI 就宣布找到了防止或減少模型幻覺的辦法,也就是該公司官方論文所說的,“通過過程監督改進數學推理”,但Whisper轉錄的醫療診斷或用藥診斷,出現如此高比例的幻覺,依然令業界驚訝。h1l速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

幻覺正是ChatGPT、谷歌Bard等大模型在知識領域突飛猛進,在智能方面卻存在明顯缺陷的典型表現。人類說謊,輕則報以道德訓誡,重則施以法律規制,而對付機器說謊,也必須“與人類對齊”。這是包括OpenAI在內,在通往AGI的路上必須解決的重大課題。h1l速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

本文鏈接:AGI走到分岔路口 大模型“思考力”被低估http://www.sq15.cn/show-2-9856-0.html

聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。

上一篇: 評論丨“臭車風波”背后:司機生存困境與平臺整改難題

下一篇: 深圳“天空之城”這一年:政策基建充當排頭兵 低空應用探索緊隨其后

熱門資訊

推薦資訊

  • 日榜
  • 周榜
  • 月榜
午夜激情视频在线观看| 亚洲女初尝黑人巨高清在线观看| 香蕉视频久久| 成人免费网站久久久| 青草国产在线观看| 欧美日本免费| 午夜久久网| 一级片免费在线观看视频| 亚欧成人毛片一区二区三区四区| 天天做日日爱| 日本特黄特色aaa大片免费| 欧美激情伊人| 91麻豆国产级在线| 国产伦久视频免费观看视频| 91麻豆爱豆果冻天美星空| 国产一区免费在线观看| 香蕉视频三级| 国产91素人搭讪系列天堂| 欧美激情在线精品video| 色综合久久天天综合| 亚洲 国产精品 日韩| 毛片的网站| 精品久久久久久中文字幕2017| 色综合久久天天综合观看| 日韩一级黄色片| 你懂的福利视频| 国产a免费观看| 久久99爰这里有精品国产| 99久久网站| 国产视频网站在线观看| 日韩欧美一二三区| 韩国三级视频在线观看| 精品久久久久久中文字幕2017| 国产韩国精品一区二区三区| 精品毛片视频| 黄色免费网站在线| 国产高清在线精品一区a| 精品视频在线观看一区二区三区| 国产国语在线播放视频| 亚久久伊人精品青青草原2020| 999精品在线| 国产麻豆精品视频| 欧美爱爱动态| 日韩av成人| 欧美激情一区二区三区在线| 一级毛片视频播放| 精品视频在线看 | 99久久视频| 日日日夜夜操| 99久久精品国产麻豆| 国产亚洲精品成人a在线| 麻豆系列 在线视频| 成人a级高清视频在线观看| 欧美国产日韩在线| 国产一区二区福利久久| 黄色短视频网站| 欧美激情一区二区三区在线播放 | 亚洲第一页乱| 韩国三级香港三级日本三级la| 国产伦理精品| 免费国产一级特黄aa大片在线| 天天色色色| 四虎久久影院| 日本在线www| 久久久成人影院| 亚洲天堂在线播放| 亚洲女初尝黑人巨高清在线观看| 午夜激情视频在线观看| 日本伦理片网站| 国产成人精品综合在线| 韩国三级香港三级日本三级| 黄视频网站免费| 国产不卡高清在线观看视频| 国产网站在线| 亚洲女初尝黑人巨高清在线观看| 好男人天堂网 久久精品国产这里是免费 国产精品成人一区二区 男人天堂网2021 男人的天堂在线观看 丁香六月综合激情 | 午夜在线影院| 精品视频一区二区三区| 国产91精品系列在线观看| 精品在线视频播放| 日日日夜夜操| 久久国产精品自线拍免费| 久久久久久久免费视频| 欧美激情一区二区三区在线| 毛片电影网| 超级乱淫黄漫画免费| 国产极品白嫩美女在线观看看| 国产91精品一区二区| 欧美国产日韩在线| 可以免费在线看黄的网站| 麻豆污视频| 日韩av片免费播放| 成人高清视频免费观看| 九九久久99综合一区二区| 天天做日日爱| a级毛片免费全部播放| 麻豆网站在线看| 国产原创中文字幕| 国产成人女人在线视频观看| 亚洲第一页色| 黄色免费网站在线| 成人免费一级纶理片| 久久精品免视看国产成人2021| 日韩av片免费播放| 国产91丝袜高跟系列| 在线观看成人网| 国产视频久久久| 国产一区二区精品| 成人a大片在线观看| 久久精品欧美一区二区| 91麻豆精品国产自产在线| 欧美一级视频高清片| 精品久久久久久中文| 精品视频一区二区| 久久国产精品只做精品| 一级毛片看真人在线视频| 亚洲女人国产香蕉久久精品| 午夜在线亚洲| 天堂网中文字幕| 国产一区二区福利久久| 精品久久久久久综合网| 尤物视频网站在线| 一级毛片视频播放| 成人免费网站视频ww| 国产成人啪精品| 精品久久久久久中文字幕一区| 美女免费黄网站| 韩国三级视频网站| 精品在线观看国产| 欧美激情影院| 亚洲 国产精品 日韩| 国产成人精品影视| 国产91精品一区| 国产视频一区在线| 日本伦理黄色大片在线观看网站| 国产网站免费视频| 一级女性全黄久久生活片| 欧美α片无限看在线观看免费| 日韩在线观看网站| 色综合久久天天综合绕观看| 亚洲 男人 天堂| 久久国产一区二区| 国产成人精品综合在线| 欧美18性精品| 久久国产精品自线拍免费| 久久精品免视看国产明星| 精品久久久久久综合网| 日韩在线观看免费| 台湾毛片| 亚洲爆爽| 日日夜人人澡人人澡人人看免| 国产精品免费精品自在线观看| 99色播| 成人影视在线播放| 国产精品自拍一区| 一本高清在线| 九九久久国产精品大片| a级精品九九九大片免费看| 999久久狠狠免费精品| 亚洲天堂免费| 91麻豆精品国产片在线观看| 久久精品免视看国产成人2021| a级精品九九九大片免费看| 亚洲精品影院| 精品视频在线观看视频免费视频| 国产精品自拍在线| 香蕉视频三级| 黄视频网站在线免费观看| 国产一区二区精品尤物| 欧美国产日韩一区二区三区| 欧美国产日韩精品| 精品国产亚洲人成在线| 超级乱淫黄漫画免费| 国产精品自拍亚洲| 色综合久久天天综线观看| 欧美日本免费| 国产成人欧美一区二区三区的| 久久99欧美| 久久精品店| 欧美激情在线精品video| 青青久久精品| 欧美a免费| 欧美激情伊人| 日韩专区第一页| 亚洲女初尝黑人巨高清在线观看| 久久精品欧美一区二区| 久久精品免视看国产明星| 久久精品免视看国产明星| 美国一区二区三区| 高清一级毛片一本到免费观看| 成人高清护士在线播放| 国产视频久久久| 国产网站免费观看| 日日日夜夜操| 一级女性大黄生活片免费| 一级毛片看真人在线视频| 欧美另类videosbestsex视频| 成人影视在线观看| 国产91精品露脸国语对白| 国产原创中文字幕|