DeepSeek上新：開源模型首達IMO金牌水平，AI推理告別“死記硬背”

2025-12-01 14:33:05 來源：觀察者網

觀看：1

（文/陳濟深編輯/張廣凱）

在OpenAI發布GPT-5.1、谷歌推出Gemini 3系列的背景下，國內AI獨角獸DeepSeek雖然遲遲未能帶來基座模型的大更新，但也于本周三晚間低調發布了其最新的技術成果DeepSeek-Math-V2。

據官方披露的技術報告顯示，DeepSeek-Math-V2擁有685B參數量，專注于提升大語言模型的數學推理與定理證明能力。在多項高難度數學競賽基準中，該模型交出了一份極具沖擊力的成績單。

首先是頂尖競賽表現，在2025年國際數學奧林匹克競賽（IMO 2025）和2024年中國數學奧林匹克競賽（CMO 2024）中，Math-V2均達到了金牌水平。特別是在被稱為“數學界煉獄”的普特南（Putnam 2024）數學競賽中，通過擴展測試計算（Test-time Compute），該模型取得了118分（滿分120分）的近乎滿分成績，遠超人類選手約90分的歷史最高分記錄。

其次是基準測試對比，在IMO-ProofBench基準測試的基礎集（Basic）上，Math-V2得分接近99%，大幅領先谷歌旗下Gemini DeepThink (IMO Gold) 的89%。

在難度更高的進階集（Advanced）上，Math-V2得分61.9%，雖然略低于Gemini DeepThink的65.7%，但作為開源模型，其性能已無限接近閉源商用模型的頂尖水平。

此外，團隊在論文中透露，在自主構建的91個CNML（中國國家數學實驗室）級別問題測試中，Math-V2在代數、幾何、數論、組合學和不等式等所有類別中，均超越了GPT-5-Thinking-High和Gemini 2.5-Pro的表現。

從“做題機器”到“嚴謹數學家”

DeepSeek此次發布的時間點頗為耐人尋味。就在模型開源前不到24小時，前OpenAI首席科學家、AI教父Ilya Sutskever在一場訪談中直言，當前的AI模型更像是一個只會“死記硬背”的做題機器。DeepSeek Math-V2的發布仿佛是一次跨越時空的回應，其核心技術革新正是為了解決Ilya所擔憂的“推理假象”問題，展現出一種不再滿足于單純結果正確的技術自覺。

傳統的AI訓練模式往往陷入“結果導向”的陷阱，即只要最終答案正確就給予模型獎勵（Reward）。這種機制容易導致AI產生投機行為，為了獲取獎勵而猜測答案，即便中間邏輯混亂甚至錯誤。DeepSeek在技術論文中一針見血地指出，正確的答案并不保證正確的推理。為了根除這種“混子”行為，Math-V2采取了嚴苛的“死磕過程”策略。模型必須展示清晰、嚴謹的分步推導過程，只要中間步驟出現邏輯斷裂，即便最終結果正確，系統也不會給予正向反饋。這一轉變逼迫AI必須真正理解題目邏輯，而非依賴概率上的運氣。

為了精準評估這些復雜的推理步驟，DeepSeek獨創了一套多層級的“元驗證”（Meta-Verification）機制。在以往的訓練中，給AI的解題步驟打分是一項極具挑戰的任務，單一的AI評判者也容易看走眼。為此，團隊設計了一種類似“套娃”的監督架構：在AI“學生”做題、AI“老師”批改的基礎上，引入了更高層級的“校長”角色來審查判卷的合理性。如果“老師”出現誤判，“校長”會進行糾正。這種層層嵌套的監督體系，直接將評分系統的置信度從0.85提升至0.96，極大地保證了訓練數據的質量。

更引人注目的是，Math-V2展現出了類似人類“三省吾身”的自我反思能力。在處理高難度定理證明時，模型不再是一路狂奔直達終點，而是像一位嚴謹的數學家一樣，在推理過程中通過測試時間計算（Test-time Compute）進行停頓和自省。一旦發現邏輯漏洞，模型會自主推翻重寫，直到邏輯鏈條無懈可擊。這種從盲目計算向深思熟慮的進化，表明通往超級智能的路徑并非只有算力的堆疊，更需要這種懂得“回頭看”的智慧。

開源生態的強力反擊

DeepSeek Math-V2的發布在海外開發者社區引發了強烈反響，被輿論稱為“鯨魚回歸（The Whale is back）”。市場分析人士認為，DeepSeek以10個百分點的優勢在基礎基準上擊敗谷歌獲獎模型，打破了頂級推理模型長期被閉源巨頭壟斷的局面。

有資深算法工程師對觀察者網表示：“DeepSeek驗證了‘自驗證推理路徑’的可行性。數學推理能力是代碼生成、科學計算等任務的基石。行業普遍推測，DeepSeek極有可能將這一邏輯驗證能力遷移至編程模型（Coding），屆時將對現有的代碼輔助工具市場產生巨大沖擊?！?span style="display:none">gmZ速刷資訊——每天刷點最新資訊，了解這個世界多一點SUSHUAPOS.COM

目前，全球AI大模型正處于從“文本生成”向“邏輯推理”進化的關鍵窗口期。DeepSeek此次“亮劍”，不僅證明了國產模型在高端算法領域的競爭力，也為開源社區提供了一條清晰的技術演進路線——即通過構建嚴謹的驗證機制，而非單純堆砌算力，來實現機器智能的質變。

目前DeepSeek新模型的代碼與權重已在Hugging Face及GitHub平臺完全開源，行業期待其后續在通用旗艦模型上的進一步動作。

本文鏈接：DeepSeek上新：開源模型首達IMO金牌水平，AI推理告別“死記硬背”http://www.sq15.cn/show-3-160212-0.html

聲明：本網站為非營利性網站，本網頁內容由互聯網博主自發貢獻，不代表本站觀點，本站不承擔任何法律責任。天上不會到餡餅，請大家謹防詐騙！若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。

上一篇：聯影殺入邁瑞腹地：超聲高端市場能否撕開一道口子？

下一篇：《瘋狂動物城2》票房前瞻：品牌聯名才是最大贏家

中文字幕亚洲欧美一区二区三区_亚洲精品菠萝久久久久久久_日本成人免费视频_狠狠躁少妇一区二区三区_国产精品中文字幕久久久_国产乱子伦农村叉叉叉_麻豆tv免费在线观看_av在线这里只有精品_色吧亚洲视频_嫩草影院一二三

DeepSeek上新：開源模型首達IMO金牌水平，AI推理告別“死記硬背”

熱門資訊

推薦資訊

財經最熱文章

中文字幕亚洲欧美一区二区三区_亚洲精品菠萝久久久久久久_日本成人免费视频_狠狠躁少妇一区二区三区_国产精品中文字幕久久久_国产乱子伦农村叉叉叉_麻豆tv免费在线观看_av在线这里只有精品_色吧亚洲视频_嫩草影院一二三

DeepSeek上新：開源模型首達IMO金牌水平，AI推理告別“死記硬背”

熱門資訊

推薦資訊

財經最熱文章

DeepSeek上新：開源模型首達IMO金牌水平，AI推理告別“死記硬背”