(文/陳濟深 編輯/張廣凱)
在OpenAI發布GPT-5.1、谷歌推出Gemini 3系列的背景下,國內AI獨角獸DeepSeek雖然遲遲未能帶來基座模型的大更新,但也于本周三晚間低調發布了其最新的技術成果DeepSeek-Math-V2。
據官方披露的技術報告顯示,DeepSeek-Math-V2擁有685B參數量,專注于提升大語言模型的數學推理與定理證明能力。在多項高難度數學競賽基準中,該模型交出了一份極具沖擊力的成績單。
首先是頂尖競賽表現,在2025年國際數學奧林匹克競賽(IMO 2025)和2024年中國數學奧林匹克競賽(CMO 2024)中,Math-V2均達到了金牌水平。特別是在被稱為“數學界煉獄”的普特南(Putnam 2024)數學競賽中,通過擴展測試計算(Test-time Compute),該模型取得了118分(滿分120分)的近乎滿分成績,遠超人類選手約90分的歷史最高分記錄。
其次是基準測試對比,在IMO-ProofBench基準測試的基礎集(Basic)上,Math-V2得分接近99%,大幅領先谷歌旗下Gemini DeepThink (IMO Gold) 的89%。
在難度更高的進階集(Advanced)上,Math-V2得分61.9%,雖然略低于Gemini DeepThink的65.7%,但作為開源模型,其性能已無限接近閉源商用模型的頂尖水平。
此外,團隊在論文中透露,在自主構建的91個CNML(中國國家數學實驗室)級別問題測試中,Math-V2在代數、幾何、數論、組合學和不等式等所有類別中,均超越了GPT-5-Thinking-High和Gemini 2.5-Pro的表現。
從“做題機器”到“嚴謹數學家”
DeepSeek此次發布的時間點頗為耐人尋味。就在模型開源前不到24小時,前OpenAI首席科學家、AI教父Ilya Sutskever在一場訪談中直言,當前的AI模型更像是一個只會“死記硬背”的做題機器。DeepSeek Math-V2的發布仿佛是一次跨越時空的回應,其核心技術革新正是為了解決Ilya所擔憂的“推理假象”問題,展現出一種不再滿足于單純結果正確的技術自覺。
傳統的AI訓練模式往往陷入“結果導向”的陷阱,即只要最終答案正確就給予模型獎勵(Reward)。這種機制容易導致AI產生投機行為,為了獲取獎勵而猜測答案,即便中間邏輯混亂甚至錯誤。DeepSeek在技術論文中一針見血地指出,正確的答案并不保證正確的推理。為了根除這種“混子”行為,Math-V2采取了嚴苛的“死磕過程”策略。模型必須展示清晰、嚴謹的分步推導過程,只要中間步驟出現邏輯斷裂,即便最終結果正確,系統也不會給予正向反饋。這一轉變逼迫AI必須真正理解題目邏輯,而非依賴概率上的運氣。
為了精準評估這些復雜的推理步驟,DeepSeek獨創了一套多層級的“元驗證”(Meta-Verification)機制。在以往的訓練中,給AI的解題步驟打分是一項極具挑戰的任務,單一的AI評判者也容易看走眼。為此,團隊設計了一種類似“套娃”的監督架構:在AI“學生”做題、AI“老師”批改的基礎上,引入了更高層級的“校長”角色來審查判卷的合理性。如果“老師”出現誤判,“校長”會進行糾正。這種層層嵌套的監督體系,直接將評分系統的置信度從0.85提升至0.96,極大地保證了訓練數據的質量。
更引人注目的是,Math-V2展現出了類似人類“三省吾身”的自我反思能力。在處理高難度定理證明時,模型不再是一路狂奔直達終點,而是像一位嚴謹的數學家一樣,在推理過程中通過測試時間計算(Test-time Compute)進行停頓和自省。一旦發現邏輯漏洞,模型會自主推翻重寫,直到邏輯鏈條無懈可擊。這種從盲目計算向深思熟慮的進化,表明通往超級智能的路徑并非只有算力的堆疊,更需要這種懂得“回頭看”的智慧。
開源生態的強力反擊
DeepSeek Math-V2的發布在海外開發者社區引發了強烈反響,被輿論稱為“鯨魚回歸(The Whale is back)”。市場分析人士認為,DeepSeek以10個百分點的優勢在基礎基準上擊敗谷歌獲獎模型,打破了頂級推理模型長期被閉源巨頭壟斷的局面。
有資深算法工程師對觀察者網表示:“DeepSeek驗證了‘自驗證推理路徑’的可行性。數學推理能力是代碼生成、科學計算等任務的基石。行業普遍推測,DeepSeek極有可能將這一邏輯驗證能力遷移至編程模型(Coding),屆時將對現有的代碼輔助工具市場產生巨大沖擊?!?span style="display:none">gmZ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
目前,全球AI大模型正處于從“文本生成”向“邏輯推理”進化的關鍵窗口期。DeepSeek此次“亮劍”,不僅證明了國產模型在高端算法領域的競爭力,也為開源社區提供了一條清晰的技術演進路線——即通過構建嚴謹的驗證機制,而非單純堆砌算力,來實現機器智能的質變。
目前DeepSeek新模型的代碼與權重已在Hugging Face及GitHub平臺完全開源,行業期待其后續在通用旗艦模型上的進一步動作。
本文鏈接:DeepSeek上新:開源模型首達IMO金牌水平,AI推理告別“死記硬背”http://www.sq15.cn/show-3-160212-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。