(文/陳濟深 編輯/呂棟)
12月1日,DeepSeek發布兩個正式版模型:DeepSeek-V3.2和DeepSeek-V3.2-Speciale。其中DeepSeek-V3.2是兩個月前DeepSeek-V3.2-Exp的正式版,做到了平衡推理能力與輸出長度,適合日常使用,例如問答場景,并強化了Agent能力。官方網頁端、App和API均已更新為正式版DeepSeek-V3.2。
Speciale版本是DeepSeek-V3.2的長思考增強版,同時結合了DeepSeek-Math-V2的定理證明能力。目標是將開源模型的推理能力推向極致,探索模型能力的邊界。目前僅以臨時API服務形式開放,以供社區評測與研究。
回顧過去一年,開源大模型生態在年初DeepSeek驚艷亮相之后集體爆發,阿里云的Qwen系列不斷刷新榜單,月之暗面的Kimi,智譜的GLM和MiniMax的M系列模型均在發布后收獲了國內外的好評并取得了超越當時頂級閉源模型的開源成果。這一波群雄并起的浪潮,將“開源追平乃至超越閉源”從一句口號變成了讓閉源廠商感到壓力的現實。
然而,隨著Google Gemini3.0的強勢發布,憑借龐大的的算力和數據,Gemini 3.0 Pro重新定義了什么是“全球最強”。其強勁的性能甚至讓同為競爭對手的馬斯克(xAI)和奧特曼(OpenAI)紛紛點贊,開源和閉源似乎不復存在的差距瞬間又變成了一道新的天花板。
與此同時,OpenAI前首席科學家Ilya Sutskever近期關于“Scaling Law撞墻”的論斷,更是給后來者潑了一盆冷水:如果連單純堆算力都開始失效,那么資源本就處于劣勢的開源社區,難道注定只能止步于此?
在“前有算力新霸權,后有理論新瓶頸”的至暗時刻,作為開源先鋒的DeepSeek再次用新模型給出了一個擲地有聲的回應:開源的崛起不會因此中斷。以DeepSeek為代表的國產開源模型廠商依然找到了在算力受限的情況下,通過后訓練和架構創新來彌補差距,甚至實現反超閉源頂尖模型的解法。
而在這種背景下DeepSeek能做到行業頭部大模型也意味著,DeepSeek在未來一旦開始堆算力,不僅有望成為全球頂尖的語言大模型,甚至可以成為一個多模態的最強全球模型。
實用主義與極致探索
此次DeepSeek更新的兩款模型有著截然不同的定位,分別指向了“工業落地”與“科學探索”兩個極端。
作為9月底發布的實驗版V3.2-Exp的正式繼任者,標準版DeepSeek-V3.2的目標非常明確,那就是平衡推理能力與輸出長度。
在公開的推理測試中,V3.2已達到GPT-5的水平,僅略低于Google最新的Gemini 3 Pro。相比同類產品Kimi-K2-Thinking,V3.2得益于嚴格的訓練策略,其輸出長度大幅降低,顯著減少了計算開銷與用戶等待時間,真正做到了適合問答、通用智能體等日常場景的“話少活好”。
而此次發布的重頭戲DeepSeek-V3.2-Speciale,則是一個為了“贏”而生的偏科天才。
作為V3.2的“長思考增強版”,Speciale結合了DeepSeek-Math-V2的定理證明能力,具備出色的指令跟隨、嚴謹的數學證明與邏輯驗證能力。它的目標是將開源模型的推理能力推向極致。
數據顯示,Speciale在多個推理基準測試中超越了Google最先進的Gemini3 Pro。在美國數學邀請賽(AIME)、哈佛MIT數學競賽(HMMT)、國際奧林匹克數學競賽(IMO)等測試中,Speciale全面超越對手。不過在編程與理工科博士生測試中,Speciale仍略遜于Google的頂級模型。
算法層面的極限突圍
在預訓練算力不如Google的客觀現實下,DeepSeek依然能夠追上第一梯隊,依靠的是其在架構層面“榨干”硬件性能的極致創新。
面對長文本計算量的指數級爆炸,DeepSeek沒有選擇硬抗,而是設計了DSA(DeepSeek稀疏注意力)機制。
這套機制就像一個挑剔的圖書管理員,通過“閃電索引器”只檢索最關鍵的信息,而不是把所有書都翻一遍。在經過V3.2-Exp兩個月的實驗后,DeepSeek確認了DSA的有效性,在不犧牲長上下文性能的前提下,成功將計算復雜度大幅降低。這種設計為V3.2在智能體場景中成為一種極具成本效益的替代方案打下了物理基礎。
V3.2的核心亮點之一是其提到的“Thinking in Tool-Use”(思考型工具調用)。這實際上是AI Agent領域更為通用的技術術語——“Interleaved Thinking”(交錯思維鏈)的一次重量級背書。
DeepSeek并不是業內首個提出該思路的模型廠商,同為國產大模型企業的MiniMax早在其文本模型M2研發階段時,就已經敏銳地捕捉到了這一技術路徑,且是首個將Interleaved Thinking推向行業標準的公司。
隨后,月之暗面的Kimi K2 Thinking也基于“模型即Agent”的理念,通過端到端訓練實現了推理與工具調用的自然融合。
Interleaved Thinking對Agent究竟意味著什么?它不僅僅是簡單的“邊想邊做”,而是在顯式推理(Reasoning)與工具調用(Tool Use)之間交替進行,并將推理結果作為“狀態”持續帶入后續步驟。
從技術本質上看,它將冗長、重度依賴工具的任務轉化為穩定的“計劃→行動→反思”循環;而其核心價值在于,通過復用假設、約束與部分結論(而不是每次從頭推導),極大地減少了多輪任務中的“狀態漂移”與重復性錯誤,確保每一步行動都基于最新的證據(Evidence)。
這一技術聽著并不復雜,實際實現的難度并不簡單,月之暗面聯合創始人吳育昕在K2模型發布后曾在一次Ask Me Anything活動中坦言,支持“思考—工具—思考—工具”的交錯模式是大模型中相對較新的行為,需要大量工作才能做好。
而DeepSeekV3.2的發布,標志著這一極具挑戰的技術已不再是單一廠商的特色探索,而是正式成為了高性能模型的“標配”,從“先鋒探索”走向了“行業共識”。
為何DeepSeek罕見押注Agent?
值得注意的是,在最新的技術報告中,DeepSeek罕見地將“Agent能力”提升到了與“推理能力”同等重要的戰略位置。
從早期的Coder工具調用到如今的Thinking in Tool-Use,DeepSeek著重提及Agent本次不僅是功能的升級,更是對未來行業方向的預判。這背后并非簡單的熱點追逐,而是基于經濟、數據與平臺三個維度的深層邏輯。
從經濟維度來看,過去一年行業發現了一個殘酷的事實:僅靠聊天問答,商業價值難以規模化。
企業真正愿意付費的不是“更優美的回答”,而是“降本增效的行動”——自動生成報表、自動處理工單、自動寫代碼。
Agent給LLM裝上了“眼睛+手+大腦”,使其從“對話式AI”進化為“動作式AI(Actionable AI)”,這才是真正能產生商業閉環的地方。
DeepSeek顯然看到了這一點,試圖通過Agent能力將模型從“聊天機器人”進化為真正的“數字勞動力”。
在數據層面,ScalingLaw遇到的瓶頸在Agent領域找到了突破口。
高質量的人類對話數據昂貴且有限,但Agent的任務軌跡(Trajectory)不同:它可以像DeepSeek此次構建的1,800個合成環境一樣,通過自動化生成、判定和獎勵(Reward),進行大規模的強化學習(RL)。
這意味著,Agent任務數據將成為未來最便宜、最可規模化的優質訓練“燃料”。
而從平臺邏輯的視角出發,大模型正在演變成調度工具、完成任務的通用操作系統。
未來的生態中,模型是內核,Agent是用戶態程序,而插件則是工具。誰先占領了Agent的標準(如MCP、函數調用規范),誰就可能成為AI時代的Windows或iOS。DeepSeek發力智能體領域變意味著其思路已經從工具轉變成基礎設施提供商的轉變。
如何縮小中外差距?
在DeepSeek最新的技術文檔中,他們也毫不避諱的提到了一個觀點:開源與閉源模型的差距,其實正在拉大。
DeepSeek表示,雖然推理模型的發布推動了整體性能的大幅躍升,但過去幾個月中出現了明顯的分化。閉源專有模型如Google、OpenAI、Anthropic的性能增長速度卻顯著更快,專有系統在復雜任務中展現出越來越強的優勢。
DeepSeek認為,開源模型目前存在三個關鍵缺陷:首先是架構層面,對標準注意力機制的過度依賴嚴重制約了長序列處理的效率;其次在資源分配方面,開源模型在后訓練階段的計算投入不足,限制了高難度任務的表現;最后在Agent領域,開源模型在泛化能力和指令遵循能力上與專業模型相比存在明顯差距,影響實際部署。
除了行業通病,DeepSeek也坦誠了自家的局限性。V3.2的世界知識廣度仍落后于領先的專有模型,且為了達到Gemini3Pro的輸出質量,V3.2通常需要生成更多的Token,導致效率較低。同時,在解決極其復雜的綜合任務時,其表現仍不如前沿模型。
面對這些差距,DeepSeek給出了清晰的改進路線:計劃在未來通過增加預訓練計算量來填補知識空白,并專注于優化模型推理鏈的“智能密度”,提高效率,讓模型學會“少說話、多辦事”。
在海外社媒上,有網友評價DeepSeek此次發布是了不起的成就,認為匹配GPT-5和Gemini3 Pro的開源模型終于出現了,差距似乎正在消除。它不斷證明,嚴謹的工程設計可以超越單純的參數規模。
DeepSeek-V3.2的發布,給所有處于焦慮中的開源關注者打了一劑強心針。它證明了,讓Sam Altman緊張、讓Google炫耀的最強模型,并不是不可逾越的天塹。
模型發布后,DeepSeek研究員Zhibin Gou在X上發文:“如果Gemini-3證明了持續擴展預訓練的可能性,DeepSeek-V3.2-Speciale則證明了在大規模上下文環境中強化學習的可擴展性。我們花了一年時間將DeepSeek-V3推向極限,得出的經驗是:訓練后的瓶頸需通過優化方法和數據來解決,而非僅等待更好的基礎模型。”
他還補了一句:“持續擴大模型規模、數據量、上下文和強化學習。別讓那些'遭遇瓶頸'的雜音阻擋你前進。”
這是DeepSeek團隊少有的發聲,而這一幕頗有意味,當行業在討論Scaling Law是否撞墻時,DeepSeek用實打實的模型喊話,想證明Scaling沒死,只是換了戰場。
本文鏈接:從開源最強到挑戰全球最強:DeepSeek新模型給出了解法http://www.sq15.cn/show-3-160377-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。