北京時間9月17日晚,DeepSeek創始人梁文鋒作為論文通訊作者,與同事合作的關于開源人工智能(AI)模型DeepSeek-R1采用的大規模推理模型訓練方法的文章以封面形式發表于《自然》。研究表明,大語言模型(LLM)的推理能力可通過純強化學習來提升,從而減少增強性能所需的人類輸入工作量。訓練出的模型在數學、編程競賽和STEM領域研究生水平問題等任務上,比傳統訓練的LLM表現更好。
讓AI模型像人類一樣進行推理一直是難題。LLM已顯示出一些推理能力,但訓練過程需要大量計算資源。通過人工提示引導可改進這類模型,促使其生成中間推理步驟,從而大為強化其在復雜任務中的表現。但這個方法會導致計算成本過高,并限制其擴展潛力。
9月18日《自然》封面。
DeepSeek-R1包含一個在人類監督下的深入訓練階段,以優化推理過程。梁文峰和同事報告,該模型使用了強化學習而非人類示例來開發推理步驟,從而減少了訓練成本和復雜性。DeepSeek-R1在被展示優質的問題解決案例后,會獲得一個模板來產生推理過程。這一模型通過解決問題獲得獎勵,從而強化學習效果。在評估AI表現的數學基準測試中,DeepSeek-R1-Zero和DeepSeek-R1得分分別為77.9%和79.8%。研究者補充說,該模型在編程競賽及研究生水平的生物學、物理和化學問題上同樣表現優異。
當前版本的DeepSeek-R1有一些能力限制,研究者希望能在未來版本中得到改進。例如,該模型有時會混合語言,目前只針對中文和英文做了優化。它對提示詞也很敏感,需要精心設計的提示詞工程,在某些任務上沒有展現出明顯提升,例如軟件工程任務。研究者總結說,未來研究可以聚焦優化獎勵過程,以確保推理和任務結果可靠。
在同期發表的新聞觀點文章中,卡內基梅隆大學的Daphne Ippolito和張益銘表示,當學生遇到具有挑戰性的數學問題或程序員需要編寫復雜算法時,他們很少能一次性解決所有問題。相反,他們會通過推理過程,記錄筆記和中間步驟來最終得出解決方案。同樣地,大型語言模型(LLMs)——這種處理并生成人類語言的人工智能(AI)系統——在解決復雜任務時,如果先寫下推理過程再給出答案,其表現要比直接給出答案更好。大型語言模型(LLM)在輸出中間推理步驟時準確性更高。一種名為“強化學習”的試錯過程,可以教會它們自主做到這一點,而無需外部指令。
相關論文信息:
https://doi.org/10.1038/s41586-025-09422-z
https://doi.org/10.1038/d41586-025-02703-7
本文鏈接:DeepSeek登上《自然》封面http://www.sq15.cn/show-11-26132-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。