21世紀經(jīng)濟報道記者孔海麗 北京報道
DeepSeek低調(diào)發(fā)布了DeepSeek-V3模型的更新版本——DeepSeek-V3-0324。
沒有主動傳播,但引起了AI行業(yè)的一陣波瀾,一個值得關(guān)注的信息點在于,該版本仍然基于V3的模型,改進訓(xùn)練方法后,大幅提高了推理類任務(wù)的表現(xiàn)水平,在數(shù)學(xué)、代碼類相關(guān)評測集上取得超過GPT-4.5的得分成績。
多維度性能改進
DeepSeek-V3-0324參數(shù)量為6850億,較上一版本的6710億略有增加。模型在代碼、數(shù)學(xué)推理等能力上實現(xiàn)了提升,尤其在代碼領(lǐng)域表現(xiàn)突出。在Aider的多語言基準(zhǔn)測試中,DeepSeek-V3-0324成績達到55%,較前代版本明顯提升,成為僅次于Sonnet 3.7的非推理類模型第二名,代碼能力甚至可與Claude 3.7 Sonnet相媲美。
親民部署與開源升級?
除了性能提升,DeepSeek-V3-0324在部署方面也表現(xiàn)出優(yōu)勢。該版本模型采用寬松的MIT開源協(xié)議,且可直接部署在M3 Ultra的Mac Studio上,這意味著大模型開發(fā)應(yīng)用的門檻更進一步降低。蘋果機器學(xué)習(xí)工程師Awni Hannun 基于MLX框架和4-bit量化,在 512GB M3 Ultra上實現(xiàn)了超過20 token/s的運行速度,將模型磁盤占用空間減少到352GB。
相比之前的自定義許可證,新協(xié)議還支持開發(fā)者自由修改、分發(fā)模型,支持模型蒸餾和商業(yè)化應(yīng)用,進一步推動了AI技術(shù)的共享與創(chuàng)新。?
沖擊行業(yè)格局
從國內(nèi)市場來看,AI領(lǐng)域“六小龍”在DeepSeek的沖擊下出現(xiàn)分化。Quest Mobile1月數(shù)據(jù)顯示,當(dāng)月DeepSeek日活超越豆包,Kimi退居第三,月之暗面受到的沖擊較為明顯。而騰訊因全面擁抱DeepSeek,在基礎(chǔ)模型領(lǐng)域?qū)崿F(xiàn)追趕。?
在國際市場,DeepSeek的技術(shù)突破也引發(fā)了諸多討論。英偉達因DeepSeek的熱度,股價震蕩下行,投資者擔(dān)憂DeepSeek的技術(shù)進步會降低市場對英偉達昂貴硬件的需求,以至于黃仁勛近日在GTC大會上特意強調(diào):“DeepSeek帶來的并不是硬件需求的減少,反而會推動對強大硬件的需求。”黃仁勛話音剛落,傳來騰訊增購數(shù)十億元芯片的消息,這些需求主要就是包括布置DeepSeek在內(nèi)的大模型帶來的。
與此同時,業(yè)內(nèi)共識在于,DeepSeek的火爆,表明中國在基礎(chǔ)設(shè)施軟件工程等領(lǐng)域取得了領(lǐng)先地位。?
此次DeepSeek-V3-0324的更新,并非市場此前期待的DeepSeek-V4或R2。但從發(fā)布時間和技術(shù)特點來看,市場猜測,DeepSeek-R2有可能在不久后上線。R2有望進一步提升模型的推理能力,持續(xù)改寫AI產(chǎn)業(yè)的競爭格局,推動各行業(yè)智能化變革走向深入。?
本文鏈接:DeepSeek低調(diào)上新:友好度躍升http://www.sq15.cn/show-2-11498-0.html
聲明:本網(wǎng)站為非營利性網(wǎng)站,本網(wǎng)頁內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻,不代表本站觀點,本站不承擔(dān)任何法律責(zé)任。天上不會到餡餅,請大家謹防詐騙!若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。