9月1日,美團(tuán)宣布LongCat-Flash-Chat正式發(fā)布,在Github、Hugging Face平臺(tái)開(kāi)源,并同步上線官網(wǎng)。
此前有自媒體“01Founder”爆料稱,LongCat-Flash最大的亮點(diǎn)是其訓(xùn)練并非在英偉達(dá)GPU上完成,而是在國(guó)產(chǎn)加速卡上進(jìn)行。美團(tuán)已經(jīng)成功跑通了一條不被“卡脖子”的技術(shù)路徑,但由于一些原因,真正的硬件廠商具體名字不方便透露。
對(duì)于該爆料,美團(tuán)方面未作正面回應(yīng),只介紹稱,LongCat-Flash采用創(chuàng)新性混合專家模型(Mixture-of-Experts, MoE)架構(gòu),總參數(shù)560B,激活參數(shù)18.6B-31.3B(平均 27B),實(shí)現(xiàn)了計(jì)算效率與性能的雙重優(yōu)化。
根據(jù)多項(xiàng)基準(zhǔn)測(cè)試綜合評(píng)估,作為一款非思考型基礎(chǔ)模型,LongCat-Flash-Chat在僅激活少量參數(shù)的前提下,性能比肩當(dāng)下領(lǐng)先的主流模型,尤其在智能體任務(wù)中具備突出優(yōu)勢(shì)。
此外,因?yàn)槊嫦蛲评硇实脑O(shè)計(jì)和創(chuàng)新,LongCat-Flash-Chat具有明顯更快的推理速度,更適合于耗時(shí)較長(zhǎng)的復(fù)雜智能體應(yīng)用。
LongCat-Flash的基礎(chǔ)測(cè)試性能
至于美團(tuán)為何要加入大模型之戰(zhàn),或與公司AI戰(zhàn)略的三個(gè)層面有關(guān),即AI at work、AI in products以及 Building LLM。
今年以來(lái),美團(tuán)AI進(jìn)展頻傳,發(fā)布了AI Coding Agent工具 NoCode 、AI經(jīng)營(yíng)決策助手袋鼠參謀、酒店經(jīng)營(yíng)的垂類AI Agent美團(tuán)既白等多款A(yù)I應(yīng)用。此次模型開(kāi)源則是其 Building LLM 進(jìn)展的首度曝光。
再具體點(diǎn)看,LongCat-Flash模型在架構(gòu)層面引入“零計(jì)算專家(Zero-Computation Experts)”機(jī)制,總參數(shù)量 560B,每個(gè)token依據(jù)上下文需求僅激活18.6B-31.3B參數(shù),實(shí)現(xiàn)算力按需分配和高效利用。為控制總算力消耗,訓(xùn)練過(guò)程采用PID控制器實(shí)時(shí)微調(diào)專家偏置,將單token平均激活量穩(wěn)定在約27B。
此外,LongCat-Flash在層間鋪設(shè)跨層通道,使MoE的通信和計(jì)算能很大程度上并行,提高了訓(xùn)練和推理效率。配合定制化的底層優(yōu)化,LongCat-Flash在30天內(nèi)完成高效訓(xùn)練,并在H800上實(shí)現(xiàn)單用戶100+tokens/s的推理速度。LongCat-Flash還對(duì)常用大模型組件和訓(xùn)練方式進(jìn)行了改進(jìn),使用了超參遷移和模型層疊加的方式進(jìn)行訓(xùn)練,并結(jié)合了多項(xiàng)策略保證訓(xùn)練穩(wěn)定性,使得訓(xùn)練全程高效且順利。
LongCat-Flash架構(gòu)圖
針對(duì)智能體(Agentic)能力,LongCat-Flash自建了Agentic評(píng)測(cè)集指導(dǎo)數(shù)據(jù)策略,并在訓(xùn)練全流程進(jìn)行了全面的優(yōu)化,包括使用多智能體方法生成多樣化高質(zhì)量的軌跡數(shù)據(jù)等。
通過(guò)算法和工程層面的聯(lián)合設(shè)計(jì),LongCat-Flash在理論上的成本和速度都大幅領(lǐng)先行業(yè)同等規(guī)模、甚至規(guī)模更小的模型;通過(guò)系統(tǒng)優(yōu)化,LongCat-Flash在H800 上達(dá)成了100 token/s的生成速度,在保持極致生成速度的同時(shí),輸出成本低至5元/百萬(wàn)token。
本文系觀察者網(wǎng)獨(dú)家稿件,未經(jīng)授權(quán),不得轉(zhuǎn)載。
本文鏈接:美團(tuán)首個(gè)大模型被爆成功跑通國(guó)產(chǎn)化訓(xùn)練路徑,可在國(guó)產(chǎn)加速卡上進(jìn)行http://www.sq15.cn/show-3-153684-0.html
聲明:本網(wǎng)站為非營(yíng)利性網(wǎng)站,本網(wǎng)頁(yè)內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻(xiàn),不代表本站觀點(diǎn),本站不承擔(dān)任何法律責(zé)任。天上不會(huì)到餡餅,請(qǐng)大家謹(jǐn)防詐騙!若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。
上一篇: 騰訊混元階躍星辰美團(tuán)開(kāi)源新模型;抖音微博DeepSeek宣布對(duì)AI生成合成內(nèi)容添加標(biāo)識(shí)