21世紀(jì)經(jīng)濟(jì)報道記者 張賽男 上海報道
2023年被公認(rèn)為是“大模型元年”,國內(nèi)外大模型層出不窮,堪稱“百模大戰(zhàn)”。在這場競賽中,通用大模型、垂直大模型、端側(cè)大模型……各家發(fā)布的大模型各有特色,都想從中分一杯羹。
2024年開年之際,新的競爭也來臨。先是獵豹移動發(fā)布獵戶星空大模型,后有巖山科技(002195.SZ)旗下巖芯數(shù)智推出的自研大模型“Yan模型”……大模型賽道依舊吸引著各路資本的投入。
盡管競爭者眾多,但市場總會決出最終的贏家,關(guān)鍵是花落誰家?
巖山科技常務(wù)副總經(jīng)理、巖芯數(shù)智董事長陳代千對21世紀(jì)經(jīng)濟(jì)報道記者表示:“最終跑出來的大模型一定具有非常好的用戶體驗。大模型本質(zhì)上是用戶的體驗,不管是B端還是C端,最終是用戶來評價這個大模型好用不好用。用戶體驗怎樣才能好?首先,要能完成用戶給出的任務(wù),如果不能完成任務(wù),談高效率、低能耗是不現(xiàn)實的。在能完成任務(wù)的基礎(chǔ)上,以更低能耗和更高效率去完成,客戶才會有很強(qiáng)的意愿去復(fù)用。”
1月24日,巖芯數(shù)智發(fā)布“Yan模型”,打出的標(biāo)簽是“非Transformer架構(gòu)”,為國內(nèi)首個非Attention機(jī)制的通用自然語言大模型。在陳代千看來,“Yan模型”去除了Transformer中高成本的注意力機(jī)制,代之以計算量更小、難度更低的線性計算,能實現(xiàn)高效率、低能耗的目標(biāo)。
Transformer架構(gòu)或許讓普通人感到陌生,但其實是當(dāng)下爆火的GPT、LLAMA、PaLM等大模型普遍采用的基礎(chǔ)架構(gòu)。憑借著強(qiáng)大的自然語言理解能力,Transformer在問世的短短幾年內(nèi)便取代了傳統(tǒng)的RNN網(wǎng)絡(luò)結(jié)構(gòu),不僅成為自然語言處理領(lǐng)域的主流模型架構(gòu),還在計算機(jī)視覺、語音識別等多個領(lǐng)域展示了其跨界的通用能力。
在Transformer已經(jīng)占據(jù)人工智能領(lǐng)域半壁江山的今天,巖芯數(shù)智為何要另辟蹊徑?
算力和成本是巖芯數(shù)智的出發(fā)點。巖芯數(shù)智CEO劉凡平介紹,以大規(guī)模著稱的Transformer,在實際應(yīng)用中的高算力和高成本,讓不少中小型企業(yè)望而卻步。其內(nèi)部架構(gòu)的復(fù)雜性,讓決策過程難以解釋;長序列處理困難和無法控制的幻覺問題也限制了大模型在某些關(guān)鍵領(lǐng)域和特殊場景的廣泛應(yīng)用。隨著云計算和邊緣計算的普及,行業(yè)對于高效能、低能耗AI大模型的需求正不斷增長。
“Yan團(tuán)隊早在三年前就已經(jīng)開始布局、落地非transformer架構(gòu)相關(guān)的事情。在這個過程中,行業(yè)也慢慢了解到transformer架構(gòu)機(jī)制有一些共性的缺陷,所以大家都會去研究有沒有其他的算法去優(yōu)化、甚至替代這個結(jié)構(gòu)?!标惔дf,“我們基于此前的實踐,確信非transformer的路線是可行的?!?span style="display:none">FEW速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
陳代千還談到,“對很多的企業(yè)來說,并不是一定要用千億大模型,用百億大模型也許就可以達(dá)到效果。在千億大模型上訓(xùn)練成本太高,以至于可能無法快速迭代。我們對通用大模型的理解是,它當(dāng)然要解決很多普適性的問題,但是它必須個性化、同時必須低能耗?!彼€透露,基于Yan架構(gòu),僅需投入同等規(guī)模Transformer架構(gòu)成本的50%甚至更低,就可以擁有百萬參數(shù)級的大模型。
那么,這個新架構(gòu)下的大模型運(yùn)行效率如何?從巖芯數(shù)智給出的對比結(jié)果來看,在同等資源條件下,Yan架構(gòu)的模型,訓(xùn)練效率和推理吞吐量分別是Transformer架構(gòu)的7倍及5倍,并使記憶能力得到3倍提升。對比數(shù)據(jù)表明,在單張4090 24G顯卡上,當(dāng)模型輸出token的長度超出2600時,Transformer的模型會出現(xiàn)顯存不足,而Yan模型的顯存使用始終穩(wěn)定在14G左右,理論上能夠?qū)崿F(xiàn)無限長度的推理。
在主流架構(gòu)之外去搭建一個新的系統(tǒng),巖芯數(shù)智顯然面臨著更大的挑戰(zhàn)。
當(dāng)被問及如何看待全新生態(tài)系統(tǒng)帶來的難度時,巖芯數(shù)智CTO楊華對21世紀(jì)經(jīng)濟(jì)報道記者坦言,“這個點確實會存在,我們從零開始搭建構(gòu)建自己的生態(tài),確實需要花費(fèi)更多時間,但也是我們堅信要走的一條路?!?span style="display:none">FEW速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
他還表示,現(xiàn)在發(fā)布的產(chǎn)品是Yan 1.0版本,目前正在做Yan 2.0?!白詈蟮耐ㄓ萌斯ぶ悄?,它肯定不僅僅是現(xiàn)在以語言輸入、文本輸出等形式,它應(yīng)該是比如計算機(jī)視覺、視頻甚至數(shù)字信號等全模態(tài)的內(nèi)容都可以輸入,然后我的模型也能夠以各種形態(tài),比如說以文字吐出、語音合成或者視頻、信號處理的方式吐回這個結(jié)果。我們想做的Yan 2.0,其實就是往這個方向走,做一個全模態(tài)的實時人機(jī)交互系統(tǒng)?!?span style="display:none">FEW速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
本文鏈接:巖芯數(shù)智董事長陳代千:通用大模型要解決普適性問題,但必須個性化、低能耗http://www.sq15.cn/show-2-2395-0.html
聲明:本網(wǎng)站為非營利性網(wǎng)站,本網(wǎng)頁內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻(xiàn),不代表本站觀點,本站不承擔(dān)任何法律責(zé)任。天上不會到餡餅,請大家謹(jǐn)防詐騙!若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。