記者6月1日獲悉,浪潮電子信息產(chǎn)業(yè)股份有限公司近日發(fā)布“源2.0-M32”開源大模型。“源2.0-M32”在“源2.0”系列大模型基礎(chǔ)上,創(chuàng)新性提出和采用了基于注意力機(jī)制的門控網(wǎng)絡(luò)技術(shù),構(gòu)建包含32個(gè)專家的混合專家模型(MoE),大幅提升了模型算力效率。模型運(yùn)行時(shí)激活參數(shù)37億,在業(yè)界主流基準(zhǔn)評(píng)測(cè)中性能全面對(duì)標(biāo)700億參數(shù)的LLaMA3開源大模型。
據(jù)介紹,針對(duì)MoE模型核心的專家調(diào)度策略,“源2.0-M32”采用的新型算法結(jié)構(gòu)——基于注意力機(jī)制的門控網(wǎng)絡(luò),關(guān)注專家模型之間的協(xié)同性度量,可解決傳統(tǒng)門控網(wǎng)絡(luò)下選擇兩個(gè)或多個(gè)專家參與計(jì)算時(shí)關(guān)聯(lián)性缺失問題,大幅提升專家之間協(xié)同處理數(shù)據(jù)的水平。
據(jù)悉,“源2.0-M32”以“源2.0-2B”為基礎(chǔ)模型設(shè)計(jì),沿用并融合局部過濾增強(qiáng)注意力機(jī)制。通過“先學(xué)習(xí)相鄰詞之間的關(guān)聯(lián)性,再計(jì)算全局關(guān)聯(lián)性”的方法,它能更好地學(xué)習(xí)自然語言的局部和全局語言特征。
在數(shù)據(jù)層面,“源2.0-M32”基于超2萬億token(文本中最小的語義單元)進(jìn)行訓(xùn)練,覆蓋萬億量級(jí)的代碼、中英文書籍、百科、論文及合成數(shù)據(jù)。在算力層面,“源2.0-M32”為硬件差異較大的訓(xùn)練環(huán)境提供了一種高性能訓(xùn)練方法。
基于在算法、數(shù)據(jù)和算力方面的創(chuàng)新,“源2.0-M32”性能大幅提升,在數(shù)學(xué)競(jìng)賽、科學(xué)推理榜單上的得分超過700億參數(shù)的LLaMA3開源大模型。
浪潮電子信息產(chǎn)業(yè)股份有限公司人工智能首席科學(xué)家吳韶華表示,大模型在性能不斷提升的同時(shí),也面臨著所需算力大幅攀升的問題。“源2.0-M32”將為企業(yè)開發(fā)應(yīng)用生成式AI提供模型高性能、算力低門檻的高效路徑。“‘源2.0-M32’開源大模型配合企業(yè)大模型開發(fā)平臺(tái),將助力企業(yè)實(shí)現(xiàn)更快的技術(shù)迭代與高效的應(yīng)用落地,為人工智能產(chǎn)業(yè)發(fā)展提供堅(jiān)實(shí)底座,加速產(chǎn)業(yè)智能化進(jìn)程。”他說。
記者6月1日獲悉,浪潮電子信息產(chǎn)業(yè)股份有限公司近日發(fā)布“源2.0-M32”開源大模型。“源2.0-M32”在“源2.0”系列大模型基礎(chǔ)上,創(chuàng)新性提出和采用了基于注意力機(jī)制的門控網(wǎng)絡(luò)技術(shù),構(gòu)建包含32個(gè)專家的混合專家模型(MoE),大幅提升了模型算力效率。模型運(yùn)行時(shí)激活參數(shù)37億,在業(yè)界主流基準(zhǔn)評(píng)測(cè)中性能全面對(duì)標(biāo)700億參數(shù)的LLaMA3開源大模型。
據(jù)介紹,針對(duì)MoE模型核心的專家調(diào)度策略,“源2.0-M32”采用的新型算法結(jié)構(gòu)——基于注意力機(jī)制的門控網(wǎng)絡(luò),關(guān)注專家模型之間的協(xié)同性度量,可解決傳統(tǒng)門控網(wǎng)絡(luò)下選擇兩個(gè)或多個(gè)專家參與計(jì)算時(shí)關(guān)聯(lián)性缺失問題,大幅提升專家之間協(xié)同處理數(shù)據(jù)的水平。
據(jù)悉,“源2.0-M32”以“源2.0-2B”為基礎(chǔ)模型設(shè)計(jì),沿用并融合局部過濾增強(qiáng)注意力機(jī)制。通過“先學(xué)習(xí)相鄰詞之間的關(guān)聯(lián)性,再計(jì)算全局關(guān)聯(lián)性”的方法,它能更好地學(xué)習(xí)自然語言的局部和全局語言特征。
在數(shù)據(jù)層面,“源2.0-M32”基于超2萬億token(文本中最小的語義單元)進(jìn)行訓(xùn)練,覆蓋萬億量級(jí)的代碼、中英文書籍、百科、論文及合成數(shù)據(jù)。在算力層面,“源2.0-M32”為硬件差異較大的訓(xùn)練環(huán)境提供了一種高性能訓(xùn)練方法。
基于在算法、數(shù)據(jù)和算力方面的創(chuàng)新,“源2.0-M32”性能大幅提升,在數(shù)學(xué)競(jìng)賽、科學(xué)推理榜單上的得分超過700億參數(shù)的LLaMA3開源大模型。
浪潮電子信息產(chǎn)業(yè)股份有限公司人工智能首席科學(xué)家吳韶華表示,大模型在性能不斷提升的同時(shí),也面臨著所需算力大幅攀升的問題。“源2.0-M32”將為企業(yè)開發(fā)應(yīng)用生成式AI提供模型高性能、算力低門檻的高效路徑。“‘源2.0-M32’開源大模型配合企業(yè)大模型開發(fā)平臺(tái),將助力企業(yè)實(shí)現(xiàn)更快的技術(shù)迭代與高效的應(yīng)用落地,為人工智能產(chǎn)業(yè)發(fā)展提供堅(jiān)實(shí)底座,加速產(chǎn)業(yè)智能化進(jìn)程。”他說。
本文鏈接:“源2.0-M32”開源大模型發(fā)布http://www.sq15.cn/show-2-6528-0.html
聲明:本網(wǎng)站為非營(yíng)利性網(wǎng)站,本網(wǎng)頁內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻(xiàn),不代表本站觀點(diǎn),本站不承擔(dān)任何法律責(zé)任。天上不會(huì)到餡餅,請(qǐng)大家謹(jǐn)防詐騙!若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。
上一篇: 用人工智能解決心理問題 抑郁狀態(tài)識(shí)別模型準(zhǔn)確率達(dá)90%
下一篇: 智能云打印破解遠(yuǎn)程打印難題