近日,中國科學院自動化研究所李國齊和徐波團隊與相關單位合作,推出類腦脈沖大模型“瞬悉1.0”(SpikingBrain-1.0)。該模型基于團隊原創“內生復雜性”理論,在國產千卡GPU算力平臺上完成全流程訓練和推理,實現大模型在超長序列推理上數量級的效率和速度提升,展現出構建國產自主可控的新型(非Transformer)大模型架構生態的可行性。研究團隊開源了SpikingBrain-1.0-7B模型,開放SpikingBrain-1.0-76B測試網址,同步公開經工業界大規模驗證的類腦脈沖大模型SpikingBrain-1.0中英文技術報告。
當前主流的Transformer模型存在固有缺點,即訓練時開銷隨序列長度呈平方級增長,推理時顯存占用隨序列長度線性增加,造成資源消耗,導致其處理超長序列能力受限。
研發團隊借鑒大腦神經元內部復雜工作機制,提出“基于內生復雜性”大模型構架方式,打造類腦脈沖大模型“瞬悉1.0”,在理論上建立脈沖神經元內生動力學與線性注意力模型之間的聯系,揭示現有線性注意力機制是樹突計算的特殊簡化形式,展示出一條不斷提升模型復雜度和性能的新型可行路徑。進一步,研發團隊構建并開源了基于脈沖神經元、具有線性及混合線性復雜度的新型類腦基礎模型,開發出面向國產GPU集群高效訓練和推理框架、Triton算子庫、模型并行策略、集群通信原語。
SpikingBrain-1.0在多個性能方面實現突破:實現極低數據量高效訓練、實現推理效率數量級提升、構建國產自主可控類腦大模型生態、提出基于動態閾值脈沖化的多尺度稀疏機制。
這是我國首次提出大規模類腦線性基礎模型架構,并首次在國產GPU算力集群上構建類腦脈沖大模型的訓練和推理框架。其超長序列處理能力在法律與醫學文檔分析、復雜多智能體模擬、高能粒子物理實驗、DNA序列分析、分子動力學軌跡等超長序列任務建模場景中具有顯著的潛在效率優勢。
相關鏈接:
網絡端的試用端口
英文技術報告
本文鏈接:類腦脈沖大模型“瞬悉1.0”成功研發http://www.sq15.cn/show-12-1751-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。