(文/觀察者網 呂棟)
機器人不僅能調酒、分揀還能格斗,AI眼鏡不僅能翻譯、導航還能支付,醫療大模型不僅能識別病理切片還能自動生成診斷報告,金融數字員工正從輔助工具變身“專業研究員”......這些畫面并不是科幻電影,而是世界人工智能大會(WAIC 2025)被火爆圍觀的場景。
在這里,每個人都能感受到,中國AI應用創新正呈現百花齊放之勢。但不可否認的是,無論AI技術在哪個場景落地,都離不開算力底座的支撐。尤其是在當下,隨著全球AI競爭進入白熱化,美國不斷收緊技術出口管制,中國產業界更加呼喚底層軟硬件的技術突破。
行業變革中,華為一直走在開放創新的前列。這次參展WAIC,華為重磅展出了昇騰384超節點真機,并獲評“WAIC鎮館之寶”。它的創新之處在于,并沒有像傳統計算架構一樣簡單堆疊芯片,而是通過高速互聯總線,突破互聯瓶頸,讓超節點像一臺“AI服務器”一樣工作,超大帶寬、超低時延和超強性能等三大技術優勢,可以長期滿足行業算力需求。
在國外巨頭的先發優勢下,外界之前或許對國產算力沒有底氣,但相信這次大會能打消不少人的疑慮。在昇騰384超節點的身后,華為全方位展現了昇騰算力底座的創新能力、訓練及推理解決方案、開源開放的軟硬件生態,以及在互聯網、運營商、金融、能源、教育科研等11大行業的豐富實踐。
適配和開發超80個大模型,孵化6000+個行業解決方案等數據,充分證明了昇騰絕對不是“花架子”,而是已形成技術、應用和生態的正向循環。
鎮館之寶背后,是系統工程的突破
自大模型蓬勃發展以來,中國產業界就一直存在算力焦慮。一方面,大模型的Scaling Law(尺度定律)持續有效,訓練和推理的算力需求爆發式增長;另一方面,美國不斷收緊對先進算力芯片的出口管制,并遏制中國先進芯片制造能力,給國產單卡算力追趕制造障礙。
但實際上,大模型技術演進過程中,國產算力的挑戰和機遇并存。一方面訓練萬億參數大模型,僅靠單卡算力無法實現,集群算力成為大勢所趨;另一方面,隨著以DeepSeek為代表的MoE(混合專家模型)成為主流模型架構,其復雜混合并行導致通信需求驟增,單純靠堆芯片,已不能帶來有效算力的線性增加,但給提升通信帶寬進而改善性能帶來機遇。
在這種趨勢下,華為充分發揮在通信、存儲、基礎軟件等方面的大雜燴優勢,通過非摩爾補摩爾、數學補物理等系統工程創新,成功實現業界最大規模的384顆昇騰NPU高速總線互聯,構建了昇騰384超節點。它由12個計算柜和4個總線柜構成,算力總規模達300 PFLOPS。
并且,昇騰384超節點還可以通過靈活分配資源,更好地支持混合專家MoE大模型的訓推,實現384卡“一卡一專家”,是業界唯一支持DeepSeekV3/R1在一個超節點域內即可完成所有的專家并行(EP)的方案,也是MoE模型的最佳訓練/推理方案。
之所以能實現這種超強性能,是因為昇騰超節點并非修補式改進,而是徹底重構系統。一是打破以CPU為中心的馮諾依曼架構,計算單元通過總線直接互訪,轉變為更高效、更靈活的全對等架構;其次,新的總線技術重新定義通信互聯協議,減少系統開銷,內存統一編址,超節點內全局TB級內存統一訪問;第三,突破傳統服務器間通信能力不足帶來的系統性能瓶頸,實現通信能力10倍提升,讓計算不再等待通信,提升算力利用率和整體性能。
在半導體制程受限的情況下,昇騰384超節點通過資源高效調度,一定程度彌補了芯片工藝的不足。性能測試數據顯示,在昇騰超節點集群上,LLaMA3等千億稠密模型性能相比傳統集群提升2.5倍以上;在通信需求更高的Qwen、DeepSeek等多模態、MoE模型上,性能提升可達3倍以上,較業界其他集群高出1.2倍,在行業中處于領先地位。更重要的是,通過最佳負載均衡組網等方案,還能將昇騰超節點組成數萬卡的Atlas 900 SuperCluster超節點集群,支持更大規模的模型訓練,成為中國AI創新的可靠底座。
枝繁葉茂,昇騰已走進千行萬業
“中國制造業像今天這樣如此強大的原因,不僅是它能更便宜地生產東西,也因為它能更便宜、更快、更好、更智能地生產東西,而且正在越來越多地將人工智能融入到產品中來。”美國記者 托馬斯·弗里德曼 在《我在中國看到了世界未來的樣子》一文中寫道。
1 2 3 下一頁 余下全文本文鏈接:為什么昇騰384超節點能成為“鎮館之寶”?http://www.sq15.cn/show-3-150690-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。
下一篇: 印度首次成為美國手機最大供貨地