(文/觀察者網 呂棟)
“芯片問題其實沒必要擔心,用疊加和集群等方法,計算結果上與最先進水平是相當的。”近期,華為總裁任正非的一次公開發聲,增強了社會各界對中國AI發展的信心。
我們都知道,中國已經形成了“百模千態”的大模型產業,有多個大模型走在全球前列。但無論AI產業如何發展,算力都是驅動模型演進的根本動力。隨著外部技術封鎖步步緊逼,國產算力能否擔當大用?是否只能做推理而不能做復雜訓練?很多人其實心里沒底。
“我們單芯片還是落后美國一代,我們用數學補物理,非摩爾補摩爾,用群計算補單芯片,在結果上也能達到實用狀況。”任正非的公開發聲,給國內AI產業吃下了一顆“定心丸”。
帶著對國產算力發展的關心,觀察者網與華為2012實驗室的技術專家的做了一次交流,我們了解到,昇騰算力不僅實現推理性能全球領先,同時系統穩定性也保持在高水平,能高效訓出世界一流的萬億參數大模型。尤其是CloudMatrix 384超節點技術,以系統補單點,從堆芯片到拼架構,核心指標比肩英偉達,成為中國AI發展的堅實算力底座。
芯片問題為何不用擔心?
在外部制裁圍堵下,芯片問題就像“達摩克里斯之劍”一樣,一直懸在中國產業界頭上。尤其隨著中美AI競爭愈發激烈,美國一方面竭力遏制中國先進芯片制造的能力,另一方面又不斷收緊對英偉達高端芯片的出口管制,試圖讓中國AI產業在“算力囚籠”中止步不前。
但危中也有機。行業的發展趨勢是,當Transformer這樣的大型神經網絡模型橫空出世,萬億參數模型開始涌現,對算力和顯存的需求呈爆炸式增長,單個GPU甚至單個服務器都難以招架,集群算力成為大勢所趨,這也給中國用系統方法解決算力困境帶來契機。
說起“系統論”,老一輩中國人可能并不陌生。錢學森的《論系統工程》,核心思想就是把研究對象看做一個整體而不是孤立的點,通過整體優化彌補單點落后。
華為制裁中突圍,正是受到系統工程的啟發。技術專家對觀察者網表示,算力基礎設施是復雜的系統,華為把各個部分打通了,在內部組織了算力會戰,把華為云、模型、底座、芯片、硬件工程、基礎軟件的研發力量集結在一起,跨部門作戰,深度協同。這樣的環境和機制,能夠產生協同效應和系統工程的整合,實現了“大雜燴”技術的有效利用和協同創新。
基于系統工程,華為構建了巨型算力基礎設施CloudMatrix 384超節點,通過全對等高速互聯架構,讓384張昇騰卡可以像一臺計算機一樣工作。它的算力總規模達300Pflops,是英偉達旗艦NVL72的1.7倍;網絡互聯總帶寬達269TB/s,比英偉達NVL72提升107%;內存總帶寬達1229TB/s,比英偉達NVL72提升113%。更關鍵的是,它還能擴展為包含數萬卡的Atlas 900 SuperCluster超節點集群,未來可以支撐更大規模的模型演進。
“超節點是復雜系統,單卡的技術指標并不代表系統的效能,我們‘系統工程’,要達到的是系統最佳,而不是單點最強。解決這些超復雜系統的問題需要懂理論,如系統論,控制論,信息論,計算數學等;同時,我們通過數學的方法對計算系統進行建模、仿真,想辦法把每一部分都用起來,做到不浪費,各個部分完美配合,高效協同。”華為技術專家表示。
我們都知道,芯片制造遵循著“摩爾定律”,但前提是獲取先進的設備材料。在制裁圍堵下,華為通過復雜系統優化,實現了“非摩爾補摩爾”的效果,讓單芯片短板不再是制約。
華為技術專家指出,單芯片制程從7納米到5納米、3納米、2納米,每代性能提升不超過20%,總體能提升50%左右。華為通過高效的超節點系統,提升了芯片算力利用率。“MoE大模型訓練,我們以前MFU(模型算力利用率)是30%,業界也是差不多這個水平,我們最新公布的數據提升到41%,實驗室是45%多。從30%提升到45%,利用率相當于提升了50%。在硬件什么也沒有改變的情況下,通過系統工程的優化,資源的高效調度,一定程度彌補了芯片工藝的不足。”
“西方不斷打補丁,我們重新定義架構”
華為被制裁的這幾年,算力產業其實也處在變革過程中。
隨著大模型Scaling Law(尺度定律)的持續演進,整個AI行業產生了巨量算力需求。但是傳統的計算集群已經出現瓶頸,無限制的堆卡并不能帶來算力的線性提升,反而會產生“內存墻”、“規模墻”和“通信墻”的問題。這是因為在集群內部,算力卡之間和服務器之間并不是獨立工作,而是需要邊計算邊“溝通”,如果通信能力跟不上,就會出現算力閑置。
過去8年間,單卡硬件算力增長了40倍,但節點內總線帶寬只增長了9倍,跨節點的網絡帶寬只增長了4倍,這使得集群網絡通信成為當前大模型訓練和推理的最大挑戰。因此如果不能提升通信效率,單純把384張昇騰卡堆起來,計算效果并不一定就比72張英偉達卡更好,因為卡間和服務器間的通信開銷會抵消算力增加的收益,導致有效算力不升反降。
作為算力產業先行者,英偉達早早意識到這個問題。黃仁勛的做法是,把之前消費級顯卡上的NVLink技術移植到計算集群中,相當于給GPU之間搭建一條“專用超寬車道”并且把多顆GPU、CPU、高帶寬內存、NVLink/NVSwitch等高度集成,打造了NVL72超節點。
但問題是,NVLink只能用于英偉達自家GPU之間的通信,節點內的NPU、FPGA等非GPU異構硬件,并不能走這條“超寬車道”,還是要通過效率較低的PCIe協議走CPU中轉,同時節點之間通過以太網/InfiniBand等協議跨機互聯,在巨量計算中也存在帶寬堵點。
不同于這種做法,華為CloudMatrix 384超節點對計算架構進行重構,徹底打破了傳統以CPU為中心的馮諾依曼架構,創新提出了“全對等架構”。它通過3168根光纖和6912個400G光模塊構建了高速互聯總線,并把總線從服務器內部擴展到整機柜、甚至跨機柜,最終將CPU、NPU、DPU、存儲和內存等資源全部互聯和池化,這樣做就能去除掉了繁多的中轉環節,從而實現真正的點對點互聯,進而實現更大的算力密度和互聯帶寬。
“西方是繼承發展,任總形象地比喻為‘百納衣’,就是衣服破了以后不斷地打補丁,協議不同,互通要轉換的,包頭套包頭,有效載荷就很小了。我們重新定義了對等的架構,統一了所有的通信協議,互通就不需要轉換,提升了有效載荷。”華為技術專家對觀察者網說道。
“打鐵還需自身硬,充分滿足國內需要”
華為構建了這么強大的昇騰算力,實際應用效果怎么樣?尤其是在英偉達高端算力被封鎖的情況下,昇騰算力到底能不能給中國AI發展帶來底氣和信心?這是行業內外真正關心的。
1 2 下一頁 余下全文本文鏈接:芯片問題不用擔心,華為是如何應用“系統論”的?http://www.sq15.cn/show-3-147241-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。