鄢貴海
當前,我們處于兩個“Scaling Law”激烈碰撞的時代。一個是摩爾定律的Scaling Law,但自2015年起其增速開始顯著放緩,單位芯片面積的性能增量日益變小。然而,芯片性能仍在快速提升,核心原因在于單顆芯片的面積持續增大。
與此同時,另外一個Scaling Law:大模型的Scaling Law為芯片規模擴張和算力提升提供了“涌現”的必要條件。智能與算力形成閉環并相互強化。
在“算力即智能”的時代背景下,高速網絡作為連接與調度大規模算力資源的關鍵基礎設施,其技術范式與性能要求正面臨深刻變革。準確識別并應對這些變化,是把握下一代人工智能計算體系架構機遇的重要前提。
AI芯片的定義
AI需要“AI芯片”,但究竟哪些芯片類型應該被歸于AI芯片的范疇?結合AI的發展歷程,我們嘗試給出AI芯片的一種“定義”:具備與特定AI算法的運算特征高度匹配的計算架構的芯片或芯片組。這里的運算特征主要取決于算法,包括模型可并行、數據可并行、流水線并行、數據精度自適應、迭代、概率性與確定性、Memory footprint、非線性運算、Softmax等,計算架構主要取決于硬件實現,包括計算單元、緩存結構、陣列規模、互聯拓撲、IO帶寬、指令集、可擴展性、虛擬化支持、處理延時、運行能耗、可靠性設計等。
從這個定義上看,AI芯片不僅包括各類GPU/NPU芯片,還包括為了給這些GPU傳輸數據,構建大規模并行系統的網絡芯片。簡而言之,要想得到有效的算力,不僅需要大量高性能的GPU算力芯片,還需要將這些芯片通過高效的網絡有機組合起來,協同工作。可以將其稱之為算力乘法定律:有效算力=算力x網絡。算力和網絡,兩者缺一不可。
AI網絡催生DPU芯片的大發展
計算芯片缺乏數據供給,其算力優勢也很難發揮。而數據需要通過IO獲得,特別是各種高速網絡IO。數據分析顯示,過去10年間IO性能的年均提升幅度遠超CPU,但仍低于GPU算力的增長速度。這表明,當前對于高帶寬IO的需求主要來自于GPU算力的提升。
過去兩年,行業對網絡的關注度空前上升,各種“Link”猶如雨后春筍,NVLink、UALink、EtherLink、ALink等。其原因是AI對于網絡的需求已無法用傳統網絡技術通過量變來滿足,正在逼近質變時刻。
網絡具有天然分層的架構:從最底層用于互聯IP所使用的片上網絡和總線,到不同晶圓互聯所使用的Chiplet互聯協議,到模塊、服務器內設備互聯的PCIe、NVLink技術,再到上層機架范圍互聯中的Scale-Up、RDMA等技術,以及長距離數據中心互聯的VXLAN協議、SD-WAN技術等。越上層的技術網絡屬性越明顯,越底層的技術,IO特征就越清晰。
高速IO的復雜度非常高。相較于處理器芯片內部,IO要處理的任務具有高度不確定性。特別是在追求無損網絡的場景下,技術挑戰更為突出。例如,RDMA技術對網絡丟包極為敏感,這正是UEC等新技術試圖解決的主要挑戰之一。
當前AI模型對算力需求的急劇攀升,使得面向智算中心的高帶寬低延遲網絡也成為技術發展的一個熱點。不同于傳統基于TCP/IP的以“盡量服務”為設計原則的網絡協議,除了帶寬延遲指標不在一個數量級以外,面向AI模型的智算中心網絡,需要的是確定性的“無損”網絡。不同的網絡協議需要設計不同的網絡芯片,因此,面向AI網絡的芯片也成為當下最重要的機遇之一。
產品迭代開拓DPU的廣闊前景
直到現在,業界很多人還將DPU視為一種新型芯片。我們需要重新定義DPU,應該把DPU當作網絡側的載體,作為連接各類資源的代理,無論是真實的物理資源,還是軟件虛擬的資源。
當前業內普遍對DPU的認知是SmartNIC包括NIC,DPU又包括SmartNIC,將DPU簡單歸為超級網卡(SuperNIC)。這種觀點雖然具有合理性,但僅反映了DPU的廣度,沒有反映深度。DPU不僅僅是NIC或SmartNIC發展的延續,更是為了適應AI原生、云原生的創新產品。從廣度而言,DPU既可以支持云原生網絡里的OVS、存儲卸載、彈性裸金屬服務器等應用,也可以支持網絡底層的無損網絡、自定義流控算法、安全加密算法卸載等。但是,當前的一些網絡具有專用屬性,需要與應用深度結合。
DPU從誕生之初,就帶著網絡基因,并且天然傾向于通過數據加速處理來優化系統的性能,通過全棧協議支持對CPU屏蔽網絡的多樣性和網絡傳輸天然的不可靠性。當前國際上DPU的代表性廠商都將DPU作為重要的產品線。抓住這一機遇,有望實現跨越式發展,為國產算力平臺補上DPU芯片的短板。
(作者系中科馭數創始人鄢貴海)
本文鏈接:DPU如何成為AI網絡的“新變量”?http://www.sq15.cn/show-11-26535-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。
上一篇: 彌漫性大B細胞淋巴瘤患者有了更好選擇
下一篇: 血管“隧道”里的戰爭與突圍