編者按
在數字經濟潮涌與大模型井噴的時代,算力正如水、電一般,逐日成為現代社會賴以生存的稀缺資源。可以說,誰擁有了算力的主導權,誰就捏住了面向人工智能的頭等船票。
這樣的時代巨浪下,我國的算力也已步入高速發展新階段。在此過程中,構建全國一體化算力網,更是應對新一輪科技革命和產業變革的重要舉措。而在進行全國“算力網”的布局中,存在不同的市場主體角色,包括阿里、華為、電信運營商乃至其他算力服務商,都有自己的主張。
就此,21世紀經濟報道推出“算力網風云”系列報道,圍繞中國算力一體化體系建設現狀、難點與堵點、產業鏈機會等進行全方位解讀。在對國內算力網現狀進行5篇稿件解讀后,接下來的系列稿件將重點關注算力上中下游產業鏈企業如何參與一體化算力網建設,以及隨著全國一體化算力網建設鋪開,相關產業鏈未來的發展空間、投資機會。
算力產業鏈系列稿的第三篇、亦即專題第八篇稿件重點關注服務器產業鏈。在全國算力一體化建設的背景下,算力服務器正在扮演著至關重要的角色。傳統算力服務器如何更好地迎合當下大模型的海量需求,仍是一個值得產業界思考的命題。
21世紀經濟報道記者張梓桐 上海報道
在全國算力一體化建設的背景下,算力服務器正在扮演著至關重要的角色。
一方面,作為提供計算資源的核心設備,算力服務器是實現全國算力一體化的基礎。通過集中或分布式部署,算力服務器為各種應用和服務提供必要的計算能力。另一方面,在全國算力一體化的體系中,算力服務器可以作為算力調度的中心節點,根據需求動態分配和調整計算資源,以滿足不同地區和行業的計算需求。
與此同時,在AI訓練需求快速上升的背景下,服務器市場規模也在快速擴張。IDC預計,2023年中國人工智能服務器市場規模將達到91億美元,同比增長82.5%;2027年將達到134億美元,年均復合增長率為21.8%。
但在全國一體化算力網建設規劃下,傳統算力服務器也面臨著新的升級需求。
神州數碼信創業務集團計算產品線總經理吳艷偉在接受21世紀經濟報道記者采訪時表示,算力需求的波動性算力需求會呈現峰值和低谷,需要數據中心能夠靈活應對這種需求波動。例如,在特定事件(如春節)期間,某些地區的算力需求會急劇上升。而在這一背景下,就對數據中心自動化和智能化運維水平提出了極高的要求。
在他看來,未來為了應對算力需求的波動,數據中心需要自動化和智能化的運維工具,以實現算力的快速調度和優化,同時保證安全性和實現預測性維護。
一體化算力網建設
2023年12月,國家發展改革委、國家數據局會同有關部門聯合印發《深入實施“東數西算”工程 加快構建全國一體化算力網的實施意見》(簡稱“實施意見”)。
“文件印發以來,我們統籌優化算力資源配置。加快建設全國一體化算力網,推動通用算力、智能算力、超級算力等多源異構算力的協同發展,促進各類新增算力向國家樞紐節點集聚。在構建跨域算力調度體系方面,國家數據局正在推動建立八大樞紐節點和十大數據中心集群算力發展情況一本賬,以十大集群為核心,推動算力資源混合部署和統一調度。”國家發展改革委黨組成員、國家數據局局長劉烈宏在近期舉辦的新聞發布會上總結道。
但與此同時,劉烈宏也指出,在算力資源分布等方面仍有多種問題需要解決。其中關鍵的難題在于“算力網絡”的編織工作仍未完成。
“目前我國在跨區域、多層次算力高速直連網絡尚未完全建立,大規模網絡流量資費較高,一定程度上阻礙了西部有效承接東部算力需求。算力與電力系統協同發展水平亟待加強。數據中心能效管理、綠色評價機制設計等方面有待優化提升,源網荷儲新型電力系統尚未得到很好應用。數據中心集群安全防護水平有待進一步提升。統一集約化的數據中心安全防范體系尚未完全建立,一體化安全保障服務能力仍需加強。”劉烈宏說道。
事實上,圍繞上述問題政策也在發力布局。日前,為進一步推動算力服務器市場結構的新舊更替,為液冷、整機柜等新型技術產品提供更大的發展空間。工信部、國家發展改革委、財政部等六部門聯合發布《工業能效提升行動計劃》,其中指出,東數西算”工程中,要求內蒙古、貴州、甘肅、寧夏4處樞紐設立的數據中心集群PUE控制在1.2以內;京津冀、長三角、粵港澳大灣區、成渝樞紐設立的數據中心集群PUE控制在1.25以內。
而在實際執行中,各地采取了更為嚴格的能效標準。比如北京規定新建和改擴建智算中心PUE值一般不超過1.25,年能耗超過3萬噸標煤的大規模先進智算中心PUE值一般不超過1.15。更為嚴格的PUE約束,將讓數據中心運營商對于液冷、整機柜等高能效的技術方案的傾向性進一步增強。浪潮信息在液冷領域已經處于領先優勢。根據IDC數據,中國液冷服務器市場在2023年銷售額同比增長48.0%,預計2023-2028年市場年復合增長率將達到45.8%。2023年,浪潮信息市場份額 36.8%,排名第一。
算力服務器異構單元挑戰
從技術角度來看,AI大模型對于算力服務器提出了無窮盡的需求。
“如果說千億參數是大模型智能涌現的門檻,那么萬卡則是AI系統設計的起點,對目前計算機系統提出了全面的挑戰。”
首當其沖的挑戰就是計算資源不足,浪潮信息相關負責人表示,AI系統的性能主要源于GPU等加速器,AI需要計算機系統具有強大的異構擴展能力,但是傳統的計算機體系結構限制了異構加速器的擴展性。
“加速計算模塊一直被作為CPU的配屬單元,依靠PCI-e總線接入系統,只支持有限數量的異構單元,并且同CPU的通信帶寬也十分有限,因而CXL、NVlink等下一代總線技術發展迅速。”
而在大模型的互聯方面,該負責人表示,當前AI訓練集群已經從千卡、增長到萬卡、十萬卡,節點間的并行產生大量的通信需求。
相關數據顯示,當前張量并行頻率有28.4次/S,需要帶寬194GB/S,網絡的延遲和帶寬不足使得計算單元經常因為等待數據而空閑,嚴重限制了集群效率。例如GPT-4的集群有2.5萬塊GPU,效率32%-36%,非常低,但在當前技術條件下幾乎觸頂。
在算法效率方面,由于AI訓練是一個超級復雜的計算系統,算法結構與硬件結構匹配不合理、并行化處理不科學等都會導致整個計算平臺的利用率偏低。
除此之外,智能算力需求的擴大也導致算力服務器面臨巨大能效壓力,當前單顆AI芯片的功耗已經突破2700W,單機柜AI服務器的功耗已經突破100KW,這樣的熱功率密度幾乎超越了風冷的物理極限。而且國家“雙碳”戰略背景下,AI的能效挑戰越來越大,不論技術、經濟還是政策層面看,數據中心的液冷化是大勢所趨。
巨大業務機遇
在上述問題的驅動下,算力服務器也在呈現出一些新的發展趨勢。
首先,底層的體系結構創新迎來黃金時代。傳統以CPU為中心的體系結構明顯不能適應人工智能的計算需求,以數據為中心,基于CXL、NVlink等下一代總線技術的新一代體系結構發展迅速。
與此同時,系統創新越來越重要。單顆芯片性能提升受限,而AI對于大算力的追求永無止境。因此,AI計算系統只能集成越來越多的芯片來獲得大算力,AI計算集群的設計起點已經達到了萬卡級別。大規模計算系統中,互連、算法等關系整體效率的工作越來越重要,芯片的重要性反而在不斷下降。
“智算節點內的P2P高速互連距離是非常有限的,最多能做到1-2個機柜之間的高速互連,所以AI計算必然走向高密度。同時,GPU的功耗越來越高,比如英偉達最新的GB200超級芯片(集成了一顆CPU、2顆GPU)最大功耗達到了2700W,高密度部署與高功耗芯片疊加,一方面使得智算服務器從傳統機架向整機柜升級,從單臺服務器交付向整機柜一體化交付升級,另一方面使得單機柜功率迅速提升從當前的12-16千瓦走到120千瓦,散熱將逐漸走向液冷。AI計算、液冷和整機柜的結合將成為未來趨勢。”上述浪潮負責人說道。
此外需要指出的是,在算力一體化布局下,服務器產業鏈公司也隨之迎來了相關發展機遇。
吳艷偉表示,隨著技術的發展,數據中心的運維正在更加智能,包括預測性維護和故障自愈能力,以提高運營效率和可靠性。
除此之外,一體化算力網的建設也進一步顛覆了算力業務的傳統商業模式。
吳艷偉告訴21世紀經濟報道記者,當前算力的傳統業務模式如單純銷售服務器硬件等,正在向提供算力租賃等新服務模式轉變。這種模式允許不具備建設大型數據中心能力的機構,如高校、研究所和創新企業,通過租用算力來滿足其高端計算需求。“未來,算力租賃有望作為一種新的商業模式,允許在算力需求高峰期將算力調度到需求高的地區或行業,從而提高資源利用效率。”吳艷偉說道。
本文鏈接:全國算力一體化建設步入“深水區”,服務器智能水平成關鍵要素丨算力網風云⑧http://www.sq15.cn/show-2-6466-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。