在今年的世界人工智能大會(WAIC 2025)上,2024年諾貝爾物理學獎得主、“神經網絡之父”杰弗里·辛頓(Geoffrey Hinton)發表了這樣一個觀點:“人類智能可能無法超越或者戰勝機器智能,原因是機器擁有永久的記憶。”
這引起了華為公司副總裁、數據存儲產品線總裁周躍峰的格外關注。“這一定程度上反映了,AI的能力不僅取決于處理信息的思考能力,也取決于系統的記憶能力。”
存儲產品是信息系統的“記憶體”。周躍峰提出,隨著AI大模型走出實驗室、走進千行百業的生產系統,人們越來越認識到,除了算力,系統的存儲及其優化(或稱“存力”)在整個AI系統中至關重要。
周躍峰。華為供圖,下同AI SSD:為提升AI訓推效率而生
“這些年AI雖然火熱,但也遇到了許多難題,真正的應用落地、創造價值的案例較少,許多都卡在了訓練、推理乃至微調環節。”上海人工智能研究院副院長楊浩在近期一次公開分享中提到,AI訓練難、推理難、成本高,“很多企業承擔不起”。
對于許多中小規模機構或企業而言,他們能觸及的“AI集群”,大多只是一臺訓推一體機。
周躍峰向《中國科學報》介紹說,最常見的8卡的訓推一體機,往往它的顯存或高帶寬存儲(HBM)大小是一定的,遇到參數量大的模型,想去做推理就推不動。他舉例說道,要訓練一個參數量為671B的模型,需要的原始語料數據要超過3.5PB;拿它來做微調,需要計算集群系統的顯存容量超過13TB。
但現實問題是,一臺8卡訓推一體機的數據存儲上限還在GB級別,僅能支持在32B參數規模的模型微調。
類似訓推一體機這樣的“小盒子”,畢竟資源有限,怎么辦?
“在模型微調的場景,我們建議應該配一些超快性能的AI SSD。”周躍峰介紹說,基于8張算力卡的內存,再搭配2張華為3.2TB的AI SSD,單機可用內存可提升至7TB,單機可微調模型參數可達235B。
據了解,自2024年底開始,各大存儲廠商都在加速布局面向AI工作負載需求的SSD產品(SSD即固態硬盤,系常用存儲介質)。相較于傳統SSD,AI SSD以“性能更強、時延更低、耐用性更優、軟件棧更適配”的核心特質,成為支撐AI基礎設施的關鍵存儲載體。
做好存算協同,勝過“拼命堆算力”
一個顯而易見的現象是,AI對數據有多大依賴,就意味著給存儲介質帶來多大壓力——在訓練階段,AI模型需要從PB級數據集中持續讀取和寫入數據;在推理階段,面對多并發請求和多模態輸入,系統對數據響應速度、帶寬和穩定性的要求也持續攀升。只是,AI在提升“理解”與“生成”能力的同時,底層存儲卻往往難以支撐這種非線性增長的數據流量,這種不匹配造成了“AI存力瓶頸”,具體表現就是“內存墻”和“容量墻”。
目前,人們廣泛使用HBM和DRAM作為AI存儲,其中HBM常與GPU配合使用,DRAM則在更廣泛的AI應用中作為主內存使用。兩種存儲介質雖然速度快,但容量受限,難以“吃下”迅速增長的大模型參數和歷史KV Cache(緩存),進而導致模型訓練推理無法正常進行。
近期,華為推出了其自研的兩類AI SSD:分別對應為助力擴展高帶寬內存(HBM)和替代機械硬盤(HDD),目的就是為了打破AI訓推系統中普遍存在的“顯存墻”和“內量墻”。
中國電子工業標準化技術協會數據存儲專業委員會秘書長孫鋼認為,在數據驅動智能的時代背景下,通過軟硬件技術協同解決AI訓推中的存儲瓶頸,是一個“比不斷堆疊昂貴算力更為經濟可行的選項”。
“AI時代,從算力驅動到數據驅動,存儲產業正在發生躍遷。大家現在耳熟能詳的‘以存強算’,印證了存力發展的必要性,也說明以前簡單堆算力‘暴力計算’的方式既不經濟,也不可持續。”孫鋼表示,這并不是說算力不重要,而是在許多AI應用場景下,更多問題來自于存儲瓶頸。
孫鋼。
從華為等企業已開始推出各類AI SSD來看,AI存儲正朝著以技術創新打破“性能—容量”對立、實現二者平衡的方向發展。從單一介質的技術突破來說,需要一種能打破性能和容量的瓶頸的存儲介質出現;從存儲架構來說,需要構建一個智能協同的AI存儲架構,即通過軟件創新建設一個三級緩存架構(HBM-DRAM-AI SSD),讓不同性能、容量的存儲高效協同工作。
從“堆硬件”到“提效能”:終結 AI“無底洞”式投入
隨著生成式AI向Agentic AI(智能體協同群)迅速發展,AI模型的復雜度呈指數級攀升,Token規模從千億級向萬億級甚至更高維度突破。持續加碼的硬件采購、機房建設、能耗支出,正讓不少企業陷入“無底洞” 式投入的困境。
“我們一直在思考,如何幫助企業在有限的AI基礎設施資源下讓AI訓練和推理的性能得以最大化發揮。”周躍峰談到,這一思考不僅道出了企業的普遍焦慮,更指向了Agentic AI時代AI基建的核心命題 ——從“堆硬件”的粗放式增長,轉向“提效能”的精細化運營。
周躍峰說,這也正是華為的發力方向:無論是AI SSD等硬件產品,還是UCM推理記憶數據管理器等軟件方案,其核心邏輯均圍繞架構重構、技術創新與策略優化展開,目標就是將企業有限的AI基建資源,高效轉化為能落地的業務價值。
“我們觀察到許多此前被認為是‘冷數據’正在被激活或者‘變暖’。孫鋼分享說,當數據從冷到溫、從溫到熱,原來的“成本”正在變成“價值”,AI時代存儲的邏輯正在發生變化,各類圍繞數據存儲的創新也正紛至沓來。
本文鏈接:AI就要“無底洞式”投入?變化正在發生http://www.sq15.cn/show-11-25609-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。
上一篇: 黑龍江省開展重點實驗室備案及冠名工作
下一篇: 科研成果被合適的人看到才能真正產生影響