文|《中國科學(xué)報》記者 趙廣立
在近期一次會議上,西湖大學(xué)高性能計算中心高級工程師鄭煥波分享了一個西湖大學(xué)學(xué)術(shù)成果接連不斷產(chǎn)出的“秘密”。
“西湖大學(xué)于2018年2月獲教育部批準(zhǔn)成立,隨之一同建立并投入運(yùn)行的還有西湖大學(xué)的科學(xué)工程計算集群。”鄭煥波介紹說,次年6月,西湖大學(xué)高性能計算中心成立;1個月后,冷凍電鏡集群(GPU算力)投入運(yùn)行;2年后,人工智能集群(AI算力)投入運(yùn)行。目前,西湖大學(xué)支撐科學(xué)研究的算力規(guī)模在國內(nèi)高校中名列前茅。
算力堅實地支撐了科學(xué)家們的探索發(fā)現(xiàn)。據(jù)鄭煥波統(tǒng)計,僅2019年—2023年,西湖大學(xué)共有278篇各類期刊論文向高性能計算中心提出致謝,其中14篇發(fā)表在《科學(xué)》《自然》《細(xì)胞》等知名期刊;同期,西湖大學(xué)還發(fā)表了130多篇人工智能會議文章。他透露,西湖大學(xué)高性能計算中心(以下簡稱“西湖計算”)現(xiàn)擁有超過1000個校內(nèi)用戶,提供的計算服務(wù)覆蓋該校140多個課題組。
許多人不知道的是,能出色支持如此多的團(tuán)隊潛心科研,西湖計算還有一條錦囊妙計,那就是在存儲系統(tǒng)上下功夫。
算力之于科學(xué)研究的作用不言自明。談及算力之于當(dāng)前科學(xué)研究的重要性,西湖大學(xué)高性能計算中心主任李男一語道破:“科研團(tuán)隊永遠(yuǎn)在一個高度競爭的環(huán)境下,在國際前沿?zé)狳c(diǎn)競爭,就是爭分奪秒。早一秒得出結(jié)果,意味著離成功更近一步。”
也正因此,作為保障科研成果不斷產(chǎn)出的得力助手,各大計算集群在科研一線的穩(wěn)健運(yùn)行事關(guān)重大。而存儲系統(tǒng),更是計算集群的“大后方”,它的“健康”攸關(guān)計算集群能力能否高效發(fā)揮。
“存儲的穩(wěn)定性是整個集群的重中之重。”鄭煥波說,“如果存儲不穩(wěn)定,整個計算集群就無法使用。”
與單節(jié)點(diǎn)計算系統(tǒng)不同,大規(guī)模計算集群在數(shù)十甚至數(shù)百個節(jié)點(diǎn)同時運(yùn)轉(zhuǎn)時,需要存儲系統(tǒng)的高效支撐——如果把計算集群的算力比作“生產(chǎn)線”,存儲系統(tǒng)就是“原材料倉庫”和“自動輸送管道”。作為“計算工廠運(yùn)轉(zhuǎn)的“物料根基”,倉庫庫存既要足夠大(對應(yīng)數(shù)據(jù)分布式存儲),生產(chǎn)管線的輸送還要足夠快(對應(yīng)存儲帶寬),這樣才能保障生產(chǎn)線不“堵料”、不“斷料”,保障計算集群的效率。
對此,西湖計算的專家們自然清楚。他們在構(gòu)建算力集群之初,就對國內(nèi)外許多存儲廠商的產(chǎn)品做過各種各樣的評測,并綜合性價比等因素,將西湖計算的存儲帶寬構(gòu)建在百GB/s級別——這在理論上是“夠用”的。
然而,科學(xué)家們還是拋出了難題:各課題組的算力應(yīng)用以服務(wù)科學(xué)計算為主,這些應(yīng)用對數(shù)據(jù)吞吐量、傳輸效率等的要求比訓(xùn)練推理應(yīng)用高很多;而當(dāng)科學(xué)家們提出的計算任務(wù)量越來越多、數(shù)據(jù)體量越來越龐大,即便是在存儲不斷增加的情況下仍然不能滿足需求,“半年就把存儲帶寬占滿了”。
為應(yīng)對這一情況,西湖計算起初的策略是“擴(kuò)”。存儲帶寬100GB/s不夠,就擴(kuò)到400GB/s、500GB/s。然而他們發(fā)現(xiàn),即便如此,也不能很好地滿足科學(xué)家們不斷提出的性能需求。
這樣下去不是辦法,西湖計算決定招標(biāo)。他們希望能有人可以“玩轉(zhuǎn)”存儲系統(tǒng),使其能夠完美匹配科學(xué)計算和人工智能(AI)計算任務(wù)的需要。
正在此時,曙光存儲進(jìn)入視野。在投標(biāo)西湖計算的標(biāo)書中,曙光存儲不僅提供了一份為AI研發(fā)、科學(xué)計算和信息化平臺等提供存力支持方案,還提出了單節(jié)點(diǎn)超過100 GB/s的高標(biāo)準(zhǔn)交付目標(biāo)。
中科曙光存儲公司副總裁楊志雷至今記得,當(dāng)時很多用戶都在場,大家對這樣的高標(biāo)準(zhǔn)交付“不能用‘震驚’這個詞,感覺大家更多是在皺眉頭”。楊志雷知道,大家有點(diǎn)不敢相信,曙光存儲能夠把計算集群的單節(jié)點(diǎn)存儲性能做到這么高。
“大家可能覺得,花錢(性價比)是一回事,但如果你說得這么好,最后達(dá)不到這個水平,就會影響科研效率和成果的產(chǎn)出。”楊志雷對記者表示。
雙方耐心持續(xù)的溝通交流,以及后續(xù)共同開展的許多測試和驗證性工作,讓西湖計算最終認(rèn)可了曙光存儲。其呈現(xiàn)出的存儲訪問模式、特點(diǎn)及利用技術(shù)手段對算力的釋放優(yōu)勢,證明了它的價值。
同時,楊志雷表示,曙光存儲提供的不僅是通用存儲,還包括部件更新、運(yùn)維保障等后續(xù)服務(wù)能力。“用戶也非常看重我們可以配合他們做深入的功能研發(fā)、流程和性能上的優(yōu)化和治理,這是西湖計算的用戶感觸非常深的。”
另外,曙光存儲交付的產(chǎn)品性能實測顯示,該系統(tǒng)單節(jié)點(diǎn)帶寬可達(dá)150GB/s,是國際友商的近4倍,充分滿足AI、科學(xué)計算需求,超額完成交付目標(biāo)。
“沒有金剛鉆,攬不了瓷器活。”能中標(biāo)西湖計算這樣的用戶,曙光存儲“有兩把刷子”。
中科曙光存儲公司總裁何振介紹說,數(shù)據(jù)作為新時代的“石油”,其存儲、訪問、處理和流動的效率,直接決定了AI智能體的“智商”與“效能”。然而,傳統(tǒng)的存儲架構(gòu)在應(yīng)對海量非結(jié)構(gòu)化數(shù)據(jù)、超高通量并發(fā)訪問和極致低延遲需求時,已日益顯得力不從心,“存不下、取不快、流不動”成為制約AI產(chǎn)業(yè)釋放更大潛力的瓶頸。為此,曙光存儲專門創(chuàng)新架構(gòu),構(gòu)建“超低阻”數(shù)據(jù)基礎(chǔ)設(shè)施。
據(jù)介紹,曙光存儲構(gòu)建“超低阻”數(shù)據(jù)基礎(chǔ)設(shè)施的關(guān)鍵,在于其首創(chuàng)的“超級隧道”技術(shù)。該技術(shù)理念旨在通過硬件與軟件的深度協(xié)同優(yōu)化,構(gòu)建高效、低時延的數(shù)據(jù)傳輸路徑。據(jù)何振介紹,“超級隧道”基于無鎖架構(gòu)、極簡交互及軟硬件協(xié)同等核心設(shè)計,是當(dāng)前業(yè)內(nèi)唯一能夠充分釋放PCIe 5.0性能的存儲技術(shù)。目前,“超級隧道”支持的集中式全閃存儲產(chǎn)品實現(xiàn)億級IOPS性能、202微秒級時延,并通過“五級加速+三級協(xié)同”技術(shù),可將GPU利用率從30%~40%提高至70%~80%。
“我們發(fā)現(xiàn),在存儲技術(shù)上的一些調(diào)整,可以把整個計算過程加快大概30%。”何振說,目前,曙光存儲已支持西湖計算部署完成全新存儲系統(tǒng),為AI技術(shù)研發(fā)、科學(xué)數(shù)據(jù)處理等帶來了可靠的存力保障。
“我們認(rèn)為在AI時代,‘超低阻’已不再是存儲系統(tǒng)的可選項,而是必然要求。”何振表示,這意味著數(shù)據(jù)從生成、存儲到服務(wù)于計算的全鏈路中,需要實現(xiàn)極致的順暢與高效,最大限度地降低“數(shù)據(jù)摩擦力”,讓算力得以無阻塞地充分釋放,真正成為賦能千行百業(yè)的強(qiáng)大引擎。
(原標(biāo)題:成果迭出有訣竅?西湖大學(xué)278篇論文致謝藏“玄機(jī)”)
本文鏈接:西湖大學(xué)278篇論文致謝藏“玄機(jī)”http://www.sq15.cn/show-11-28339-0.html
聲明:本網(wǎng)站為非營利性網(wǎng)站,本網(wǎng)頁內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻(xiàn),不代表本站觀點(diǎn),本站不承擔(dān)任何法律責(zé)任。天上不會到餡餅,請大家謹(jǐn)防詐騙!若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。