21世紀經濟報道記者張梓桐 上海報道
國內數據存儲領域取得重大突破性進展。
近日,中國科學院上海光學精密機械研究所(以下簡稱“上海光機所”)與上海理工大學等科研單位合作,在國際上首次完成雙光束超分辨三維光存儲的原理和實驗驗證。相關研究結果也在《nature》上進行了發布。
從產業視角來看,該研究究竟解決了哪些應用側的問題?
論文通訊作者之一、上海光機所空天激光技術與系統部阮昊在接受媒體采訪時表示,他們解決的就是當前人工智能火熱下的海量數據存儲難題。從具體指標來看,這一技術實現了點尺寸為54nm、道間距為70nm的超分辨數據存儲,完成了100層的多層記錄,單盤等效容量達Pb量級。“1Pb相當于1000Tb,也就是說,這種超分辨光盤的存儲容量可達到普通藍光光盤的1萬倍,甚至超過‘競爭對手’硬盤的100倍。”阮昊表示。
事實上,低成本解決海量存儲問題恰好是人工智能時代行業所面臨的難題。
畢馬威中國數字化賦能主管合伙人張慶杰在接受21世紀經濟報道記者采訪時表示,在計算資源方面,大模型的訓練需要大量的計算資源,包括CPU、GPU、TPU等。雖然中國算力具備一定的基礎,但在計算資源方面還存在一定的短板,各行各業在底層計算資源上存在缺乏,這會限制大模型的訓練和優化。
除此之外,大模型的訓練需要大量的高質量數據,但是目前在數據質量方面還存在一定的問題,包括數據噪聲、數據缺失、數據不平衡等問題。這會影響大模型的訓練效果和準確性。
數據存儲難題
當前,中國已經成為數據量最大、數據類型最豐富的國家之一。
國家數據局日前發布的信息顯示,我國數據產量已占全球數據總量的10.5%。更有研究機構預測,到2025年,中國數據總量或占全球近30%。
2021年5月,國家發改委等四部門聯合發布了《全國一體化大數據中心協同創新體系算力樞紐實施方案》,首次提出全國算力網絡樞紐節點布局;2022年2月,國家發改委等三部門同意了京津冀、長三角、粵港澳大灣區等8地啟動國家算力樞紐節點建設,并規劃了10個國家數據中心集群,標志著“東數西算”工程正式啟動。
上海日前剛剛印發了 《上海市推進算力資源統一調度指導意見》,其中提出,到2023年底,依托本市人工智能公共算力服務平臺,接入并調度4個以上算力基礎設施,可調度智能算力達到1,000 PFLOPS(FP16)以上。
到2025年,市人工智能公共算力服務平臺能級躍升,完善算力交易機制,實現跨地域算力智能調度,通過高效算力調度,推動算力供需均衡,帶動產業發展作用顯著增強。本市數據中心算力超過18,000 PFLOPS(FP32);新建數據中心綠色算力占比超過10%(不含市電結構中的綠電);集聚區新建大型數據中心綜合PUE降至1.25以內,綠色低碳等級達到4A級以上。
這是國際上首次實現Pb量級的超大容量光存儲,得到了《自然》(Nature)雜志審稿人的高度評價,“這是一種具有突破性創新的Pb級光存儲技術”“與現有其他技術相比,該技術在性能方面提供了最高的光存儲面密度”“研究成果可能會帶來數據中心檔案數據存儲的突破,解決大容量和節能的存儲技術難題”。
尤其值得一提的是,他們的成果主要存儲的就是使用頻率較少的冷數據。“在所有數據中,80%以上都是冷數據,這些數據使用頻率很少,但是需要永久保存,比如大科學裝置做出來的實驗數據。這類實驗做一次非常不容易,這些訪問速率沒那么快但是又很重要的數據都要安全性地保存,我們的成果主要用在這類數據上面,因此特別適合數據中心的使用。”阮昊在接受第一財經采訪時表示,像處理熱數據的固態硬盤、手機存儲卡、存儲條都很貴,處理百分之十幾的溫數據可以用磁存儲、磁硬盤,另外80%冷數據就可以用光盤。
數據中心應用
在具體應用場景方面,超分辨光盤最大的主要應用領域在于數據中心。“隨著數據量的爆炸式增長,數據中心對存儲容量的需求日益增大。與此同時,數據中心的能耗問題也成為了一個巨大的挑戰,超分辨光盤的高容量和低能耗特性將成為數據中心存儲的理想選擇。”阮昊說。
在2021年Science發布的全世界最前沿的125個科學問題中,突破衍射極限限制在物理領域高居首位。該超分辨光盤的成功研制在信息寫入和讀出都突破了這一物理學難題,有助于我國在存儲領域突破關鍵核心技術,將在大數據數字經濟中發揮重大作用,以滿足信息產業領域的重大需求。
不過,作為一項基礎的科學突破,超分辨光盤距離產業化應用尚有距離。據其表示,未來,研究團隊將致力于加快原始創新和關鍵技術攻關,推動超大容量光存儲的集成化和產業化進程,并拓展其在光顯微成像、光顯示、光信息處理等領域的交叉應用,產出更多更優秀的創新成果。
在產業促進之外,有業內人士也對記者表示,該研究從數據安全方面也有著一定的積極作用。“海量數據是人工智能發展的基石,在采集、使用和分析這些數據的過程中,存在數據泄露、篡改和真實性難驗證等安全隱患。隨著AIGC技術的發展,數據安全問題的解決則更加趨難。”
該人士表示,用戶在與大模型交互的過程中輸入的提示詞可能被用于迭代訓練,并通過交互被提供給其他使用者。隨著AIGC向多模態發展,其文件格式更加豐富,未來數據泄露問題將難以通過傳統的數據防泄漏(Data leakage prevention)方法解決。而超大光存儲將在數據治理方面提供一定助益。
本文鏈接:“超大容量光盤”在上海橫空出世,海量數據存儲難題迎刃而解?http://www.sq15.cn/show-2-3013-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。