近日,由中國計算機學會(CCF)主辦的第21屆全國高性能計算學術大會(CCF HPC China 2025)在內蒙古鄂爾多斯召開。大會上,中國工程院院士、中國計算機學會理事長孫凝暉第一個作特邀主旨報告。在題為“AI賦能科學發現”報告中,他分享了自己對這一備受關注話題的思考。
孫凝暉在CCF HPC China 2025大會上。組委會供圖“第五范式”登上歷史舞臺
他首先談到,“科學智能”(AI for Science,也即“AI賦能科學發現”)這一研究范式的涌現,始于AlphaFold在蛋白質結構預測上的突破。2020年,AlphaFold在CASP14大賽中成功預測了2/3的目標蛋白結構,開啟了基于人工智能預測蛋白及核酸等分子結構的歷史進程。
“(借助高性能計算機)從頭計算預測蛋白質結構的(傳統)方法,經過二三十年未能取得顯著進展;后來,AlphaFold推進了一大步。”孫凝暉說,AlphaFold的出現,標志著AI成為科學發現的基本手段之一。
接著,2024年諾貝爾物理學獎和化學獎接連授予了人工智能基礎理論和科學發現領域的科學家,展現了對人工智能的“偏愛”。孫凝暉認為,這標志著國際學術界公認了人工智能技術已進入科學領域,“代表著科研范式的重大改變”。
“融合大模型、大算力、大數據和大團隊服務等特點的科學研究,(對科學發現的作用)就像大科學裝置一樣,是一個新的范式。”孫凝暉說,新研究范式的形成,除了“大模型、大算力、大數據”之外,還離不開“包括物理、化學、生物、人工智能等各領域科學家和工程師組成的團隊長期的工作”以及企業資金的長期支持,諸般要素齊聚“才讓這件事發生”。
孫凝暉表示,在“AI賦能科學發現”之前,現代科學活動中存在四種范式,即基于實驗觀察的科學實驗范式、依賴科學家的理論推演范式、借助計算設備的科學計算或數值模擬范式、基于實驗和理論數據計算的科學數據范式。如今,AI賦能科學發現當屬“第五范式”,正在登上歷史舞臺。
幫助科學家從“增肌強體”到“賦予大腦”
AI到底如何賦能科學發現?
孫凝暉提出,從信息化視角來看,AI賦能科學發現的核心在于將構建包括觀測(Observe)、模擬(Orient)、猜想(Hypothesis)與實驗(Verify)四個環節,并將數據驅動和智能算法驅動引入到這四個環節中,形成一個“OOHV全環的AI賦能”。
“在這四個環節中,信息技術總能發揮作用,它們讓知識的獲取、分享和檢索、交換更加方便,讓信息的抽取更簡單。”孫凝暉展開談到,推演模擬環節本質上是“高性能計算+AI”,而機器學習、大模型能通過處理科學數據發現規律、驗證猜想,觀察和實驗未來也可倚靠具身智能。
AI4S賦能模擬、觀測、猜想、實驗4個環節的典型案例。 受訪者供圖,下同
他舉出了一些具體的例子:“已有的AI4S的成果,較多還在(對)猜想和觀測環節(賦能),因此基于知識大模型的成果較多,比如農業領域的‘神農大模型’,中國科學院自動化研究所發布的‘ScienceOne科學基礎大模型’等,它們可以對觀測數據用機器學習的方法(來處理數據、發現新規律);賦能模擬環節的工作還比較少,除AlphaFold之外,還有分子動力學模型DeePMD以及‘盤古氣象大模型’和‘LAM大原子模型’等,它們對科學發現的幫助潛力巨大;實驗環節結合得也不很多,較知名的有中國科學技術大學推出的‘機器化學家’、中國科學院高能物理研究所上線的‘智慧光源大腦’等。”
從這些具體案例來看,孫凝暉認為,信息學科的主要任務是提供工具,包括提高生產率的科研信息化工具和應用開發中間件;而大模型、機器學習算法等賦予科學家的“相當于是手段的進化”。
對此,他有一個形象的比喻:信息技術賦能科學的手段如同從“增強肌肉(算力)”到“提供營養”(數據),如今正朝著“賦予大腦”(人工智能)的方向進化。
“AI4S更大的作用應該是突破人類認知極限,這也是科學研究的最高追求。”孫凝暉說,人類在科學計算范式(第三范式)和數據科學范式(第四范式)下都有許多突破認知極限的工作,比如通過科學計算,我們既能做公里級精度的中短期天氣預報,也能從全球尺度做氣候變化的預測;通過數據解析,人類得以從基因組層面認識自己,通過天文望遠鏡摸到黑洞的“脈搏”。如今,在科學智能范式下,也有突破人類認知極限的工作,比如AlphaFold和DeePMD,且二者的技術路徑有所不同。
不過,他提醒,AI工具并不是萬能的,科學發現依然離不開高性能計算這一基礎手段。同時,在解決實際科學問題時,如何對齊AI4S共性工具的科學語義,將成為關鍵問題。
AI4S的數據、模型、計算問題,以及未來展望
展望AI賦能科學發現的未來發展,孫凝暉深入剖析了AI4S面臨的數據問題、模型問題與計算問題。
“科學數據大概來自4個方面,理論數據、觀測數據、實驗數據和知識數據,AI4S數據集準備不僅需要長期的積累,還需要關注數據的AI-Ready化與成熟度。”孫凝暉表示,科學數據除了機器學習領域通用的特征化、標簽化、流程化以外,還需要應用領域更關注物理性質的鉚定、各種尺度的對齊工具,這些工具需要以插件的形式作為通用工具里為科學服務。另外,還要注意數據的誤差問題和對齊問題——數據的系統性誤差會被AI模型學習到,進而影響模型的精度。
模型方面,孫凝暉提到,OpenAI將實現通用人工智能的路徑分為5個階段:對話者(Chatbots)、推理者(Rensoners)、代理者(Agents)、創新者(Innovators)、組織者(Organizations),這5個階段對應的AI也依次加入了數據驅動、知識嵌入、物理約束、人機協同、群體智能的能力。目前,AI4S的應用能級正處于“數據驅動+知識嵌入+物理約束”三輪驅動的階段。
從模型的角度看AI4S的能級。
在孫凝暉展示的AI4S的能級圖中,AI的進階如同從“單車”到“高鐵”般地循序漸進:僅靠數據驅動的AI仿佛“單輪車”,隨著知識的嵌入,AI成了“自行車”;加入了物理約束(物理性質的鉚定、尺度對齊等)后,AI堪比“三輪摩托”。而隨著人機協同、群體智能等更多“輪子”的加入,AI有望變成“跑車”“高鐵”,將大大加速人類科學發現的進程。
在計算問題上,孫凝暉提到,衡量計算有兩個關鍵維度:精度和架構。科學計算需要高精度,計算系統以異構架構為主;大模型訓練也是異構架構,但不需要高精度算力;AI4S不僅需要高(全)精度計算,還需要能夠降低負載的融合架構。也就是說,支撐HPC+AI應用的智能超算系統需要8/16/32/64位寬的全精度計算,對系統級互聯網絡性能的要求也更高,普通的智算中心一般無法滿足HPC+AI應用的需求。他表示,未來的智算的融合架構是什么樣,這是計算機科學家們需要思考的問題。
孫凝暉展望道,隨著算力集群的堆疊、數據來源的多樣化、模型參數規模等的進一步提升,未來算力將進化成為Z級(每秒可進行1021次浮點運算)智能超算,數據方面將發展為由海量常識數據、高質量理論數據、實驗數據及增強數據來解決更復雜問題,模型上將出現一個參數量超過千億、通用的科學智能大模型。
而從以往信息技術賦能科學發現催生了計算化學、生物信息學、地理信息系統等學科分支來看,很多人關心,AI4S會不會催生如“智能材料學”這樣的新的學科分支?
孫凝暉認為,可以先不著急下結論。能夠看到的是,隨著AI技術對科學研究范式(如“AI-first”的實驗設計)的重構,新的研究工具鏈(如自動化實驗室、AI驅動的仿真系統)的涌現,加之《自然》等頂級期刊開設AI for Science專欄、全球頂尖機構成立AI4S相關或專門的研究單元,一個嶄新的AI4S方法論和AI4S學術生態正在形成。
本文鏈接:孫凝暉:我對“AI賦能科學發現”的一些看法http://www.sq15.cn/show-11-24985-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。
上一篇: 漆洪波:做好登記是死胎管理規范化第一步