當(dāng)前,盡管人工智能(AI)已在科學(xué)研究中廣泛應(yīng)用,但仍面臨科學(xué)數(shù)據(jù)孤島、專業(yè)推理能力不足、研發(fā)生態(tài)封閉三大挑戰(zhàn)。
為推動(dòng)“AI+科學(xué)”向平臺(tái)化、體系化的新范式加速轉(zhuǎn)型,中國(guó)科學(xué)院積極謀劃布局,依托其完整的自然科學(xué)學(xué)科體系、全棧式AI創(chuàng)新鏈條、重大科學(xué)設(shè)施及豐富的科學(xué)數(shù)據(jù)資源等優(yōu)勢(shì),集結(jié)了中國(guó)科學(xué)院下屬的12家研究單位,共同組建了聯(lián)合研發(fā)團(tuán)隊(duì),致力于開發(fā)服務(wù)于科研的基座大模型。
7月26日,在世界人工智能大會(huì)上,由中國(guó)科學(xué)院眾多團(tuán)隊(duì)聯(lián)合研發(fā)的“磐石·科學(xué)基礎(chǔ)大模型”(簡(jiǎn)稱“磐石”)正式發(fā)布。該基座模型采用專業(yè)科學(xué)知識(shí)和數(shù)據(jù)進(jìn)行訓(xùn)練,能夠深入理解多種科學(xué)模態(tài)數(shù)據(jù),并具備科學(xué)文獻(xiàn)萃取融合、科學(xué)知識(shí)表征推理和科學(xué)工具編排規(guī)劃等核心能力。
深度賦能科研全流程
在公開亮相前,“磐石”已經(jīng)參加了多場(chǎng)“考試”:在基礎(chǔ)學(xué)科領(lǐng)域國(guó)際通用的數(shù)據(jù)集里,達(dá)到數(shù)學(xué)、物理、化學(xué)、材料、生物各學(xué)科門類當(dāng)前最佳性能;在通用AI助手測(cè)試基準(zhǔn)GAIA、事實(shí)性問(wèn)答數(shù)據(jù)集SimpleQA等國(guó)際權(quán)威測(cè)試中,展示了領(lǐng)先的科學(xué)專業(yè)工具調(diào)用和科學(xué)推理性能;在人類終極考試(HLE)中取得優(yōu)秀成績(jī)……
“‘刷榜’并不是‘磐石’的目的,更好地服務(wù)一線科研人員,促進(jìn)科學(xué)發(fā)現(xiàn)才是我們的初心。”中國(guó)科學(xué)院自動(dòng)化研究所(以下簡(jiǎn)稱自動(dòng)化所)副所長(zhǎng)曾大軍強(qiáng)調(diào),“磐石”始終圍繞科研人員的核心需求,以強(qiáng)大、全面的科學(xué)專業(yè)能力支持科學(xué)發(fā)現(xiàn)。
聯(lián)合團(tuán)隊(duì)組建之初,就考慮到讓科研人員參與其中,更好地將科學(xué)家的需求和大模型的功能“對(duì)齊”。
“如何讓AI的能力切實(shí)服務(wù)于科學(xué)需求,是我們面臨的最大挑戰(zhàn)。”曾大軍表示,“得益于聯(lián)合團(tuán)隊(duì)的獨(dú)特優(yōu)勢(shì),我們中既有‘自上而下’的有組織科研機(jī)制,也不乏‘自下而上’的青年科學(xué)家之間的思想碰撞。這些元素交織成一個(gè)立體網(wǎng)絡(luò),有效提升了大模型的能力。”
團(tuán)隊(duì)在前期調(diào)研中發(fā)現(xiàn),盡管當(dāng)前存在眾多面向科學(xué)發(fā)現(xiàn)的AI大模型,但它們以各學(xué)科微調(diào)通用大模型和各自重復(fù)造輪子的作坊模式為主,難以解決通用大模型幻覺強(qiáng)、科學(xué)專識(shí)薄弱、邏輯能力差等問(wèn)題。
為此,聯(lián)合團(tuán)隊(duì)針對(duì)性開展了部署。
核心架構(gòu)設(shè)計(jì)方面,“磐石”采用異構(gòu)混合專家架構(gòu),在國(guó)產(chǎn)開源大模型基礎(chǔ)上面向科學(xué)領(lǐng)域“定制”,集成了自主研發(fā)的一系列面向共性科學(xué)數(shù)據(jù)模態(tài)的專用模型,并融合了AlphaFold、MatterGen等領(lǐng)域?qū)I(yè)模型。
“需要強(qiáng)調(diào)的是,‘磐石’和通用大模型之間的關(guān)系是‘松耦合’。”曾大軍補(bǔ)充道,“一方面,我們會(huì)對(duì)當(dāng)下優(yōu)秀的開源大模型進(jìn)行訓(xùn)練后使用。另一方面,未來(lái)一旦出現(xiàn)更優(yōu)異的其他大模型,我們也可以快速地將其納入‘磐石’的體系中。”
科學(xué)能力方面,“磐石”依托于中國(guó)科學(xué)院科學(xué)數(shù)據(jù)中心體系,已打通了90PB科學(xué)數(shù)據(jù),其中70%由重大科學(xué)基礎(chǔ)設(shè)施源頭生產(chǎn)。此外,“磐石”覆蓋了250萬(wàn)條高質(zhì)量科學(xué)推理數(shù)據(jù)和50萬(wàn)條高難度學(xué)科退火數(shù)據(jù)。目前,“磐石”已系統(tǒng)掌握數(shù)理化天地生六大學(xué)科核心定理、定律與專業(yè)知識(shí),并實(shí)現(xiàn)了對(duì)波、譜、場(chǎng)等多種科學(xué)模態(tài)數(shù)據(jù)的深入理解。
曾大軍介紹,“磐石”既可直接幫助科研工作者開展跨學(xué)科攻關(guān),也可作為底座平臺(tái),提供開放靈活的平臺(tái)構(gòu)架,支撐各學(xué)科領(lǐng)域和場(chǎng)景應(yīng)用的專業(yè)模型研發(fā)。
這不僅得益于“磐石”作為大模型基座的能力,還得益于研發(fā)團(tuán)隊(duì)配套開發(fā)的“磐石·文獻(xiàn)羅盤”和“磐石·工具調(diào)度臺(tái)”兩個(gè)科學(xué)智能體。前者已接入1.7億篇科技文獻(xiàn)與實(shí)時(shí)開源科技信息,能夠輔助科研人員精讀文章、撰寫綜述、評(píng)估科研選題與技術(shù)路徑;后者可自主規(guī)劃及調(diào)用超過(guò)300個(gè)科學(xué)計(jì)算工具,旨在降低科研工具的使用門檻,實(shí)現(xiàn)工具的協(xié)同編排和便捷調(diào)用。
在“實(shí)操”中減少幻覺問(wèn)題
“磐石”是在通用大模型基礎(chǔ)上搭建的智能底座,當(dāng)應(yīng)用于科研中時(shí),通用大模型中原有的AI幻覺等問(wèn)題不可避免地會(huì)被放大。
“我們?nèi)詿o(wú)法從根源上解決AI幻覺問(wèn)題,但并非毫無(wú)辦法。”曾大軍坦言,“在不改變內(nèi)核大模型架構(gòu)的基礎(chǔ)上,我們?cè)诠こ虒用孀隽烁鞣N有益的嘗試,盡可能確保‘磐石’邏輯的嚴(yán)謹(jǐn)性。比如利用高質(zhì)量的科學(xué)數(shù)據(jù)進(jìn)行訓(xùn)練,同時(shí)讓‘磐石’邊想邊學(xué)、邊學(xué)邊用,在‘試錯(cuò)’中改變它的思維。”
“磐石”在開發(fā)的過(guò)程中,也絕非脫離實(shí)際用數(shù)據(jù)反復(fù)“規(guī)訓(xùn)”,而是在科研實(shí)操中經(jīng)受“火煉”,通過(guò)嵌入不同學(xué)科領(lǐng)域的研究閉環(huán),迭代提升其實(shí)用性與可靠性。
在發(fā)布會(huì)現(xiàn)場(chǎng),自動(dòng)化所研究員楊戈分享了與合作者依托“磐石”構(gòu)建學(xué)科領(lǐng)域模型的案例。中國(guó)科學(xué)院交叉科學(xué)團(tuán)隊(duì)在“磐石”平臺(tái)基礎(chǔ)上構(gòu)建了用于模擬細(xì)胞生命的基礎(chǔ)大模型“X-Cell數(shù)字細(xì)胞模型”,實(shí)現(xiàn)了從基因序列、中心法則到細(xì)胞表型的整體建模。
“我們采用這種新范式運(yùn)行兩周后,發(fā)現(xiàn)了一個(gè)過(guò)去未知的潛在疾病靶點(diǎn),并通過(guò)實(shí)驗(yàn)進(jìn)行了初步驗(yàn)證。”楊戈說(shuō)道,“在采用X-Cell數(shù)字細(xì)胞模型進(jìn)行疾病藥物靶點(diǎn)發(fā)現(xiàn)時(shí),我們明顯感覺到,‘磐石’極大提升了自動(dòng)化水平,整體靶點(diǎn)發(fā)現(xiàn)的效率相比傳統(tǒng)模式提升超過(guò)10倍。”
在高能物理領(lǐng)域,作為目前世界上唯一運(yùn)行在粲能區(qū)的大型實(shí)驗(yàn)裝置,北京正負(fù)電子對(duì)撞機(jī)每秒產(chǎn)生的數(shù)據(jù)量巨大,需要使用數(shù)百塊硬盤進(jìn)行存儲(chǔ)。要想從如此海量的數(shù)據(jù)中捕捉稀有的高價(jià)值物理信號(hào),難度可見一斑。
借助于“磐石·工具調(diào)度臺(tái)”,北京正負(fù)電子對(duì)撞機(jī)的研究人員能夠自動(dòng)分解與高效規(guī)劃粒子物理研究任務(wù),生成覆蓋粒子物理工作流各階段的分析程序。這一模式有效提升了粒子模擬速度與重建效率,為探索物質(zhì)基本組成和宇宙基本規(guī)律提供了助力。
此外,“磐石”也在發(fā)揮強(qiáng)大的科學(xué)數(shù)據(jù)理解和預(yù)測(cè)能力,高效計(jì)算高鐵模型在多種流體環(huán)境下的表面壓力場(chǎng)、提升化學(xué)合成實(shí)驗(yàn)效率、提高分子結(jié)構(gòu)預(yù)測(cè)結(jié)果、在天文觀測(cè)中實(shí)現(xiàn)智能化的全球望遠(yuǎn)鏡資源調(diào)度與分析……
“‘AI+科學(xué)’目標(biāo)是科研、基礎(chǔ)是模型、關(guān)鍵是應(yīng)用,‘磐石’的發(fā)展邏輯是模型應(yīng)用與科研創(chuàng)新相互迭代提升。”曾大軍指出,“‘磐石’已初步具備科學(xué)知識(shí)全能手、文獻(xiàn)超級(jí)分析師、專業(yè)問(wèn)題精算家的能力,并在逐步成為科研攻關(guān)的參謀和智囊。”
打造開放共享的平臺(tái)化生態(tài)
曾大軍在論壇現(xiàn)場(chǎng)宣布,自動(dòng)化所已聯(lián)合四十余家科研院所、高等院校及企業(yè)合作伙伴共同啟動(dòng)“科學(xué)基礎(chǔ)大模型生態(tài)聯(lián)盟”計(jì)劃,并積極推動(dòng)國(guó)產(chǎn)算力適配,著力構(gòu)建開源開放、自主可控的“AI+科學(xué)”新生態(tài),旨在為全球?qū)W術(shù)共同體貢獻(xiàn)中國(guó)方案,賦能科研范式重塑,開啟科學(xué)研究的無(wú)限可能。
在過(guò)去,我國(guó)的科學(xué)家們?cè)诓煌瑢W(xué)科領(lǐng)域取得了很多頗具亮點(diǎn)的科研成果。在曾大軍看來(lái),“科學(xué)基礎(chǔ)大模型生態(tài)聯(lián)盟”能夠?qū)⒁酝@些關(guān)注某個(gè)“點(diǎn)”的科研成果串聯(lián)起來(lái),最終織成一張相互聯(lián)系的“網(wǎng)”。由此,原本看似無(wú)用的方法能夠巧妙地應(yīng)用于其他領(lǐng)域,而高效的方法在更強(qiáng)基礎(chǔ)能力的支撐下,有可能創(chuàng)造出更具特色的成果。
“我們希望基于‘磐石’賦能科學(xué)研究的能力,最終形成不同領(lǐng)域科學(xué)家共同參與、開展跨學(xué)科研究的科研生態(tài)。”曾大軍指出,當(dāng)前亟須尋找重要且可泛化的場(chǎng)景,在參與重大科研攻關(guān)任務(wù)過(guò)程中,進(jìn)一步加強(qiáng)“磐石”在幫助科學(xué)家解決科學(xué)問(wèn)題方面的能力,同時(shí)為其他研究提供可復(fù)制的研究新范式。
本文鏈接:“磐石·科學(xué)基礎(chǔ)大模型”亮相世界人工智能大會(huì)http://www.sq15.cn/show-11-23968-0.html
聲明:本網(wǎng)站為非營(yíng)利性網(wǎng)站,本網(wǎng)頁(yè)內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻(xiàn),不代表本站觀點(diǎn),本站不承擔(dān)任何法律責(zé)任。天上不會(huì)到餡餅,請(qǐng)大家謹(jǐn)防詐騙!若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。