今年5月,美國創(chuàng)業(yè)公司FutureHouse的科學(xué)家宣布,他們發(fā)現(xiàn)了一種可能用于治療視力喪失的潛在藥物。然而,他們卻無法完全將這一發(fā)現(xiàn)歸功于自己。在科學(xué)研究的許多環(huán)節(jié)——從文獻檢索、假說生成到數(shù)據(jù)分析,都是由他們團隊構(gòu)建的人工智能(AI)完成的。
圖片來源:EOLINTANG/SHUTTERSTOCK; PROSTOCK-STUDIO/ISTOCKPHOTO, ADAPTED BY M. ATAROD/SCIENCE
全球范圍內(nèi),AI正在加速科學(xué)研究的進程,部分原因在于它自動化了一項曾被認為是人類獨有的創(chuàng)造活動——假說生成。如今,機器可以迅速搜索不斷增多的科研文獻,找出其中的空白,從而標記出科學(xué)家可能會忽略的、富有成效的研究方向。
但這些想法的質(zhì)量究竟如何?一項同類中迄今規(guī)模最大的研究發(fā)現(xiàn),當(dāng)研究人員通過真實世界測試來檢驗這些假說并讓人類評估者比較結(jié)果時,AI生成的假說仍然不如人類生成的假說。但是,兩者間差距不大,這種落后局面可能不會持續(xù)太久。近期,描述該實驗的論文公布于arXiv預(yù)印本服務(wù)器。
論文指出,AI系統(tǒng)有時會美化其生成的假說,過分強調(diào)其潛在重要性。論文作者、美國斯坦福大學(xué)的計算機科學(xué)博士生司程磊(音譯)說,該研究還表明,在判斷其所構(gòu)思想法的可行性方面,AI不如人類。
這項研究得到了贊譽,但也有人對結(jié)果持謹慎態(tài)度,部分原因在于評判原創(chuàng)性本身非常困難。“新穎性是科學(xué)評估的難題,也是同行評審中最困難的任務(wù)之一。”美國華盛頓大學(xué)的數(shù)據(jù)科學(xué)家kevin West說。
該研究檢驗了關(guān)于自然語言處理(NLP))的假說,NLP是支撐大型語言模型(LLM)等AI工具的基礎(chǔ)技術(shù)。研究人員讓美國初創(chuàng)公司Anthropic開發(fā)的LLM模型Claude 3.5 Sonnet,通過分析Semantic Scholar數(shù)據(jù)庫中的NLP研究,生成了數(shù)千個想法,并對其中最具原創(chuàng)性的想法進行了排名。隨后,研究人員付費聘請NLP專家提出與之競爭的想法。
團隊招募了另一組計算機科學(xué)家,他們在不知情的情況下,評判這兩組想法的新穎性和可行性,結(jié)果顯示,他們給AI想法的平均評分更高。這是該團隊在2024年報告的一個出人意料的發(fā)現(xiàn),當(dāng)時引起了媒體的關(guān)注。
但在研究的第二階段,情況發(fā)生了改變。研究團隊通過社交媒體和其他途徑進行招募,聘請了一組新的NLP專家,對24個AI生成的想法和19個人類想法進行實驗驗證。這些實驗通常檢驗提出的算法如何改進LLM的某一方面,例如語言翻譯能力。團隊再次讓專家評判結(jié)果的新穎性,在10分制下,AI想法的平均新穎性得分從5.382驟降至3.406,而人類想法的得分僅從4.596下降到3.968。
司程磊說,結(jié)果表明了檢驗假說的重要性。“如果只看想法本身,一些評審專家可能會被某些聽起來令人興奮的詞匯所迷惑,但當(dāng)實際執(zhí)行代碼或?qū)ζ浣庾x時,你就會意識到,這只是一種對已知技術(shù)的新穎表述。”這一擔(dān)憂在2月一項針對50個AI假說的研究中得到了呼應(yīng):評估人員判斷其中1/3為抄襲,另有1/3部分借鑒了先前的工作。
美國艾倫AI研究所的首席科學(xué)家Dan Weld表示,這項研究“非常令人興奮”,但也有其局限性。第一,該研究依賴單個LLM,基于大量相關(guān)研究生成假說,而不是使用多種AI工具搜索由知名專家撰寫的高被引研究。第二,人類也不一定是新穎性的最佳評判者:先前的研究發(fā)現(xiàn),研究人員在給同一篇計算機科學(xué)論文評分時,分歧很大。West補充說,一個實驗的新穎性最好在經(jīng)過多年引用積累后再進行評估。
盡管存在疑問,但AI和人類的得分非常接近,這在幾年前甚至?xí)屟芯咳藛T感到震驚。Weld說,如果最終AI提出了大部分假說,而科學(xué)家只能完成無法自動化的部分實驗,他不會驚訝。但 West說,如果真是這樣,那就剝奪了“科學(xué)中最有趣的部分”,留給科學(xué)家的是“有時令人頭腦麻木”的實驗室工作。“科學(xué)是一個涉及人類的社會過程。你把人類因素拿走,那還剩下什么?”
本文鏈接:在接受檢驗時,AI假說不如人類假說http://www.sq15.cn/show-11-25216-0.html
聲明:本網(wǎng)站為非營利性網(wǎng)站,本網(wǎng)頁內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻,不代表本站觀點,本站不承擔(dān)任何法律責(zé)任。天上不會到餡餅,請大家謹防詐騙!若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。