在接受檢驗時，AI假說不如人類假說

2025-08-27 17:11:16 來源：中國科學(xué)報

觀看：30

今年5月，美國創(chuàng)業(yè)公司FutureHouse的科學(xué)家宣布，他們發(fā)現(xiàn)了一種可能用于治療視力喪失的潛在藥物。然而，他們卻無法完全將這一發(fā)現(xiàn)歸功于自己。在科學(xué)研究的許多環(huán)節(jié)——從文獻檢索、假說生成到數(shù)據(jù)分析，都是由他們團隊構(gòu)建的人工智能（AI）完成的。

圖片來源：EOLINTANG/SHUTTERSTOCK; PROSTOCK-STUDIO/ISTOCKPHOTO, ADAPTED BY M. ATAROD/SCIENCE

全球范圍內(nèi)，AI正在加速科學(xué)研究的進程，部分原因在于它自動化了一項曾被認為是人類獨有的創(chuàng)造活動——假說生成。如今，機器可以迅速搜索不斷增多的科研文獻，找出其中的空白，從而標記出科學(xué)家可能會忽略的、富有成效的研究方向。

但這些想法的質(zhì)量究竟如何？一項同類中迄今規(guī)模最大的研究發(fā)現(xiàn)，當(dāng)研究人員通過真實世界測試來檢驗這些假說并讓人類評估者比較結(jié)果時，AI生成的假說仍然不如人類生成的假說。但是，兩者間差距不大，這種落后局面可能不會持續(xù)太久。近期，描述該實驗的論文公布于arXiv預(yù)印本服務(wù)器。

論文指出，AI系統(tǒng)有時會美化其生成的假說，過分強調(diào)其潛在重要性。論文作者、美國斯坦福大學(xué)的計算機科學(xué)博士生司程磊（音譯）說，該研究還表明，在判斷其所構(gòu)思想法的可行性方面，AI不如人類。

這項研究得到了贊譽，但也有人對結(jié)果持謹慎態(tài)度，部分原因在于評判原創(chuàng)性本身非常困難。“新穎性是科學(xué)評估的難題，也是同行評審中最困難的任務(wù)之一。”美國華盛頓大學(xué)的數(shù)據(jù)科學(xué)家kevin West說。

該研究檢驗了關(guān)于自然語言處理（NLP））的假說，NLP是支撐大型語言模型（LLM）等AI工具的基礎(chǔ)技術(shù)。研究人員讓美國初創(chuàng)公司Anthropic開發(fā)的LLM模型Claude 3.5 Sonnet，通過分析Semantic Scholar數(shù)據(jù)庫中的NLP研究，生成了數(shù)千個想法，并對其中最具原創(chuàng)性的想法進行了排名。隨后，研究人員付費聘請NLP專家提出與之競爭的想法。

團隊招募了另一組計算機科學(xué)家，他們在不知情的情況下，評判這兩組想法的新穎性和可行性，結(jié)果顯示，他們給AI想法的平均評分更高。這是該團隊在2024年報告的一個出人意料的發(fā)現(xiàn)，當(dāng)時引起了媒體的關(guān)注。

但在研究的第二階段，情況發(fā)生了改變。研究團隊通過社交媒體和其他途徑進行招募，聘請了一組新的NLP專家，對24個AI生成的想法和19個人類想法進行實驗驗證。這些實驗通常檢驗提出的算法如何改進LLM的某一方面，例如語言翻譯能力。團隊再次讓專家評判結(jié)果的新穎性，在10分制下，AI想法的平均新穎性得分從5.382驟降至3.406，而人類想法的得分僅從4.596下降到3.968。

司程磊說，結(jié)果表明了檢驗假說的重要性。“如果只看想法本身，一些評審專家可能會被某些聽起來令人興奮的詞匯所迷惑，但當(dāng)實際執(zhí)行代碼或?qū)ζ浣庾x時，你就會意識到，這只是一種對已知技術(shù)的新穎表述。”這一擔(dān)憂在2月一項針對50個AI假說的研究中得到了呼應(yīng)：評估人員判斷其中1/3為抄襲，另有1/3部分借鑒了先前的工作。

美國艾倫AI研究所的首席科學(xué)家Dan Weld表示，這項研究“非常令人興奮”，但也有其局限性。第一，該研究依賴單個LLM，基于大量相關(guān)研究生成假說，而不是使用多種AI工具搜索由知名專家撰寫的高被引研究。第二，人類也不一定是新穎性的最佳評判者：先前的研究發(fā)現(xiàn)，研究人員在給同一篇計算機科學(xué)論文評分時，分歧很大。West補充說，一個實驗的新穎性最好在經(jīng)過多年引用積累后再進行評估。

盡管存在疑問，但AI和人類的得分非常接近，這在幾年前甚至?xí)屟芯咳藛T感到震驚。Weld說，如果最終AI提出了大部分假說，而科學(xué)家只能完成無法自動化的部分實驗，他不會驚訝。但 West說，如果真是這樣，那就剝奪了“科學(xué)中最有趣的部分”，留給科學(xué)家的是“有時令人頭腦麻木”的實驗室工作。“科學(xué)是一個涉及人類的社會過程。你把人類因素拿走，那還剩下什么？”

本文鏈接：在接受檢驗時，AI假說不如人類假說http://www.sq15.cn/show-11-25216-0.html

聲明：本網(wǎng)站為非營利性網(wǎng)站，本網(wǎng)頁內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻，不代表本站觀點，本站不承擔(dān)任何法律責(zé)任。天上不會到餡餅，請大家謹防詐騙！若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。

上一篇：科學(xué)家創(chuàng)造鐵基超導(dǎo)線材載流性能新紀錄

下一篇：徐州醫(yī)科大學(xué)黨委副書記、校長鄭駿年接受審查調(diào)查

中文字幕亚洲欧美一区二区三区_亚洲精品菠萝久久久久久久_日本成人免费视频_狠狠躁少妇一区二区三区_国产精品中文字幕久久久_国产乱子伦农村叉叉叉_麻豆tv免费在线观看_av在线这里只有精品_色吧亚洲视频_嫩草影院一二三

在接受檢驗時，AI假說不如人類假說

熱門資訊

推薦資訊

科學(xué)最熱文章