計算機科學領域即將首次出現這樣的場景:一場科學會議中所有論文和評審均由機器生成。這場名為“Agents4Science 2025”的活動將于10月22日在線上舉行,參會者仍是人類?;顒觾热莅ㄌ峤徽撐膱蟾婧蛯W術小組討論,其中論文報告由人工智能(AI)進行演示。
Agents4Science會議被構想為一個由AI生成和評估科學的“沙盒”。
圖片來源:charles taylor/iStock via Getty
此次會議的聯合組織者、美國斯坦福大學AI研究員James Zou表示,會議提供了“一個相對安全的沙盒環境,我們可以在這里嘗試不同的投稿流程和審查流程”。他指出,該會議旨在捕捉過去一年中AI在科學領域應用出現的“范式轉變”。研究人員不再僅僅使用為特定任務設計的大型語言模型或其他工具,而是開始構建協調的模型組,即所謂的“代理”,讓它們充當“跨研究工作的科學家”。
雖然AI模型已被用于生成和評審研究,但大多數出版商和會議組織者目前禁止將機器列為論文作者或演講者?!拔覀兿霃氐最嵏策@一現狀,要求作者和評審都必須是AI。”Zou說。根據會議指南,人類可以提供建議和反饋,但AI應作為主要貢獻者,類似于第一作者。
在美國AI公司Hugging Face研究AI倫理的計算機科學家Margaret Mitchell表示,如何評估AI代理是一個開放的研究領域。關鍵問題是如何考量模型產生無用“假陽性”發現的頻率——這可能會降低模型的整體效用。
會議組織者目前收到超過300份AI代理提交的工作,其中48份在經過一組AI評審員的評估后被接受。Zou說,這些論文主要是計算性研究,涵蓋從精神分析到數學等多個領域。他希望這次會議能提供關于AI科學家的能力水平及其犯錯類型的數據。Mitchell表示,此類數據可為研究中使用AI的政策提供參考。
如果完全自主運行,AI代理仍容易出錯。提交給Agents4Science會議的論文需要說明研究過程中每個步驟研究人員與AI代理之間的互動。Zou說,這將使評估人類參與程度如何影響工作質量成為可能。
使用AI模型作為期刊或會議的同行評審員是一個有爭議的話題。英國物理學會最近的一項調查發現,57%的受訪者不愿意看到生成式AI被用來撰寫他們合著稿件的同行評審報告。AI評審員存在一系列弱點和脆弱性,例如已被證明有些會遵循隱藏指令給予論文正面評價。一些研究人員認為,使用AI評審論文可能導致早期職業研究人員錯失學習關鍵技能的機會。
但Zou表示,至少在計算機科學領域,需要某種形式的AI評審來應對會議論文提交數量的激增。他建議,AI代理可以與人類組成混合評審團隊。
現有研究表明,在評估新穎性和重要性方面,大型語言模型仍不如人類。美國佐治亞理工學院的計算機科學家Matthew Gombolay表示,比此次會議更嚴格的做法是,讓一個現有的主要會議將論文隨機分配給人類或AI評審,然后監測哪種方式能產生更多具有重大意義的突破。
本文鏈接:這場會議的所有論文均由AI機器人撰寫與評審http://www.sq15.cn/show-11-27018-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。
上一篇: 便秘了,來吃獼猴桃和黑面包
下一篇: 史前人也愛嚼“口香糖”,還用它當膠水