一家學(xué)術(shù)出版商對(duì)數(shù)萬(wàn)份論文投稿進(jìn)行分析后發(fā)現(xiàn),在過(guò)去幾年中,使用人工智能(AI)生成文本的情況顯著增加。
圖片來(lái)源:Nicolas Economou/NurPhoto
美國(guó)癌癥研究協(xié)會(huì)(AACR)發(fā)現(xiàn),在2024年向其旗下期刊提交的稿件中,23%的摘要和5%的同行評(píng)議報(bào)告包含可能由大型語(yǔ)言模型生成的文本。此外,盡管AACR已強(qiáng)制要求作者在投稿時(shí)披露AI使用情況,但僅有不到25%的作者遵守了這一規(guī)定。
為檢測(cè)投稿中是否存在AI使用痕跡,AACR采用了由美國(guó)潘格拉姆實(shí)驗(yàn)室研發(fā)的一款A(yù)I檢測(cè)工具。2021年至2024年間,該機(jī)構(gòu)使用這一工具對(duì)向旗下10種期刊提交的4.65萬(wàn)篇摘要、46021個(gè)方法章節(jié)及29544條同行評(píng)議意見(jiàn)進(jìn)行了檢測(cè)。結(jié)果顯示,自2022年11月OpenAI旗下聊天機(jī)器人ChatGPT公開(kāi)推出后,投稿和同行評(píng)議報(bào)告中疑似AI生成文本的數(shù)量呈上升趨勢(shì)。
“看到檢測(cè)結(jié)果時(shí),我們感到十分震驚。”AACR期刊運(yùn)營(yíng)與系統(tǒng)主任Daniel Evanko表示。近日,他在美國(guó)芝加哥市舉辦的第十屆同行評(píng)議與科學(xué)出版物國(guó)際大會(huì)上公布了這一研究結(jié)果。
分析顯示,在2023年底AACR禁止同行評(píng)議人員使用大型語(yǔ)言模型后,同行評(píng)議報(bào)告中AI生成文本的比例下降了50%。但到2024年初,同行評(píng)議意見(jiàn)中AI生成文本的檢出量增長(zhǎng)了一倍多,且這一趨勢(shì)仍在持續(xù)。
Evanko指出:“盡管我們明確禁止使用大型語(yǔ)言模型進(jìn)行同行評(píng)議,但仍能看到使用量在不斷增加,這一現(xiàn)象令人不安。我們計(jì)劃對(duì)所有新提交的稿件和同行評(píng)議意見(jiàn)進(jìn)行全面篩查。”
英國(guó)研究誠(chéng)信公司Clear Skies的創(chuàng)始人Adam Day認(rèn)為,這款檢測(cè)工具整體表現(xiàn)十分出色。但他同時(shí)表示:“該工具在假陽(yáng)性率方面可能存在我們尚未發(fā)現(xiàn)的偏差,需要引起重視。”假陽(yáng)性率即錯(cuò)誤地將人類撰寫文本判定為AI生成文本的比例。
潘格拉姆實(shí)驗(yàn)室的檢測(cè)工具以2021年前的2800萬(wàn)份人類撰寫文檔——其中包括300萬(wàn)篇科學(xué)論文,以及“AI鏡像文本”,即模仿人類撰寫文本的長(zhǎng)度、風(fēng)格和語(yǔ)氣生成的大型語(yǔ)言模型文本為訓(xùn)練數(shù)據(jù)。
潘格拉姆實(shí)驗(yàn)室首席執(zhí)行官M(fèi)ax Spero表示,為該工具添加主動(dòng)學(xué)習(xí)模式是“一項(xiàng)重大突破”,這一改進(jìn)有效降低了假陽(yáng)性率。他和團(tuán)隊(duì)對(duì)工具進(jìn)行了反復(fù)訓(xùn)練,將假陽(yáng)性率從約1%降至約0.01%。
在2024年公布的一篇預(yù)印本論文中,Spero及同事指出,潘格拉姆檢測(cè)工具的準(zhǔn)確率高達(dá)99.85%,錯(cuò)誤率是目前市面上其他AI檢測(cè)工具的1/38。
在2022年11月ChatGPT推出前提交的稿件中,該檢測(cè)工具僅標(biāo)記了7篇疑似包含AI生成文本的摘要,未發(fā)現(xiàn)方法章節(jié)或同行評(píng)議報(bào)告中存在AI生成文本。Evanko表示:“自那之后,AI生成文本的檢出量穩(wěn)步上升,且增速遠(yuǎn)超我們的預(yù)期。”
該工具還能區(qū)分不同類型的大型語(yǔ)言模型,包括ChatGPT系列模型、深度求索(DeepSeek)、羊駝(LLaMa)及克勞德(Claude)。Spero解釋說(shuō):“之所以能做到這一點(diǎn),是因?yàn)檎麄€(gè)訓(xùn)練數(shù)據(jù)集由我們自主生成,因此我們清楚了解每一條訓(xùn)練數(shù)據(jù)的來(lái)源,也明確其對(duì)應(yīng)的生成模型。”
不過(guò),當(dāng)前版本的潘格拉姆檢測(cè)工具無(wú)法區(qū)分“完全由AI生成的文本”與“人類撰寫后經(jīng)AI編輯的文本”。
2024年,AACR使用潘格拉姆檢測(cè)工具對(duì)11959篇摘要、11875個(gè)方法章節(jié)及7211條同行評(píng)議報(bào)告進(jìn)行了分析。結(jié)果顯示,來(lái)自非英語(yǔ)母語(yǔ)國(guó)家機(jī)構(gòu)的作者使用大型語(yǔ)言模型的概率是其他作者的兩倍多。
Evanko表示:“方法章節(jié)的AI使用率之高,讓我感到十分驚訝。讓大型語(yǔ)言模型優(yōu)化方法章節(jié)的表述可能會(huì)引入錯(cuò)誤,因?yàn)樗枰_說(shuō)明研究過(guò)程,一旦進(jìn)行改寫,可能造成信息不準(zhǔn)確。”
研究還發(fā)現(xiàn),在2025年提交的稿件中,摘要被檢測(cè)工具標(biāo)記為疑似AI生成的稿件,被期刊編輯預(yù)審拒絕的概率是未被標(biāo)記稿件的兩倍。此外,方法章節(jié)被標(biāo)記存在AI生成文本的稿件,預(yù)審拒稿率也更高。
不過(guò),該研究并未追蹤最終有多少被標(biāo)記的稿件成功發(fā)表。此外,研究還表明,當(dāng)前有關(guān)AI使用披露的政策效果有限。
美國(guó)西北大學(xué)范伯格醫(yī)學(xué)院的Mohammad Hosseini認(rèn)為,應(yīng)謹(jǐn)慎解讀上述發(fā)現(xiàn),目前無(wú)法完全證實(shí)被標(biāo)記的稿件確實(shí)使用了AI。不過(guò),他也表示,出版商需要“針對(duì)政策違規(guī)情況采取行動(dòng)”。
本文鏈接:AI工具檢測(cè)論文中的AI痕跡http://www.sq15.cn/show-11-26016-0.html
聲明:本網(wǎng)站為非營(yíng)利性網(wǎng)站,本網(wǎng)頁(yè)內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻(xiàn),不代表本站觀點(diǎn),本站不承擔(dān)任何法律責(zé)任。天上不會(huì)到餡餅,請(qǐng)大家謹(jǐn)防詐騙!若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。
上一篇: 走得快不如走得多
下一篇: “虹彩”哺乳動(dòng)物不止一種