AI工具檢測(cè)論文中的AI痕跡

2025-09-16 16:49:24 來(lái)源：中國(guó)科學(xué)報(bào)

觀看：24

一家學(xué)術(shù)出版商對(duì)數(shù)萬(wàn)份論文投稿進(jìn)行分析后發(fā)現(xiàn)，在過(guò)去幾年中，使用人工智能（AI）生成文本的情況顯著增加。

圖片來(lái)源：Nicolas Economou/NurPhoto

美國(guó)癌癥研究協(xié)會(huì)（AACR）發(fā)現(xiàn)，在2024年向其旗下期刊提交的稿件中，23%的摘要和5%的同行評(píng)議報(bào)告包含可能由大型語(yǔ)言模型生成的文本。此外，盡管AACR已強(qiáng)制要求作者在投稿時(shí)披露AI使用情況，但僅有不到25%的作者遵守了這一規(guī)定。

為檢測(cè)投稿中是否存在AI使用痕跡，AACR采用了由美國(guó)潘格拉姆實(shí)驗(yàn)室研發(fā)的一款A(yù)I檢測(cè)工具。2021年至2024年間，該機(jī)構(gòu)使用這一工具對(duì)向旗下10種期刊提交的4.65萬(wàn)篇摘要、46021個(gè)方法章節(jié)及29544條同行評(píng)議意見(jiàn)進(jìn)行了檢測(cè)。結(jié)果顯示，自2022年11月OpenAI旗下聊天機(jī)器人ChatGPT公開(kāi)推出后，投稿和同行評(píng)議報(bào)告中疑似AI生成文本的數(shù)量呈上升趨勢(shì)。

“看到檢測(cè)結(jié)果時(shí)，我們感到十分震驚。”AACR期刊運(yùn)營(yíng)與系統(tǒng)主任Daniel Evanko表示。近日，他在美國(guó)芝加哥市舉辦的第十屆同行評(píng)議與科學(xué)出版物國(guó)際大會(huì)上公布了這一研究結(jié)果。

分析顯示，在2023年底AACR禁止同行評(píng)議人員使用大型語(yǔ)言模型后，同行評(píng)議報(bào)告中AI生成文本的比例下降了50%。但到2024年初，同行評(píng)議意見(jiàn)中AI生成文本的檢出量增長(zhǎng)了一倍多，且這一趨勢(shì)仍在持續(xù)。

Evanko指出：“盡管我們明確禁止使用大型語(yǔ)言模型進(jìn)行同行評(píng)議，但仍能看到使用量在不斷增加，這一現(xiàn)象令人不安。我們計(jì)劃對(duì)所有新提交的稿件和同行評(píng)議意見(jiàn)進(jìn)行全面篩查。”

英國(guó)研究誠(chéng)信公司Clear Skies的創(chuàng)始人Adam Day認(rèn)為，這款檢測(cè)工具整體表現(xiàn)十分出色。但他同時(shí)表示：“該工具在假陽(yáng)性率方面可能存在我們尚未發(fā)現(xiàn)的偏差，需要引起重視。”假陽(yáng)性率即錯(cuò)誤地將人類撰寫文本判定為AI生成文本的比例。

潘格拉姆實(shí)驗(yàn)室的檢測(cè)工具以2021年前的2800萬(wàn)份人類撰寫文檔——其中包括300萬(wàn)篇科學(xué)論文，以及“AI鏡像文本”，即模仿人類撰寫文本的長(zhǎng)度、風(fēng)格和語(yǔ)氣生成的大型語(yǔ)言模型文本為訓(xùn)練數(shù)據(jù)。

潘格拉姆實(shí)驗(yàn)室首席執(zhí)行官M(fèi)ax Spero表示，為該工具添加主動(dòng)學(xué)習(xí)模式是“一項(xiàng)重大突破”，這一改進(jìn)有效降低了假陽(yáng)性率。他和團(tuán)隊(duì)對(duì)工具進(jìn)行了反復(fù)訓(xùn)練，將假陽(yáng)性率從約1%降至約0.01%。

在2024年公布的一篇預(yù)印本論文中，Spero及同事指出，潘格拉姆檢測(cè)工具的準(zhǔn)確率高達(dá)99.85%，錯(cuò)誤率是目前市面上其他AI檢測(cè)工具的1/38。

在2022年11月ChatGPT推出前提交的稿件中，該檢測(cè)工具僅標(biāo)記了7篇疑似包含AI生成文本的摘要，未發(fā)現(xiàn)方法章節(jié)或同行評(píng)議報(bào)告中存在AI生成文本。Evanko表示：“自那之后，AI生成文本的檢出量穩(wěn)步上升，且增速遠(yuǎn)超我們的預(yù)期。”

該工具還能區(qū)分不同類型的大型語(yǔ)言模型，包括ChatGPT系列模型、深度求索（DeepSeek）、羊駝（LLaMa）及克勞德（Claude）。Spero解釋說(shuō)：“之所以能做到這一點(diǎn)，是因?yàn)檎麄€(gè)訓(xùn)練數(shù)據(jù)集由我們自主生成，因此我們清楚了解每一條訓(xùn)練數(shù)據(jù)的來(lái)源，也明確其對(duì)應(yīng)的生成模型。”

不過(guò)，當(dāng)前版本的潘格拉姆檢測(cè)工具無(wú)法區(qū)分“完全由AI生成的文本”與“人類撰寫后經(jīng)AI編輯的文本”。

2024年，AACR使用潘格拉姆檢測(cè)工具對(duì)11959篇摘要、11875個(gè)方法章節(jié)及7211條同行評(píng)議報(bào)告進(jìn)行了分析。結(jié)果顯示，來(lái)自非英語(yǔ)母語(yǔ)國(guó)家機(jī)構(gòu)的作者使用大型語(yǔ)言模型的概率是其他作者的兩倍多。

Evanko表示：“方法章節(jié)的AI使用率之高，讓我感到十分驚訝。讓大型語(yǔ)言模型優(yōu)化方法章節(jié)的表述可能會(huì)引入錯(cuò)誤，因?yàn)樗枰_說(shuō)明研究過(guò)程，一旦進(jìn)行改寫，可能造成信息不準(zhǔn)確。”

研究還發(fā)現(xiàn)，在2025年提交的稿件中，摘要被檢測(cè)工具標(biāo)記為疑似AI生成的稿件，被期刊編輯預(yù)審拒絕的概率是未被標(biāo)記稿件的兩倍。此外，方法章節(jié)被標(biāo)記存在AI生成文本的稿件，預(yù)審拒稿率也更高。

不過(guò)，該研究并未追蹤最終有多少被標(biāo)記的稿件成功發(fā)表。此外，研究還表明，當(dāng)前有關(guān)AI使用披露的政策效果有限。

美國(guó)西北大學(xué)范伯格醫(yī)學(xué)院的Mohammad Hosseini認(rèn)為，應(yīng)謹(jǐn)慎解讀上述發(fā)現(xiàn)，目前無(wú)法完全證實(shí)被標(biāo)記的稿件確實(shí)使用了AI。不過(guò)，他也表示，出版商需要“針對(duì)政策違規(guī)情況采取行動(dòng)”。

本文鏈接：AI工具檢測(cè)論文中的AI痕跡http://www.sq15.cn/show-11-26016-0.html

聲明：本網(wǎng)站為非營(yíng)利性網(wǎng)站，本網(wǎng)頁(yè)內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻(xiàn)，不代表本站觀點(diǎn)，本站不承擔(dān)任何法律責(zé)任。天上不會(huì)到餡餅，請(qǐng)大家謹(jǐn)防詐騙！若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系，我們將在第一時(shí)間刪除處理。

上一篇：走得快不如走得多

下一篇： “虹彩”哺乳動(dòng)物不止一種

中文字幕亚洲欧美一区二区三区_亚洲精品菠萝久久久久久久_日本成人免费视频_狠狠躁少妇一区二区三区_国产精品中文字幕久久久_国产乱子伦农村叉叉叉_麻豆tv免费在线观看_av在线这里只有精品_色吧亚洲视频_嫩草影院一二三

AI工具檢測(cè)論文中的AI痕跡

熱門資訊

推薦資訊

科學(xué)最熱文章