量子位 | 公眾號 QbitAI大模型廠商在上下文長度上卷的不可開交之際,一項最新研究潑來了一盆冷水——Claude背后廠商Anthropic發現,隨著窗口長度的不斷增加,大模" />

中文字幕亚洲欧美一区二区三区_亚洲精品菠萝久久久久久久_日本成人免费视频_狠狠躁少妇一区二区三区_国产精品中文字幕久久久_国产乱子伦农村叉叉叉_麻豆tv免费在线观看_av在线这里只有精品_色吧亚洲视频_嫩草影院一二三

設置
  • 日夜間
    隨系統
    淺色
    深色
  • 主題色

多忽悠幾次AI全招了!Anthropic警告:長上下文成越獄突破口,GPT羊駝Claude無一幸免

2024-04-03 17:35:23 來源: 量子位

暫無完善解決方案yoQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

克雷西 發自 凹非寺yoQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM
量子位 | 公眾號 QbitAIyoQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

大模型廠商在上下文長度上卷的不可開交之際,一項最新研究潑來了一盆冷水——yoQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

Claude背后廠商Anthropic發現,隨著窗口長度的不斷增加,大模型的“越獄”現象開始死灰復燃。yoQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

無論是閉源的GPT-4和Claude 2,還是開源的Llama2和Mistral,都未能幸免。yoQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

多忽悠幾次AI全招了!Anthropic警告:長上下文成越獄突破口,GPT羊駝Claude無一幸免

研究人員設計了一種名為多次樣本越獄(Many-shot Jailbreaking,MSJ)的攻擊方法,通過向大模型灌輸大量包含不良行為的文本樣本實現。yoQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

通過這種方法,他們測試了包括Claude 2.0、GPT-4等在內的多個知名大模型。yoQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

結果,只要忽悠的次數足夠多,這種方法就能在各種類型的不良信息上成功攻破大模型的防線。yoQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

目前,針對這一漏洞,尚未發現完美的解決方案,Anthropic表示,發布這一信息正是為了問題能盡快得到解決,并已提前向其他廠商和學術界通報了這一情況。yoQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

多忽悠幾次AI全招了!Anthropic警告:長上下文成越獄突破口,GPT羊駝Claude無一幸免

那么,這項研究具體都有哪些發現呢?yoQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

知名模型無一幸免

首先,研究人員用去除了安全措施的模型生成了大量的有害字符串。yoQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

這些內容涵蓋濫用或欺詐內容(Abusive or fraudulent)、虛假或誤導性信息(Deceptive or misleading)、非法或管制物品、暴力仇恨或威脅內容四個方面,每個方面各生成了2500條樣本,研究人員從每種類型中各挑選了200個用于測試。yoQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

然后,研究人員把這些內容打亂順序,并改編成用戶與模型的“聊天記錄”,并將目標問題一起輸入被測模型。yoQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

多忽悠幾次AI全招了!Anthropic警告:長上下文成越獄突破口,GPT羊駝Claude無一幸免

然后,研究人員用一個拒絕分類器(refusal classifier)來對攻擊效果進行了評估,這個分類器會根據模型的響應來判斷其是否“拒絕”了不適當的請求。yoQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

結果發現,閉源模型中最強的GPT-4和Claude,以及開源模型中最知名的Llama和Mistral,在面對不同類型的攻擊信息時,無一例外全部淪陷。yoQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

而且隨著樣本數量的不斷增多,這種攻擊方法在四種類型的有害內容上的攻擊成功率都呈現出了大幅上升,最多的已經超過了70%。yoQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

而且成功的概率與樣本數量之間呈現出了指數分布,樣本數量在8時以下幾乎無法成功,而到了2^5(32)的位置出現了明顯拐點,再到2^8(256)時已經擁有極高的成功率。yoQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

而從模型的維度看,除了Llama2-70B由于窗口長度限制沒有樣本較多時的數據之外,GPT、Claude等模型的負對數似然(NLL,越低代表攻擊越成功)值也呈現出了這樣的分布規律。yoQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

多忽悠幾次AI全招了!Anthropic警告:長上下文成越獄突破口,GPT羊駝Claude無一幸免

同時研究人員還發現,目標問題與給出信息的匹配程度、模型大小和信息的格式,也都會影響攻擊的成功率。yoQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

當目標問題與攻擊信息不匹配時,如果攻擊信息涵蓋的類型足夠多樣化,攻擊成功率幾乎沒有受到任何影響,但當其涉及范圍較窄時,攻擊則幾乎失效。yoQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

規模方面,越大的模型,被攻擊的概率也越大;而通過交換身份、翻譯等方式修改攻擊內容的格式,也會提高成功概率。yoQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

多忽悠幾次AI全招了!Anthropic警告:長上下文成越獄突破口,GPT羊駝Claude無一幸免

此外,這種攻擊方式還可以與其他越獄技術結合,例如與黑盒攻擊一同使用時,成功率最多可以提高將近20個百分點。yoQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

多忽悠幾次AI全招了!Anthropic警告:長上下文成越獄突破口,GPT羊駝Claude無一幸免

總的來說,這樣的攻擊方式,從原理上看似乎很簡單,但為什么窗口長度變長之后,成功率就增加了呢?yoQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

或許你已經注意到,研究人員發現“越獄”的成功率和樣本數量遵循冪律分布,也就是隨著樣本越來越多,成功率不僅更高,增長得也更快。yoQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

而且研究發現,較大的模型在長上下文中學習的速度也更快,更容易受到上下文內容的影響。yoQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

而窗口長度的增加,也就意味著為有害信息提供了更多的土壤,可以加入的樣本數量變多了,模型能看到學到的也就更多了,“越獄”概率自然隨之大幅上升。yoQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

此外還有模型的長期依賴性的影響——較長的上下文允許模型學習并模仿更長序列的行為模式,這也可能導致模型在面對攻擊時表現出不期望的行為。yoQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

那么,有沒有什么辦法能解決這個問題呢?有,但都還不完善。yoQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

解決方案仍待探索

針對這一問題,研究人員也提出了一些可能的解決方案,不過都還存在瑕疵。yoQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

最簡單粗暴的,就是限制窗口長度,這種方法直接“釜底抽薪”,理論上是有效的,但難免有些因噎廢食。yoQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

第二個思路,則是通過監督學習(SL)和強化學習(RL)來進行對齊微調,從而減少有害內容的生成。yoQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

可以看出,隨著對齊強度的增大,成功攻擊所需的樣本數量確實有所增大,但并未改變指數型的增長趨勢。yoQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

多忽悠幾次AI全招了!Anthropic警告:長上下文成越獄突破口,GPT羊駝Claude無一幸免

于是研究人員又改用具有針對性的SL和RL,結果是外甥打燈籠——照舊(舅)。yoQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

隨著RL步數的增加,攻擊難度同樣是越來越大,但是整體趨勢依舊無法扭轉。yoQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

多忽悠幾次AI全招了!Anthropic警告:長上下文成越獄突破口,GPT羊駝Claude無一幸免

另外一種方式就是從提示詞下手,包括InContext Defense(ICD)和Cautionary Warning Defense(CWD)等方法——yoQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

ICD在提示前添加拒絕有害問題的示例,而CWD則在提示前后添加警告文本,意圖預防或減輕這種攻擊帶來的影響。yoQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

結果發現,作者提出的CWD方法效果出奇的好,在樣本數不超過128時,攻擊幾乎無法取得成功,繼續增加樣本量時,61%的成功率也降到了2%。yoQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

多忽悠幾次AI全招了!Anthropic警告:長上下文成越獄突破口,GPT羊駝Claude無一幸免

但這種方法同樣存在局限性,一是攻擊策略在不斷變化、新的有害內容類型也隨時可能出現,CWD可能需要頻繁更新和維護才能保持有效,無疑會增加運營成本。yoQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

另外,過多的警告性文本可能會干擾模型的正常運作,例如減慢響應時間或影響生成內容的自然流暢性,導致用戶體驗下降。yoQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

總之,目前尚未找到既能完美解決問題又不顯著影響模型效果的辦法,Anthropic選擇發布通告將這項研究公之于眾,也是為了讓整個業界都能關注這個問題,從而更快找到解決方案。yoQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

而這背后也體現出了人們對大模型認識的不足,就像這位Anthropic員工所說,人們在認識上下文窗口這件事情上,還有很長的路要走……yoQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

多忽悠幾次AI全招了!Anthropic警告:長上下文成越獄突破口,GPT羊駝Claude無一幸免

參考鏈接(含論文):yoQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

https://www.anthropic.com/research/many-shot-jailbreakingyoQ速刷資訊——每天刷點最新資訊,了解這個世界多一點SUSHUAPOS.COM

本文鏈接:多忽悠幾次AI全招了!Anthropic警告:長上下文成越獄突破口,GPT羊駝Claude無一幸免http://www.sq15.cn/show-2-4561-0.html

聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。

上一篇: 人形機器人行業進入發展關鍵拐點:“人工智能”成新轉機,機器“成人”有待商用檢驗

下一篇: 剛剛,Sora官方發布首支MV

熱門資訊

  • 明天氫能榮獲國家電網科技進步獎一等獎

    記者3月18日從安徽明天氫能科技股份有限公司(以下簡稱明天氫能)獲悉,國家電網近日向明天氫能及董事長王朝云分別授予科學技術進步獎一等獎,獲獎項目為

  • 負碳復合建材助力減緩全球變暖

    美國太平洋西北國家實驗室的科學家設計了一種復合裝飾材料,可以儲存更多二氧化碳,提供了一種既符合建筑規范,又比標準復合飾面板便宜的“負碳”選擇。

  • 我科學家發現的兩種新礦物獲國際認定

    記者19日從西北大學獲悉,該校地質學系、大陸動力學國家重點實驗室劉鵬副教授與中國地質大學(北京)李國武教授團隊申請的兩種新礦物,近日經國際礦物學學

  • 借AI“慧眼”鑒別可疑論文圖片

    今年1月,英國分子生物學家肖爾托·戴維發表文章,指控美國哈佛大學醫學院附屬丹娜-法伯癌癥研究所科學家通過修改圖片偽造數據。隨后該研究所正

  • 省電“神器”是“黑科技”還是智商稅?

    3月15日,我國一些地區停止居民集中供熱。初春時節,乍暖還寒。停暖初期晝夜溫差較大,老人、兒童等身體較弱者,可能需要使用電暖氣、電熱毯等取暖設備,這

  • 我國建立“天-空-地-深”一體化鈾礦勘查技術體系

    記者3月21日從核工業北京地質研究院(以下簡稱核地研院)獲悉,該院自1959年成立以來,在天然鈾保障、高放廢物地質處置、核遙感技術與應用、分析測試等領

  • 植物避鹽性的關鍵基因被發現

    記者3月21日從安徽農業大學獲悉,該校生命科學學院韓毅教授課題組與國內外專家合作,發現了植物避鹽性的關鍵基因。該研究對于提高植物耐鹽性,幫助鹽堿

  • 新研究揭示 光合作用進化“缺失的一環”

    一個國際團隊近日在英國《自然》雜志上發表論文說,他們利用湖水樣本培養出一種奇特的光合細菌,它屬于綠彎菌門一種此前未知的目,代表了光合作用生物進

  • AI、死亡與機器人:“數字生命”背后的生意與爭議

    21世紀經濟報道記者 馮戀閣 王俊 廣州、北京報道2013年播出的科幻電視劇《黑鏡》第二季中有這樣一個故事——女主角瑪莎在男友艾什被車禍

  • 潛望長焦缺席三代后 曝xiaomi15 Pro重新擁抱潛望鏡頭

    3月22日消息,數碼閑聊站爆料稱,xiaomi15 Pro將采用5000萬像素的超大底三攝方案,其中一顆是全新的潛望長焦鏡頭。據資料顯示,xiaomi11 Pro配備了潛望長焦鏡

  • 首批未來產業創新成果驚艷亮相

    全球首臺無細胞蛋白質合成生物反應器、全球首臺全高溫超導托卡馬克裝置(洪荒70)、64比特超導量子計算機研發與產業化項目、深海可燃冰探采重載作業機

  • 俄羅斯成功發射“聯盟MS-25”載人飛船

    俄羅斯國家航天集團23日發布消息說,俄當天成功發射了“聯盟MS-25”載人飛船。消息說,莫斯科時間23日15時36分(北京時間20時36分),“聯盟MS-25”載人飛船

推薦資訊

  • 日榜
  • 周榜
  • 月榜
日韩中文字幕在线观看视频| 日本久久久久久久 97久久精品一区二区三区 狠狠色噜噜狠狠狠狠97 日日干综合 五月天婷婷在线观看高清 九色福利视频 | 久久99欧美| 日韩一级黄色大片| 韩国三级一区| 日韩在线观看视频黄| 四虎久久影院| 亚洲第一页乱| 天天做日日爱| 黄色短视频网站| 999久久狠狠免费精品| 成人高清免费| 一级女性全黄生活片免费| 日韩av片免费播放| 四虎影视库国产精品一区| 国产一区二区精品| 午夜欧美成人香蕉剧场| 午夜在线亚洲| 韩国毛片免费| 可以免费在线看黄的网站| 天天色色色| 中文字幕一区二区三区精彩视频| 精品久久久久久免费影院| 久久国产一区二区| 日韩一级黄色片| 日韩女人做爰大片| 国产麻豆精品hdvideoss| 色综合久久天天综合绕观看| 天堂网中文字幕| 麻豆污视频| 日本在线不卡免费视频一区| 91麻豆精品国产自产在线| 高清一级做a爱过程不卡视频| 日韩一级黄色| 国产麻豆精品视频| 成人免费福利片在线观看| 99热视热频这里只有精品| 国产成人精品综合| 91麻豆国产| 日本在线播放一区| 麻豆网站在线看| 九九精品在线| 国产伦精品一区二区三区无广告| 天天做日日干| 亚欧成人乱码一区二区| 中文字幕一区二区三区精彩视频| 国产一区二区福利久久| 黄色免费网站在线| 99久久精品国产免费| 999精品视频在线| 美女免费黄网站| 四虎久久精品国产| 欧美大片毛片aaa免费看| 黄色免费三级| 欧美大片一区| 夜夜操天天爽| 国产麻豆精品hdvideoss| 一级毛片视频免费| 精品视频一区二区三区免费| 日本特黄一级| 国产亚洲男人的天堂在线观看| 成人高清视频在线观看| 黄视频网站免费看| 欧美国产日韩一区二区三区| 韩国毛片| 精品国产一区二区三区久久久狼| 九九久久99| 午夜精品国产自在现线拍| 四虎影视库| 999久久久免费精品国产牛牛| 99色视频在线| 美女被草网站| 国产精品1024永久免费视频| 国产亚洲男人的天堂在线观看| 一本高清在线| 可以免费在线看黄的网站| 韩国毛片基地| 欧美激情一区二区三区中文字幕| 四虎论坛| 中文字幕一区二区三区 精品| 国产网站免费| 日本久久久久久久 97久久精品一区二区三区 狠狠色噜噜狠狠狠狠97 日日干综合 五月天婷婷在线观看高清 九色福利视频 | 精品在线视频播放| 四虎影视库国产精品一区| 成人免费一级毛片在线播放视频| 麻豆网站在线看| 色综合久久手机在线| 精品国产一区二区三区久久久狼| 青青青草影院| 亚洲第一色在线| 一 级 黄 中国色 片| 久久成人亚洲| 欧美激情在线精品video| 国产伦精品一区二区三区无广告| 天天做日日爱| 日韩中文字幕在线播放| 久草免费在线视频| 色综合久久天天综合绕观看| 成人高清视频免费观看| 日韩欧美一二三区| 国产一区二区精品| 日韩一级黄色片| 日本伦理黄色大片在线观看网站| 亚洲精品永久一区| 精品久久久久久中文字幕2017| 免费一级片在线| 欧美电影免费| 九九久久99综合一区二区| 亚洲精品中文字幕久久久久久| 可以免费看毛片的网站| 黄视频网站免费看| 国产视频一区在线| 日本免费区| 香蕉视频久久| 精品在线观看国产| 一级片片| 一本高清在线| 香蕉视频亚洲一级| 欧美激情一区二区三区视频 | 日韩在线观看视频网站| 毛片成人永久免费视频| 国产伦理精品| 欧美a级片免费看| 精品国产香蕉在线播出| 欧美日本免费| 在线观看成人网 | 高清一级毛片一本到免费观看| 日韩在线观看视频免费| a级毛片免费观看网站| 日本特黄特色aaa大片免费| 久久成人亚洲| 精品视频免费观看| 欧美激情一区二区三区中文字幕| 四虎论坛| 国产一区二区精品久久91| 美女被草网站| 国产网站在线| 久久精品人人做人人爽97| 黄色短视频网站| 韩国三级一区| 青青青草视频在线观看| 99久久精品国产麻豆| 免费国产一级特黄aa大片在线| 国产伦精品一区二区三区无广告| 久久福利影视| 日本特黄特色aaa大片免费| 精品国产一区二区三区久| 99久久网站| 欧美国产日韩久久久| 色综合久久天天综合观看| 国产网站免费视频| 九九九国产| 久久国产一久久高清| 韩国毛片| 久久国产一久久高清| 91麻豆国产| 国产极品白嫩美女在线观看看| 精品国产亚洲一区二区三区| 欧美一级视频免费| 欧美另类videosbestsex高清 | 九九干| 韩国三级香港三级日本三级| 九九九国产| 日韩中文字幕在线播放| 欧美日本免费| 欧美日本二区| 天天色色色| 欧美夜夜骑 青草视频在线观看完整版 久久精品99无色码中文字幕 欧美日韩一区二区在线观看视频 欧美中文字幕在线视频 www.99精品 香蕉视频久久 | 国产不卡在线观看| 国产视频在线免费观看| 欧美激情一区二区三区视频| 精品视频一区二区| 欧美电影免费看大全| 成人高清视频免费观看| 99久久视频| 香蕉视频亚洲一级| 亚洲天堂免费| 九九干| 欧美国产日韩久久久| 久久久成人影院| 精品国产亚洲一区二区三区| 精品国产亚一区二区三区| 久久国产一区二区| 色综合久久天天综合观看| 国产一区二区精品在线观看| 精品国产三级a∨在线观看| 91麻豆国产福利精品| 国产网站免费视频| 亚欧视频在线| 欧美一级视频免费| 91麻豆精品国产综合久久久| 99热精品一区| 国产伦久视频免费观看 视频| 欧美激情一区二区三区视频| 毛片高清| 国产综合成人观看在线| 国产伦精品一区二区三区无广告| 九九久久99综合一区二区| 国产精品1024永久免费视频| 亚欧成人乱码一区二区|