全球領先的兩家AI初創企業OpenAI與Anthropic過去兩個月罕見地展開了一項跨實驗室的合作——在激烈競爭中暫時互相開放它們嚴密保護的人工智能模型,以進行聯合安全測試。
此舉旨在揭示各自公司內部評估中的盲點,并展示領先人工智能企業在未來如何在安全與協調方面開展合作。
兩家公司于周三聯合發布的安全研究報告,正值OpenAI與Anthropic等頭部AI企業展開軍備競賽之際——數十億美元的數據中心投資和千萬美元級別的頂尖研究員薪酬,已成為業內的基礎門檻。這導致不少行業專家頗為擔憂地警告稱,產品競爭的激烈程度,可能迫使企業在倉促開發更強大系統時降低安全標準。

據悉,為實現本次研究,OpenAI與Anthropic相互授予了特殊API權限,允許訪問降低安全防護等級的AI模型版本——GPT-5模型因當時尚未發布未參與此項測試。
OpenAI聯合創始人Wojciech Zaremba在接受采訪時表示,鑒于AI技術正步入每天有數百萬人使用的“具有重大影響”的發展階段,此類合作正變得愈發重要。
“盡管行業投入了數十億美元資金,并存在人才、用戶和最佳產品的爭奪戰,但如何建立安全與合作標準,仍是整個行業面臨的更廣泛問題,”Zaremba表示。
當然,Zaremba預計,即便AI安全團隊開始嘗試合作,但行業競爭仍將保持激烈。
Anthropic安全研究員Nicholas Carlini則表示,希望未來能繼續允許OpenAI安全研究人員,訪問Anthropic旗下的Claude模型。
“我們希望在安全前沿領域盡可能擴大合作,讓這類合作實現常態化,”Carlini表示。
研究發現了哪些問題?
此項研究中最引人注目的發現,涉及大模型的幻覺測試環節。
當無法確定正確答案時,Anthropic的Claude Opus 4和Sonnet 4模型會拒絕回答高達70%的問題,轉而給出“我沒有可靠信息”等回應;而OpenAI的o3和o4-mini模型拒絕回答問題的頻率,則遠低于前者,同時出現幻覺的概率卻高得多——它們會在信息不足時仍試圖作答。
Zaremba認為理想平衡點應介于兩者之間:OpenAI模型應更頻繁拒絕作答,而Anthropic模型則應嘗試提供更多答案。
諂媚現象——AI模型為取悅用戶而強化其負面行為的傾向,也正成為當前AI模型最緊迫的安全隱患之一。
Anthropic的研究報告指出,GPT-4.1和Claude Opus 4存在“極端”的諂媚案例——這些模型最初會抵制精神病態或躁狂行為,但隨后卻認可某些令人擔憂的決策。相比之下,OpenAI和Anthropic的其他AI模型中,研究人員觀察到的諂媚程度較低。
本周二,16歲美國加州少年亞當·雷恩的父母對OpenAI提起了訴訟,指控ChatGPT(具體為GPT-4o版本)向其子提供了助推其自殺的建議,而非阻止其自殺念頭。該訴訟表明,這可能是AI聊天機器人諂媚導致悲劇后果的最新案例。
當被問及此事時,Zaremba表示:“難以想象這對家庭造成的痛苦。如果我們研發出能解決復雜博士級難題、創造新科學的AI,卻同時導致人們因與之互動而出現心理健康問題,這將是令人悲哀的結局。這種反烏托邦未來絕非我所期待。”
OpenAI在博客中宣稱,相較于GPT-4o,其GPT-5模型已顯著改善了聊天機器人的諂媚性問題,并聲稱該模型更能應對心理健康緊急狀況。
Zaremba與Carlini表示,未來希望Anthropic與OpenAI在安全測試領域深化合作,拓展研究主題并測試未來模型,同時期待其他AI實驗室效仿這種協作模式。
本文鏈接:OpenAI、Anthropic罕見合作http://www.sq15.cn/show-3-153505-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。
上一篇: 日元一路漲,住宿按人收稅:想去日本“薅羊毛”,已經沒多少空間了
下一篇: 東杰智能易主,未來將進軍具身智能賽道