“國際社會應確立具體、可操作、受全球認可的紅線,確保人工智能系統在任何情況下均不得逾越。”7月25日, 由杰弗里·辛頓(Geoffrey Hinton)、姚期智、本吉奧(Yoshua Bengio)、斯圖爾特·羅素(Stuart Russell)等20余位行業專家、學者共同簽署的AI安全國際對話上海共識(以下簡稱“上海共識”)正式對外公開。
參與簽署的部分中外科學家 來源:IDAIS官網
此次對話是“AI安全國際對話”(International Dialogues on AI Safety - IDAIS)系列的一部分”。作為本次共識發起方之一,圖靈獎得主、上海期智研究院的院長姚期智當日表示,“我越來越相信,人類終將找到解決方案。”
聯名簽署現場
2024年3月,辛頓、姚期智、羅素、本吉奧等專家曾共同簽署“北京共識”,主張限制AI系統復制、欺騙、武器開發等行為,尤其呼吁行業為AI的研發和應用戴上“緊箍咒”,避免相關技術被濫用,推動全球治理機構構建。姚期智透露,18個月前舉辦第一次安全共識會議時,AGI強大的破壞力就已經顯現,人類甚至難以闡明其失控機制,不過隨著相關會議的推進,已經看到若干有關基于“設計的安全”(Safe by design)提案,這意味著實際上人類可以找到確保AI安全的可行路徑。
此次“上海共識”指出,當前人類正處于一個關鍵轉折點:人工智能系統正迅速接近并可能超越人類智能水平。這些未來的系統可能在操作者毫不知情的情況下,執行并非操作者所期望或預測的行動。這可能導致失控,即一個或多個通用人工智能系統脫離任何人的控制,從而帶來災難性甚至是生存層面的風險。當前,對于能夠在更高級的通用人工智能超越人類智能水平后,仍可靠地確保其對齊,并保持人類的有效控制尚無可行方法。
多位與會專家在參與討論時也提及,當前構建真正有約束力且值得信賴的國際AI安全框架難度高、風險大。
上海人工智能實驗室主任周伯文教授指出,目前Make AI Safe(使得AI安全)最大的問題在于它是事后價值對齊、修補的、被動回應的,通常是防御成本過高而攻擊成本過低。而Make Safe AI(構建安全的AI)是主動的、在線共同演進的,同時防御成本低,能夠在各級風險上都保持應變能力。
周伯文認為,在一定程度上,訓練一個模型變得友善和訓練一個模型變得聰明可能是兩條不同的技術路徑。但當性能發展到某個程度,這兩種能力可能很難分開處理——就像經典牛頓定律可以有效解釋靜止或慢速物體的運動,但是一旦逼近光速,這套理論就失效了。所以他認為,下一代模型的“善”與“智”未必能完全獨立、分開發展,而是相互影響、共同進化的。
參與簽署的專家之一,擔任約翰·霍普金斯大學人工智能對齊與治理方向杰出教授吉莉恩·哈德菲爾 (Gillian Hadfield)在接受包括澎湃科技在內的媒體采訪時指出,必須通過設立AI“紅線”來推動Make AI Safe(使得AI安全),全世界需要跨國界合作。此外,要建立相應的AI安全合規系統。
為防范與糾正此類行為的技術路徑與治理機制,“上海共識”提出應對策略,并呼吁采取三項關鍵行動:要求前沿人工智能開發者提供安全保障、通過加強國際協調,共同確立并恪守可驗證的全球性行為紅線、投資基于設計的安全人工智能研究。
其中,對于開發者來說,“上海共識”要求開發者在模型部署前應先進行全面的內部檢查和第三方評估,提交高可信的安全案例,以及開展深入的模擬攻防與紅隊測試。若模型達到了關鍵能力閾值(比如檢測模型是否具備幫助沒有專業知識的非法分子制造生化武器的能力),開發者應向政府(在適當時亦可向公眾)說明潛在風險。
此外,呼吁國際社會需要合作劃出人工智能開發不可以逾越的紅線(即“高壓線”),這些紅線應聚焦于人工智能系統的行為表現,其劃定需同時考量系統執行特定行為的能力及其采取該行為的傾向性。為落實這些紅線,各國應建立一個具備技術能力、具有國際包容性的協調機構,匯聚各國人工智能安全主管機構,以共享風險相關信息,并推動評估規程與驗證方法的標準化。
“上海共識”指出,短期內亟須建立可擴展的監管機制以應對人工智能的欺騙問題、提升模型對“越獄”等攻擊手段的抵御能力、強化信息安保投入等,而長期則需要一個“基于設計的安全”的架構,而非問題出現后才被動應對。
(原標題:辛頓、姚期智等聯名簽署“上海共識”,呼吁給AI確立行為紅線)
本文鏈接:行業專家聯名簽署“上海共識”,呼吁給AI確立行為紅線http://www.sq15.cn/show-11-23829-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。
上一篇: 全能AI科學家助推更多“愛因斯坦”
下一篇: 第十二屆樹蘭醫學獎被提名人名單公布