兩個富人,出于好奇心,想比較到底誰更富有,但又不想讓對方知道自己“家底”,該用什么方法?
在科學界,它被稱為“姚氏百萬富翁問題”,由計算機科學專家姚期智提出,也使為實現數據“可用不可見”的安全多方計算研究,得到學界關注。
在2024年度中國電子學會科學技術獎勵大會上,西安電子科技大學網絡與信息安全學院教授馬卓團隊牽頭完成的“開放環境下智能模型數據安全關鍵理論與技術”項目獲自然科學獎二等獎,該項目在多方數據安全共享、異常數據逆向追溯與修復等方面實現突破,有效減輕企業數據共享的隱私泄露風險。
安全風險的“不確定性”
提起“開放環境下的智能模型”,不少人或許感到陌生,但對它在生活中的應用卻再熟悉不過,比較典型的有金融風控、智能無人機、自動駕駛系統、智能家居等。
馬卓解釋說:“通俗講就是人工智能模型,但開放環境中,數據來源多樣、節點分布松散、系統邊界不固定,攻擊者容易乘虛而入。”在實際應用中,數據交互、模型推理等環節,都可能被攻擊者竊取隱私、污染數據,導致出現隱私濫用、模型誤導等問題。
作為被攻擊目標,模型面臨的風險不只“某一個”,而可能分散在數據、建模、部署各流程,攻擊類型也更復雜多樣。比如,數據來源多樣,意味著攻擊方可以偽裝成一個普通的數據提供者,在模型構建訓練數據集的過程中,植入“問題”數據,攻擊形式則可能通過某個數據采集傳感器發起,也可能通過某一個機構發起。
馬卓及其團隊的工作,就是從全流程角度防御風險:發現它、解決它!
一般而言,防御有“事前”“事中”和“事后”三個階段:在模型訓練前的數據集構建階段,要掃描定位異常數據;在模型訓練中,則引入能夠抵御此類“問題”數據的魯棒性學習方法,簡單來說,有點像人體的免疫力,可以構建起人體的“防火墻”,使模型更加“健壯”“皮實”“耐造”,關鍵時候不“掉鏈子”,從而使機器學習模型在面對異常數據、噪聲干擾、分布偏移等不利條件時,仍能保持穩定性和有效性的能力;在模型完成訓練后,則對模型進行掃描并消除“問題”數據對于模型的影響。
“做這些,還是為了實現模型‘高可用’”,馬卓說,“‘不可用’的安全其實沒有用,安全也要追求低成本、高效率,提升模型性能”。
團隊在測試。西安電子科技大學供圖
給異常數據”動手術“
文章開頭提及的“姚氏百萬富翁問題”中所假設的情景,在多個行業都存在。以金融風控為例,建模時常常要對A銀行和B銀行數據求交集,此過程可能存在隱私泄露風險,傳統加密方法復雜度過高,比如無法很好處理非交集的數據,刪除可能使隱私暴露,會產生較冗長的數據,導致模型訓練變慢,難以規模化應用。
馬卓帶領團隊提出的系列超輕量級安全計算方法,支持包括多方數據加密、線性/非線性函數安全計算等在內的多種數據安全計算操作。他解釋道:“我們就是想辦法去除冗余,讓有限數據參與訓練,同時提高非線性運算(如對數、指數、開方運算等)算子的速度,讓前期數據處理變得高效安全。”
在數據處理之外,團隊還瞄準模型部署后的異常數據快速定位,和模型的高效修復問題,前者是如何更快地確定異常數據,后者則像對異常數據“動手術”,實現精準清除,保證模型“健康”運行。
異常數據,通常分數據投毒和后門植入兩大類型。前者相對容易理解,后者則是一種形象說法,指的是攻擊者通過污染數據或修改架構等方法,在模型中注入的隱藏行為,就像一扇可以通往模型的“門”,平日里,它就像“臥底”“間諜”一樣,保持靜默,但一旦被“觸發”,就可能導致模型出現異常行為。
馬卓說,“以前的方法是窮舉,把所有數據‘摟’一遍,我們現在則是通過類似于近似計算的方法找到它們,執行效率可提升兩個數量級以上”。
發現數據異常,接下來就是把它們從模型中“請”出去。之所以要“請”,是因為異常數據很“狡猾”,不僅“隱身”技能強,而且嵌套在模型中,如果把模型比作大腦,異常數據就可能“藏”在腦神經細胞,處理這些數據,其復雜度不亞于有些神經外科手術。
模型遺忘策略
經過團隊努力攻關,最終研發出“基于梯度上升的模型遺忘策略”方案,能在不重新訓練模型的情況下,精準消除異常數據對于模型決策的干擾。
訓練模型的關鍵在于讓模型“記住”數據及其特征,模型后門產生的核心原因,在于它“記住”了后門數據,而且后門數據不僅包含問題數據特征,也包含一定的正常數據特征。
“我們反其道而行之,讓模型學會‘遺忘’,不能多也不能少,恰到好處地選擇性失憶,把異常數據從模型中‘撤銷’掉”,馬卓說。
從數學角度看,梯度下降法,就是沿梯度下降的方向求解極小值。假設一個人正在山頂,擔心天氣突變或夜路危險,需要盡快下山,在保證安全的前提下,一個好的方法就是以當前位置為基準,盡量沿坡度最陡的地方往下走,為實現整體最優,每隔一段距離要重新校準定位坡度,繼續下山。本質上,梯度下降法體現著一種模型訓練的優化思維。
除了能為模型“排毒”外,這種方法還能像人們使用社交軟件“撤回”信息一樣,給模型部署機構或平臺,提供“撤回數據”的選擇,尤其在多方參與數據共享的模型中,這既保障了部分參與方的數據隱私權,也能在某個機構退出合作時,最大程度減少數據“撤出”對模型正常運行的影響。
學會正向”卷“自己
在馬卓看來,團隊近年來聚焦攻關的這個項目,是團隊“發現的一個比較有意思的領域”,在研究成果發表前,國際上相關文章并不多。
團隊合影。西安電子科技大學供圖
團隊由多名長期從事人工智能安全、密碼學與隱私計算方向的青年骨干教師組成,涵蓋算法理論、系統架構與工程實現等多層次研究力量,并吸引多名博士后和研究生共同參與。近年來,團隊產出了一系列具有自主知識產權的創新成果,廣泛應用于實際場景。
對于學生的培養,在馬卓看來,考試對學生只是基本要求,想要“出類拔萃”,就要“學別人不能學,做別人不能做“。“我現在更像一個輔導員,去調動他們的積極性,讓學生知道讀大學、研究生的意義和目的,學會正向地‘卷’自己”。
相關論文信息: https://doi.org/10.1109/INFOCOM48880.2022.9796974
本文鏈接:防御“后門”、模型遺忘!他們守護AI數據安全http://www.sq15.cn/show-11-26856-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。
上一篇: 用“時間”打破科學邊界
下一篇: “一個也沒預測到,但他們獲獎實至名歸”