21世紀經濟報道記者馮戀閣 實習生孔雅萱 廣州報道
#斯坦福抄襲中國大模型#的話題近日出現在各大平臺熱搜中,引發了全網關注。
2名斯坦福學生和1名南加州大學學生組成的AI團隊發布了一篇名為《Llama 3-V: Matching GPT4-V with a 100x smaller model and 500 dollars》的文章,稱訓練出了一個開源多模態模型Llama 3-V。這一模型比GPT-4、Gemini Ultra、Claude Opus等模型能力更強,更引人注目的是,其訓練成本只需要500美元。很快,Llama 3-V 沖上了全球知名開源社區HuggingFace的趨勢榜首頁。
不久,有網友發現,Llama 3-V與清華系大模型創業公司面壁智能的MiniCPM-Llama3-V 2.5在模型結構、代碼、配置文件等方面幾乎一模一樣,只是將變量名稱做了更改。該網友更是直接將相關的關鍵證據一一截圖,進行列舉證明。
隨后,面壁智能團隊證實,Llama3-V與MiniCPM一樣,可以識別出“清華簡”上的戰國古文字(清華大學于2008年7月收藏的一批戰國竹簡),“不僅對得一模一樣、連錯得都一模一樣”。 這一古文字數據是研究團隊花費數月從竹簡上逐字掃描、人工標注得到的,并未對外公開。Llama 3-V模型的團隊成員 Aksh Garg在其社交平臺上發文回應了質疑,表示所有訓練代碼由團隊另一位成員編寫,自己并不知情,并對原作者表達歉意。
至此,此次大模型套殼抄襲事件暫告一段落。不過,公眾對于大模型套殼的討論并未止歇。斯坦福團隊錯在何處?大模型“套殼”爭議頻出,究竟是開源常態還是原創性缺失?
開源,開的是什么?
早在生成式AI影響力大爆炸前,開源和閉源就是軟件開發過程中必須要經歷的決策。
“源”最初指的就是源代碼。公開與否,決定了后來者在使用、改編這個軟件時有多大的自由度。閉源意味著只有編寫者或者系統開發商掌握著修改源代碼的權力,這雖然為經營者帶來了先發優勢,但一定程度上也抑制了后來者的創造能力,進而導致后期影響力擴大變得相對困難。
不過,隨著技術進步,開源逐漸成為互聯網精神的一部分。比如,操作系統Linux,在上世紀90年代初發布時就堅持開源至今。Linux開源極大推動了互聯網發展。此前,360公司創始人周鴻祎評論“沒有開源就沒有 Linux,沒有 Linux 就沒有互聯網。”
從字面意思來看,開源似乎意味著開源模型成為一種公共資源,可以被隨意使用、修改。但事實上,開源生態不是“法外之地”,其使用行為將受到開源許可的約束和管理。
研發者作為版權所有人,可以通過開源許可授予不特定的使用者附條件的版權許可。使用者需要按約定,通過特定使用方式、在約定包含的場景中使用開源模型。“大模型開源的程度、方式不盡相同,開源協議自然也不一樣。”阿里研究院AI治理中心主任傅宏宇指出。
當前通行的開源協議包括GPL、BSD、MIT、Mozilla、Apache和LGPL等,它們在修改后是否可閉源、修改后是否需要說明等方面要求各不相同。
面壁智能聯合創始人、首席科學家劉知遠在朋友圈發表了一篇言辭懇切的回應,認為Llama3-V團隊未能遵守開源協議對前人成果尊重,嚴重破壞了開源共享的基石。“Llama3-V團隊的問題不僅僅在于違反了哪項開源協議,而是將他人成果聲稱為自己的成果。”劉知遠在接受21世紀經濟報道記者采訪時進一步指出。
本次事件主角MiniCPM采用的開源協議Apache Licence 2.0。這一協議允許使用者修改代碼,也允許使用者將成果開源或商用。對應的交換條件則是,后續使用者需要在被修改的文件中說明修改過代碼;在修改后以及源代碼衍生的代碼中需要包含源代碼的協議、商標、專利聲明等說明。
如何分清“殼”與“核”?
違背開源協議的“套殼”行為是如何被發現的?
雖然針對特殊數據集的識別能力并不是慣用的防偽手段,但這次風波中“套殼”嫌疑最終被確認,直接證據是能夠識別“清華簡”上的戰國古文字。
根據劉知遠介紹,除了類似“清華簡”識別能力這樣的“水印”外,“套殼”一般通過大模型的分詞詞表、架構設置(如層數、向量維數等)和能力表現等判斷。“這次之所以能夠比較確認Llama3-V套殼MiniCPM-Llama3-V 2.5,主要還是這層‘殼’薄到近乎透明,能夠找到多方面的直接證據。”劉知遠表示。
在傅宏宇看來,竊取模型參數、謊報模型來源等不負責任的使用行為,違背了誠信原則和開源精神,開源社區可采取措施予以處理和規范。如果對開源模型的“抄襲”構成知識產權侵權行為,開源模型權利人則可以依據開源許可協議保護自身權益。
他認為,此次Llama 3-V對MiniCPM的套殼,符合知識產權侵權行為的定義。“雖然項目已經開源,但研發者依然是工作成果的版權權利人,有權對其作品主張權益保護。”傅宏宇指出,斯坦福團隊這種將他人開源的工作成果微調并直接轉化為自己的工作成果公開發布的行為,可參考《計算機軟件保護條例》的相關規定構成傳統軟件知識產權侵權,具體涉及復制著作權人軟件、向公眾發行、通過網絡傳播軟件、故意刪除或者改變軟件權利管理電子信息等侵權行為。
圍繞大模型套殼的是非之爭并不是首次上演。在此之前,多家國內外企業都曾卷入類似紛爭。比如,李開復零一萬物發布的大模型“Yi”就曾被指控使用了Llama的架構,只對兩個張量進行了重命名。
不過,這些爭議到最后似乎都沒有迎來一個確定的結果。在幾個回合的指控與回應后,沒有判決、賠款或者標準來回應各界的關注。
站在巨人的肩膀上
“套殼”爭議屢屢出現,可能是由于各界對這一概念存在不同的理解和判斷。
劉知遠告訴21世紀經濟報道記者,“套殼”的說法,很多時候寬泛地包括了所有已有開源模型利用自有數據進一步訓練和微調,從而形成定制模型的行為。
但與大眾對“套殼”的負面看法有些許不同的是,對開源模型的微調動作,實際上是被允許和鼓勵的。
“套殼”這種說法本身就帶有貶義的意味。劉知遠坦陳:“很多開源模型的協議允許定制和修改,只要遵守開源協議就應當支持和保護。”
“善用前人成果,努力站在巨人肩膀上實現高質量發展,是開源社區的重要價值。”他指出。
AI技術日新月異,市場需求也瞬息萬變。金沙江創投主管合伙人朱嘯虎曾經公開表態,AI應用應該盡可能實現快速商業化,而Llama的發布增大了創業者在逐漸收緊的時間窗口活下來的幾率。
除了時間,算力、算法、數據無一不是自研大模型需要面對的難關。這種情況下,以開源模型為基礎微調的定制模型成為性價比最高的選擇。
此前,現象級AI搜索產品Perplexity所在公司的CEO Aravind Srinivas在一檔播客上直白地表示,“一個擁有十萬用戶的套殼產品顯然比擁有自有模型卻沒有用戶更有意義”。
就如通往成功的路站在巨人的肩膀上更好走,“質疑套殼、理解套殼、成為套殼”或許是AI應用元年的一種求生思路。
本文鏈接:斯坦福學生AI團隊抄襲國產大模型背后 開源模型能擺脫抄襲陰影嗎http://www.sq15.cn/show-2-6922-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。