AI大模型的秘密配方是什么?答案可能很簡單:海量的“盜版內容”。
這幾乎是行業(yè)內公開的秘密。2023年,《紐約時報》一紙訴狀將OpenAI和微軟告上法庭,正式拉開了這場戰(zhàn)爭的序幕。很快,戰(zhàn)火燒遍了整個硅谷。Meta因其Llama模型涉嫌使用盜版書籍而面臨集體訴訟;Anthropic同樣因其模型Claude的訓練數(shù)據(jù)而被告,一時間,幾乎所有頭部玩家都被推上了被告席。
這場大模型與版權方的核心爭議是:在未經授權的情況下,將海量的受版權保護作品用作AI訓練數(shù)據(jù),究竟是合法的“變革性使用”,還是“侵權盜用”?
在眾多懸而未決的案件中,進展最快是Anthropic案,在2025年6月的里程碑式裁決中,法院給出了一個極其重要的參考信號:模型訓練這一行為本身,因其能夠創(chuàng)造出功能完全不同的新事物,具有高度的“變革性”,可能不構成侵權;然而,獲取訓練數(shù)據(jù)的方式,如果涉及盜版網(wǎng)站或未經授權的復制,則幾乎無法被“合理使用”原則所豁免。
根據(jù)計算,Anthropic或將因此面臨著7500億美元的天價訴訟賠款。這個信號,讓所有AI公司都捏了一把汗。大模型廠商們“先污染,后治理”的野蠻生長,或許要到頭了。
大模型的N種數(shù)據(jù)“盜取”路徑
為了滿足無止境的數(shù)據(jù)需求,各大模型廠商各自走出了一條充滿爭議甚至堪稱“腦洞大開”的野路子,每一種都游走在法律邊緣。
一、從公開抓取到蓄意“清洗”
這是AI數(shù)據(jù)積累最原始、最普遍的方式。AI公司利用強大的網(wǎng)絡爬蟲,像撒下一張覆蓋全球互聯(lián)網(wǎng)的巨網(wǎng),不加區(qū)分地將新聞網(wǎng)站、專業(yè)博客、學術論壇、社交媒體上的公開內容盡數(shù)捕撈,構建起初期的訓練數(shù)據(jù)集。
例如,OpenAI在構建其著名的WebText數(shù)據(jù)集時,就抓取了社交新聞網(wǎng)站Reddit上用戶分享的數(shù)百萬個外部鏈接,間接將海量受版權保護的內容納入囊中,《紐約時報》的文章赫然在列。
除了抓取,更致命的是清洗行為。
在《紐約時報》和Daily News等媒體的訴訟中,原告指出,OpenAI在抓取新聞內容時,主動并系統(tǒng)性地移除了版權聲明、作者署名、頁腳等關鍵的版權管理信息(CMI)。這一行為被判定為數(shù)據(jù)獲取行為的性質發(fā)生了根本性的轉變——從可能無意的“順手牽羊”,升級為具有明確規(guī)避意圖的“數(shù)據(jù)清洗”。

二、格式轉換:從視頻和紙書中提取文本
隨著高質量的公開文本數(shù)據(jù)日益枯竭,廠商們將目光投向了其他格式的內容載體,通過技術手段,將其轉換為可供模型訓練的純文本,這種做法更為隱蔽。
一種典型手法是OpenAI對其語音識別工具Whisper的“妙用”。據(jù)稱,OpenAI利用Whisper轉錄了超過一百萬小時的YouTube視頻內容。這意味著,無論是深度訪談、專業(yè)課程還是紀錄片解說,這些視頻中最核心的“語言資產”,在未經視頻創(chuàng)作者許可的情況下,被悄然提取出來,直接“喂”給了GPT-4,繞過了視頻本身的視聽版權。
Anthropic也采用了一種戲劇性的手法。在意識到直接使用盜版書庫的巨大法律風險后,Anthropic專門聘請了前谷歌圖書掃描項目的負責人Tom Turvey,啟動了一項成本高昂、操作復雜的“物理世界洗白計劃”:
第一步,批量采購: 斥巨資從圖書分銷商和零售商處,購買數(shù)百萬本紙質書,其中不乏二手書。
第二步,物理轉化: 將這些書運至服務商處,由機器拆掉裝訂、裁切書頁,然后逐頁進行高速掃描,生成包含圖像和可機讀文本的PDF數(shù)字文件。
第三步,銷毀原件: 掃描完成后,紙質原件被直接丟棄。此舉的核心目的,是在法律上論證這是一種“格式轉換”,而非創(chuàng)造了“額外的副本”,從而規(guī)避侵權指控。
第四步,數(shù)據(jù)建庫: 為這些數(shù)字化的圖書建立詳細的書目信息數(shù)據(jù)庫,并進行分詞、清理等一系列復雜的預處理,最終形成一個來源上看似“合法”的高質量訓練數(shù)據(jù)集。
但這一行為,恰恰證明了:第一,AI公司已充分認識到高質量數(shù)據(jù)的版權價值;第二,獲取合規(guī)數(shù)據(jù)的成本,遠比想象中要驚人得多。
三、“影子圖書館”
在爭分奪秒的技術競賽和巨大的性能壓力下,部分公司選擇了一條最高效,也最高風險的捷徑——直接擁抱明確的盜版資源庫。
Meta在訓練其開源模型Llama時,就被直接指控使用了來自“影子圖書館”(如Library Genesis、Books3)的非法書籍副本。無獨有偶,Anthropic的內部文件也顯示,其聯(lián)合創(chuàng)始人在公司創(chuàng)立初期,就下載了包含近20萬本書的盜版庫Books3,并對這些資源的盜版性質心知肚明。
四、平臺借助隱私協(xié)議獲取數(shù)據(jù)
與上述幾種“硬核”盜版方式不同,巨頭們展示了一種更具平臺特色的“陽謀”。它不依賴于外部抓取或盜版,而是利用其龐大的用戶生態(tài)系統(tǒng),通過服務條款來“合法”地將用戶數(shù)據(jù)內化為自己的訓練資源。
谷歌的隱私政策中,明確表示可能會使用用戶公開分享的信息來訓練其AI模型。這意味著,當一個普通用戶在Google Docs上協(xié)作一份文檔,在Google Maps上寫下一段評論,或是在Blogger上發(fā)布一篇文章時,這些內容都可能在用戶不經意間,被納入谷歌的AI訓練數(shù)據(jù)池,由此谷歌也構建起了一道競爭對手難以逾越的數(shù)據(jù)護城河。
這些五花八門、游走在法律邊緣的數(shù)據(jù)獲取方式,顯示出在AI發(fā)展的“圈地”階段,大模型們都在以最低的成本、最快的速度,獲取最大規(guī)模的數(shù)據(jù),數(shù)據(jù)來源的合規(guī)風險置于次要位置。然而,版權方的一系列訴訟徹底打破了這種默契,他們將攻擊焦點精準地對準了最脆弱的一環(huán):數(shù)據(jù)的原始獲取路徑。
一個更昂貴的AI時代來了
AI版權戰(zhàn)爭的真正轉折點,是訴訟焦點的變化:不再糾纏AI“如何使用”數(shù)據(jù),而是直擊它“從何獲取”數(shù)據(jù)。
最初,雙方的法律攻防主要圍繞AI“使用”數(shù)據(jù)的性質展開。
AI公司認為,它們的行為并非傳統(tǒng)意義的“復制”,而是“學習”,模型在內化數(shù)據(jù)中的模式、語法和知識,就像一個學生閱讀海量書籍以形成自己的寫作風格,其目的是創(chuàng)造全新的東西,因此是一種高度“變革性”的使用。版權方則反駁,AI的商業(yè)化產品會直接與原作形成市場競爭,替代用戶對新聞訂閱和書籍購買的需求,從而損害其核心商業(yè)利益。
然而,在這兩個戰(zhàn)場上,版權方都打得異常艱難。在這種膠著狀態(tài)下,版權方的訴訟策略發(fā)生了一次決定性的轉向,他們找到了一個更根本、也更致命的攻擊點——數(shù)據(jù)的來源合法性。
法院的階段性審理,也給出了一個極其微妙且影響深遠的信號:一方面,初步裁決認為AI的輸出內容和訓練行為本身,因其“變革性”,或許不構成直接侵權,這在某種程度上為大模型的發(fā)展留下了空間,避免了技術創(chuàng)新被徹底扼殺;但另一方面,法院對“來源合法性”劃出了明確的紅線,嚴厲打擊了使用盜版資源的行為。
而面對如雪片般飛來的訴訟,大模型廠商中的激進派也在向保守派轉變。
保守派的代表就是蘋果,它從一開始就將用戶隱私和規(guī)則置于更重要的位置,寧愿在AI競賽中起步較晚,也要通過明確授權許可(如與圖片庫Shutterstock的合作)和自有數(shù)據(jù)來規(guī)避法律風險。
而激進派的Meta和早期的OpenAI,則是信奉“移動快,打破規(guī)則”的硅谷信條,將潛在的法律訴訟視為一種可以計算和承受的商業(yè)成本。但在訴訟纏身后,OpenAI迅速轉變?yōu)榉e極的數(shù)據(jù)“購買者”,斥巨資與美聯(lián)社、金融時報等數(shù)十家媒體簽署內容許可協(xié)議;Anthropic則上演了從使用盜版書庫,到斥巨資購買、掃描、銷毀實體書的“苦力式洗白”。
這些都意味著,“數(shù)據(jù)免費”的黃金時代已一去不復返,數(shù)據(jù)將成為AI公司財報上一個明確且高昂的成本項。
從整個行業(yè)來看,手握優(yōu)質內容的內容出版商、新聞機構,將從被動的受害者,轉變?yōu)锳I產業(yè)鏈上游一個手握籌碼、擁有強大議價權的關鍵參與者;這反過來又會急劇抬高行業(yè)的競爭壁壘,擁有強大現(xiàn)金流和頂尖法務團隊的科技巨頭相比AI創(chuàng)業(yè)公司將有著更強的競爭優(yōu)勢。AI行業(yè)的競爭,已從單純的算法和算力競賽,擴展到了一場關于數(shù)據(jù)供應鏈管理、商業(yè)談判和法務合規(guī)能力的全面戰(zhàn)爭。
當那些充滿爭議的盜版“野路子”被一條條堵死,一個更加昂貴的AI時代,已經來了。
本文鏈接:Anthropic天價賠款?大模型“盜版”的100000種花樣http://www.sq15.cn/show-3-152284-0.html
聲明:本網(wǎng)站為非營利性網(wǎng)站,本網(wǎng)頁內容由互聯(lián)網(wǎng)博主自發(fā)貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。
上一篇: 沒有“董宇輝們”,東方甄選又“行”了?
下一篇: 劉靖康二樓撒錢,我跟編輯大吵一架