Anthropic天價賠款？大模型“盜版”的100000種花樣

2025-08-18 12:05:06 來源：

觀看：45

AI大模型的秘密配方是什么？答案可能很簡單：海量的“盜版內容”。

這幾乎是行業(yè)內公開的秘密。2023年，《紐約時報》一紙訴狀將OpenAI和微軟告上法庭，正式拉開了這場戰(zhàn)爭的序幕。很快，戰(zhàn)火燒遍了整個硅谷。Meta因其Llama模型涉嫌使用盜版書籍而面臨集體訴訟；Anthropic同樣因其模型Claude的訓練數(shù)據(jù)而被告，一時間，幾乎所有頭部玩家都被推上了被告席。

這場大模型與版權方的核心爭議是：在未經授權的情況下，將海量的受版權保護作品用作AI訓練數(shù)據(jù)，究竟是合法的“變革性使用”，還是“侵權盜用”？

在眾多懸而未決的案件中，進展最快是Anthropic案，在2025年6月的里程碑式裁決中，法院給出了一個極其重要的參考信號：模型訓練這一行為本身，因其能夠創(chuàng)造出功能完全不同的新事物，具有高度的“變革性”，可能不構成侵權；然而，獲取訓練數(shù)據(jù)的方式，如果涉及盜版網(wǎng)站或未經授權的復制，則幾乎無法被“合理使用”原則所豁免。

根據(jù)計算，Anthropic或將因此面臨著7500億美元的天價訴訟賠款。這個信號，讓所有AI公司都捏了一把汗。大模型廠商們“先污染，后治理”的野蠻生長，或許要到頭了。

大模型的N種數(shù)據(jù)“盜取”路徑

為了滿足無止境的數(shù)據(jù)需求，各大模型廠商各自走出了一條充滿爭議甚至堪稱“腦洞大開”的野路子，每一種都游走在法律邊緣。

一、從公開抓取到蓄意“清洗”

這是AI數(shù)據(jù)積累最原始、最普遍的方式。AI公司利用強大的網(wǎng)絡爬蟲，像撒下一張覆蓋全球互聯(lián)網(wǎng)的巨網(wǎng)，不加區(qū)分地將新聞網(wǎng)站、專業(yè)博客、學術論壇、社交媒體上的公開內容盡數(shù)捕撈，構建起初期的訓練數(shù)據(jù)集。

例如，OpenAI在構建其著名的WebText數(shù)據(jù)集時，就抓取了社交新聞網(wǎng)站Reddit上用戶分享的數(shù)百萬個外部鏈接，間接將海量受版權保護的內容納入囊中，《紐約時報》的文章赫然在列。

除了抓取，更致命的是清洗行為。

二、格式轉換：從視頻和紙書中提取文本

隨著高質量的公開文本數(shù)據(jù)日益枯竭，廠商們將目光投向了其他格式的內容載體，通過技術手段，將其轉換為可供模型訓練的純文本，這種做法更為隱蔽。

一種典型手法是OpenAI對其語音識別工具Whisper的“妙用”。據(jù)稱，OpenAI利用Whisper轉錄了超過一百萬小時的YouTube視頻內容。這意味著，無論是深度訪談、專業(yè)課程還是紀錄片解說，這些視頻中最核心的“語言資產”，在未經視頻創(chuàng)作者許可的情況下，被悄然提取出來，直接“喂”給了GPT-4，繞過了視頻本身的視聽版權。

Anthropic也采用了一種戲劇性的手法。在意識到直接使用盜版書庫的巨大法律風險后，Anthropic專門聘請了前谷歌圖書掃描項目的負責人Tom Turvey，啟動了一項成本高昂、操作復雜的“物理世界洗白計劃”：

第一步，批量采購：斥巨資從圖書分銷商和零售商處，購買數(shù)百萬本紙質書，其中不乏二手書。

第二步，物理轉化：將這些書運至服務商處，由機器拆掉裝訂、裁切書頁，然后逐頁進行高速掃描，生成包含圖像和可機讀文本的PDF數(shù)字文件。

第三步，銷毀原件：掃描完成后，紙質原件被直接丟棄。此舉的核心目的，是在法律上論證這是一種“格式轉換”，而非創(chuàng)造了“額外的副本”，從而規(guī)避侵權指控。

第四步，數(shù)據(jù)建庫：為這些數(shù)字化的圖書建立詳細的書目信息數(shù)據(jù)庫，并進行分詞、清理等一系列復雜的預處理，最終形成一個來源上看似“合法”的高質量訓練數(shù)據(jù)集。

但這一行為，恰恰證明了：第一，AI公司已充分認識到高質量數(shù)據(jù)的版權價值；第二，獲取合規(guī)數(shù)據(jù)的成本，遠比想象中要驚人得多。

三、“影子圖書館”

在爭分奪秒的技術競賽和巨大的性能壓力下，部分公司選擇了一條最高效，也最高風險的捷徑——直接擁抱明確的盜版資源庫。

Meta在訓練其開源模型Llama時，就被直接指控使用了來自“影子圖書館”（如Library Genesis、Books3）的非法書籍副本。無獨有偶，Anthropic的內部文件也顯示，其聯(lián)合創(chuàng)始人在公司創(chuàng)立初期，就下載了包含近20萬本書的盜版庫Books3，并對這些資源的盜版性質心知肚明。

四、平臺借助隱私協(xié)議獲取數(shù)據(jù)

與上述幾種“硬核”盜版方式不同，巨頭們展示了一種更具平臺特色的“陽謀”。它不依賴于外部抓取或盜版，而是利用其龐大的用戶生態(tài)系統(tǒng)，通過服務條款來“合法”地將用戶數(shù)據(jù)內化為自己的訓練資源。

谷歌的隱私政策中，明確表示可能會使用用戶公開分享的信息來訓練其AI模型。這意味著，當一個普通用戶在Google Docs上協(xié)作一份文檔，在Google Maps上寫下一段評論，或是在Blogger上發(fā)布一篇文章時，這些內容都可能在用戶不經意間，被納入谷歌的AI訓練數(shù)據(jù)池，由此谷歌也構建起了一道競爭對手難以逾越的數(shù)據(jù)護城河。

這些五花八門、游走在法律邊緣的數(shù)據(jù)獲取方式，顯示出在AI發(fā)展的“圈地”階段，大模型們都在以最低的成本、最快的速度，獲取最大規(guī)模的數(shù)據(jù)，數(shù)據(jù)來源的合規(guī)風險置于次要位置。然而，版權方的一系列訴訟徹底打破了這種默契，他們將攻擊焦點精準地對準了最脆弱的一環(huán)：數(shù)據(jù)的原始獲取路徑。

一個更昂貴的AI時代來了

AI版權戰(zhàn)爭的真正轉折點，是訴訟焦點的變化：不再糾纏AI“如何使用”數(shù)據(jù)，而是直擊它“從何獲取”數(shù)據(jù)。

最初，雙方的法律攻防主要圍繞AI“使用”數(shù)據(jù)的性質展開。

AI公司認為，它們的行為并非傳統(tǒng)意義的“復制”，而是“學習”，模型在內化數(shù)據(jù)中的模式、語法和知識，就像一個學生閱讀海量書籍以形成自己的寫作風格，其目的是創(chuàng)造全新的東西，因此是一種高度“變革性”的使用。版權方則反駁，AI的商業(yè)化產品會直接與原作形成市場競爭，替代用戶對新聞訂閱和書籍購買的需求，從而損害其核心商業(yè)利益。

然而，在這兩個戰(zhàn)場上，版權方都打得異常艱難。在這種膠著狀態(tài)下，版權方的訴訟策略發(fā)生了一次決定性的轉向，他們找到了一個更根本、也更致命的攻擊點——數(shù)據(jù)的來源合法性。

法院的階段性審理，也給出了一個極其微妙且影響深遠的信號：一方面，初步裁決認為AI的輸出內容和訓練行為本身，因其“變革性”，或許不構成直接侵權，這在某種程度上為大模型的發(fā)展留下了空間，避免了技術創(chuàng)新被徹底扼殺；但另一方面，法院對“來源合法性”劃出了明確的紅線，嚴厲打擊了使用盜版資源的行為。

而面對如雪片般飛來的訴訟，大模型廠商中的激進派也在向保守派轉變。

保守派的代表就是蘋果，它從一開始就將用戶隱私和規(guī)則置于更重要的位置，寧愿在AI競賽中起步較晚，也要通過明確授權許可（如與圖片庫Shutterstock的合作）和自有數(shù)據(jù)來規(guī)避法律風險。

而激進派的Meta和早期的OpenAI，則是信奉“移動快，打破規(guī)則”的硅谷信條，將潛在的法律訴訟視為一種可以計算和承受的商業(yè)成本。但在訴訟纏身后，OpenAI迅速轉變?yōu)榉e極的數(shù)據(jù)“購買者”，斥巨資與美聯(lián)社、金融時報等數(shù)十家媒體簽署內容許可協(xié)議；Anthropic則上演了從使用盜版書庫，到斥巨資購買、掃描、銷毀實體書的“苦力式洗白”。

這些都意味著，“數(shù)據(jù)免費”的黃金時代已一去不復返，數(shù)據(jù)將成為AI公司財報上一個明確且高昂的成本項。

從整個行業(yè)來看，手握優(yōu)質內容的內容出版商、新聞機構，將從被動的受害者，轉變?yōu)锳I產業(yè)鏈上游一個手握籌碼、擁有強大議價權的關鍵參與者；這反過來又會急劇抬高行業(yè)的競爭壁壘，擁有強大現(xiàn)金流和頂尖法務團隊的科技巨頭相比AI創(chuàng)業(yè)公司將有著更強的競爭優(yōu)勢。AI行業(yè)的競爭，已從單純的算法和算力競賽，擴展到了一場關于數(shù)據(jù)供應鏈管理、商業(yè)談判和法務合規(guī)能力的全面戰(zhàn)爭。

當那些充滿爭議的盜版“野路子”被一條條堵死，一個更加昂貴的AI時代，已經來了。

本文鏈接：Anthropic天價賠款？大模型“盜版”的100000種花樣http://www.sq15.cn/show-3-152284-0.html

聲明：本網(wǎng)站為非營利性網(wǎng)站，本網(wǎng)頁內容由互聯(lián)網(wǎng)博主自發(fā)貢獻，不代表本站觀點，本站不承擔任何法律責任。天上不會到餡餅，請大家謹防詐騙！若有侵權等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。

上一篇：沒有“董宇輝們”，東方甄選又“行”了？

下一篇：劉靖康二樓撒錢，我跟編輯大吵一架

中文字幕亚洲欧美一区二区三区_亚洲精品菠萝久久久久久久_日本成人免费视频_狠狠躁少妇一区二区三区_国产精品中文字幕久久久_国产乱子伦农村叉叉叉_麻豆tv免费在线观看_av在线这里只有精品_色吧亚洲视频_嫩草影院一二三

Anthropic天價賠款？大模型“盜版”的100000種花樣

熱門資訊

推薦資訊

財經最熱文章

中文字幕亚洲欧美一区二区三区_亚洲精品菠萝久久久久久久_日本成人免费视频_狠狠躁少妇一区二区三区_国产精品中文字幕久久久_国产乱子伦农村叉叉叉_麻豆tv免费在线观看_av在线这里只有精品_色吧亚洲视频_嫩草影院一二三

Anthropic天價賠款？大模型“盜版”的100000種花樣

熱門資訊

推薦資訊

財經最熱文章

Anthropic天價賠款？大模型“盜版”的100000種花樣