21世紀經(jīng)濟報道記者 馮戀閣 實習生肖文旸 廣州報道
AI淘金熱下,“賣鏟人”英偉達也卷入到人工智能版權(quán)紛爭中。
近日,英偉達和軟件公司Databricks被多名作家在舊金山聯(lián)邦法院提起集體訴訟,稱兩家公司在訓練各自的大模型時“未經(jīng)同意、未經(jīng)認可、無補償”地復制和借鑒了他們的書籍。
數(shù)據(jù)集侵權(quán),英偉達被訴
根據(jù)起訴書,英偉達和Databricks被指控分別使用盜版數(shù)字電子書庫Books3的數(shù)據(jù)訓練了旗下的大模型NeMo Megatron和MosaicML。“在訓練期間,大模型復制并攝取訓練數(shù)據(jù)集中的每個文本作品,并從中提取受保護的表達。”原告認為,兩家公司在訓練大模型時使用了含有盜版內(nèi)容的數(shù)據(jù)集,因此構(gòu)成著作權(quán)侵權(quán)。
NeMo Megatron模型托管在大模型社區(qū)Hugging Face上。在這個網(wǎng)站中,每個模型都有一個介紹其相關(guān)信息的“模型卡”,其中就包括模型的訓練數(shù)據(jù)集信息。
英偉達模型所附的“模型卡”顯示,它的訓練數(shù)據(jù)包括EleutherAI提供的數(shù)據(jù)集“The Pile”。The Pile中包含了800GB的數(shù)據(jù),有108GB是來自于Books3的圖書數(shù)據(jù)。據(jù)悉,Books3由超過196000冊來自影子圖書館Bibliotik的書籍組成。
所謂影子圖書館,是指未經(jīng)許可收藏了大量享有著作權(quán)的書籍,并向公眾免費開放的網(wǎng)站。除了本案中的Bibliotik,電子書網(wǎng)站Z-Library、文獻網(wǎng)站Sci-Hub等都在此列。深陷版權(quán)訴訟中的Open AI此前也曾被質(zhì)疑使用了來自影子圖書館的數(shù)據(jù)訓練模型。
影子圖書館在版權(quán)方面存在一定瑕疵。原告起訴書提到,2023年10月,Hugging Face上的Book3數(shù)據(jù)集被刪除,并附有一條解釋:“由于報告的版權(quán)侵權(quán),該數(shù)據(jù)集已失效且無法再訪問”。
原告認為,NeMo已經(jīng)承認在模型訓練時采用了The Pile數(shù)據(jù)集,而The Pile數(shù)據(jù)集其中就包含了因版權(quán)問題被刪除的Book3,基于此,NeMo也有著作權(quán)侵權(quán)的可能。
除了對英偉達的訴訟,三位作家還針對Databricks及其旗下的MosaicML公司發(fā)起訴訟。起訴書表示,該公司最近收購了MosaicML公司,而MosaicML生產(chǎn)MPT系列大型語言模型中也使用了Books3數(shù)據(jù)集進行訓練。
據(jù)報道,英偉達發(fā)言人回應媒體稱:“我們尊重所有內(nèi)容創(chuàng)作者的權(quán)利,并相信我們創(chuàng)建 NeMo 完全符合版權(quán)法。”
版權(quán)成原罪,爭議難解
大模型的訓練和調(diào)整離不開海量數(shù)據(jù)的輸入,這些數(shù)據(jù)中混入侵權(quán)材料的情況也許并不罕見。版權(quán)瑕疵似乎也因此成為了大模型的“原罪”。
英偉達并非唯一一家被指控大模型侵犯版權(quán)的科技公司。
早在去年1月,美國三名漫畫藝術(shù)家就對包括Stability AI在內(nèi)的三家科技公司發(fā)起集體訴訟,指控其開發(fā)的付費AI圖像生成工具構(gòu)成版權(quán)侵權(quán)。去年7月,多名喜劇演員、作家對OpenAI和Meta分別發(fā)訴訟,指控其侵犯版權(quán)。10月,環(huán)球音樂集團及其他出版商也起訴美國人工智能公司Anthropic稱其濫用“無數(shù)”受版權(quán)保護的歌詞。
日前,也有多位藝術(shù)家公開表示,Midjourney在未經(jīng)他們許可的情況下,模仿他們的畫風生成作品并輸出的行為是"小偷行為"和對藝術(shù)家的不尊重。
而此前《紐約時報》訴 OpenAI “世紀大案”中的兩方仍在纏斗。在OpenAI指控《紐約時報》方惡意引導模型生成版權(quán)內(nèi)容后,《紐約時報》回擊稱此舉是為了追蹤“該工具侵犯版權(quán)的全部范圍”。
在國內(nèi),大模型侵權(quán)的爭議也一直存在。2023年6月,北京筆神公司起訴學而思稱其竊取其數(shù)據(jù);同年12月,正版青團子等四名畫師起訴小紅書,指控其未經(jīng)授權(quán)使用畫師的原創(chuàng)作品作為訓練數(shù)據(jù)。
科技公司大模型屢次遭起訴為擁有AI大模型及欲進入這一領(lǐng)域的科技公司敲響了警鐘。
開發(fā)可檢測AI內(nèi)容是否侵權(quán)的工具或許是一種解法。
今年年初,人工智能模型評估公司Patronus AI發(fā)布了一款名為“CopyrightCatcher”的大模型檢測工具,用以檢測大語言模型的輸出結(jié)果中是否含有侵權(quán)內(nèi)容。
也有大模型企業(yè)選擇“破財消災”,通過簽署授權(quán)協(xié)議達成對版權(quán)作品的合規(guī)使用。
2023年12月,據(jù)媒體報道,有知情人士表示,蘋果拿出5000萬美元嘗試Condé Nast(《Vogue》和《紐約客》的出版商)、NBC和IAC等新聞機構(gòu)交涉以獲得新聞文章的授權(quán),用以其生成式AI產(chǎn)品開發(fā)。OpenAI也在今年1月與數(shù)十家出版商洽談簽署文章授權(quán)協(xié)議,以獲取數(shù)據(jù)訓練其AI模型。
本文鏈接:OpenAI之后,英偉達也卷入類似訴訟http://www.sq15.cn/show-2-3718-0.html
聲明:本網(wǎng)站為非營利性網(wǎng)站,本網(wǎng)頁內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。
上一篇: 人形機器人走向何方