OpenAI之后，英偉達也卷入類似訴訟

2024-03-14 13:44:13 來源：

觀看：293

21世紀經(jīng)濟報道記者馮戀閣實習生肖文旸廣州報道

AI淘金熱下，“賣鏟人”英偉達也卷入到人工智能版權(quán)紛爭中。

近日，英偉達和軟件公司Databricks被多名作家在舊金山聯(lián)邦法院提起集體訴訟，稱兩家公司在訓練各自的大模型時“未經(jīng)同意、未經(jīng)認可、無補償”地復制和借鑒了他們的書籍。

數(shù)據(jù)集侵權(quán)，英偉達被訴

根據(jù)起訴書，英偉達和Databricks被指控分別使用盜版數(shù)字電子書庫Books3的數(shù)據(jù)訓練了旗下的大模型NeMo Megatron和MosaicML。“在訓練期間，大模型復制并攝取訓練數(shù)據(jù)集中的每個文本作品，并從中提取受保護的表達。”原告認為，兩家公司在訓練大模型時使用了含有盜版內(nèi)容的數(shù)據(jù)集，因此構(gòu)成著作權(quán)侵權(quán)。

NeMo Megatron模型托管在大模型社區(qū)Hugging Face上。在這個網(wǎng)站中，每個模型都有一個介紹其相關(guān)信息的“模型卡”，其中就包括模型的訓練數(shù)據(jù)集信息。

英偉達模型所附的“模型卡”顯示，它的訓練數(shù)據(jù)包括EleutherAI提供的數(shù)據(jù)集“The Pile”。The Pile中包含了800GB的數(shù)據(jù)，有108GB是來自于Books3的圖書數(shù)據(jù)。據(jù)悉，Books3由超過196000冊來自影子圖書館Bibliotik的書籍組成。

所謂影子圖書館，是指未經(jīng)許可收藏了大量享有著作權(quán)的書籍，并向公眾免費開放的網(wǎng)站。除了本案中的Bibliotik，電子書網(wǎng)站Z-Library、文獻網(wǎng)站Sci-Hub等都在此列。深陷版權(quán)訴訟中的Open AI此前也曾被質(zhì)疑使用了來自影子圖書館的數(shù)據(jù)訓練模型。

影子圖書館在版權(quán)方面存在一定瑕疵。原告起訴書提到，2023年10月，Hugging Face上的Book3數(shù)據(jù)集被刪除，并附有一條解釋：“由于報告的版權(quán)侵權(quán)，該數(shù)據(jù)集已失效且無法再訪問”。

原告認為，NeMo已經(jīng)承認在模型訓練時采用了The Pile數(shù)據(jù)集，而The Pile數(shù)據(jù)集其中就包含了因版權(quán)問題被刪除的Book3，基于此，NeMo也有著作權(quán)侵權(quán)的可能。

除了對英偉達的訴訟，三位作家還針對Databricks及其旗下的MosaicML公司發(fā)起訴訟。起訴書表示，該公司最近收購了MosaicML公司，而MosaicML生產(chǎn)MPT系列大型語言模型中也使用了Books3數(shù)據(jù)集進行訓練。

據(jù)報道，英偉達發(fā)言人回應媒體稱：“我們尊重所有內(nèi)容創(chuàng)作者的權(quán)利，并相信我們創(chuàng)建 NeMo 完全符合版權(quán)法。”

版權(quán)成原罪，爭議難解

大模型的訓練和調(diào)整離不開海量數(shù)據(jù)的輸入，這些數(shù)據(jù)中混入侵權(quán)材料的情況也許并不罕見。版權(quán)瑕疵似乎也因此成為了大模型的“原罪”。

英偉達并非唯一一家被指控大模型侵犯版權(quán)的科技公司。

早在去年1月，美國三名漫畫藝術(shù)家就對包括Stability AI在內(nèi)的三家科技公司發(fā)起集體訴訟，指控其開發(fā)的付費AI圖像生成工具構(gòu)成版權(quán)侵權(quán)。去年7月，多名喜劇演員、作家對OpenAI和Meta分別發(fā)訴訟，指控其侵犯版權(quán)。10月，環(huán)球音樂集團及其他出版商也起訴美國人工智能公司Anthropic稱其濫用“無數(shù)”受版權(quán)保護的歌詞。

日前，也有多位藝術(shù)家公開表示，Midjourney在未經(jīng)他們許可的情況下，模仿他們的畫風生成作品并輸出的行為是"小偷行為"和對藝術(shù)家的不尊重。

而此前《紐約時報》訴 OpenAI “世紀大案”中的兩方仍在纏斗。在OpenAI指控《紐約時報》方惡意引導模型生成版權(quán)內(nèi)容后，《紐約時報》回擊稱此舉是為了追蹤“該工具侵犯版權(quán)的全部范圍”。

在國內(nèi)，大模型侵權(quán)的爭議也一直存在。2023年6月，北京筆神公司起訴學而思稱其竊取其數(shù)據(jù)；同年12月，正版青團子等四名畫師起訴小紅書，指控其未經(jīng)授權(quán)使用畫師的原創(chuàng)作品作為訓練數(shù)據(jù)。

科技公司大模型屢次遭起訴為擁有AI大模型及欲進入這一領(lǐng)域的科技公司敲響了警鐘。

開發(fā)可檢測AI內(nèi)容是否侵權(quán)的工具或許是一種解法。

今年年初，人工智能模型評估公司Patronus AI發(fā)布了一款名為“CopyrightCatcher”的大模型檢測工具，用以檢測大語言模型的輸出結(jié)果中是否含有侵權(quán)內(nèi)容。

也有大模型企業(yè)選擇“破財消災”，通過簽署授權(quán)協(xié)議達成對版權(quán)作品的合規(guī)使用。

2023年12月，據(jù)媒體報道，有知情人士表示，蘋果拿出5000萬美元嘗試Condé Nast（《Vogue》和《紐約客》的出版商）、NBC和IAC等新聞機構(gòu)交涉以獲得新聞文章的授權(quán)，用以其生成式AI產(chǎn)品開發(fā)。OpenAI也在今年1月與數(shù)十家出版商洽談簽署文章授權(quán)協(xié)議，以獲取數(shù)據(jù)訓練其AI模型。

本文鏈接：OpenAI之后，英偉達也卷入類似訴訟http://www.sq15.cn/show-2-3718-0.html

聲明：本網(wǎng)站為非營利性網(wǎng)站，本網(wǎng)頁內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻，不代表本站觀點，本站不承擔任何法律責任。天上不會到餡餅，請大家謹防詐騙！若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。

上一篇：人形機器人走向何方

下一篇：芯片戰(zhàn)場丨英偉達市值再度站上2.3萬億美元，能否繼續(xù)“狂飆”？

中文字幕亚洲欧美一区二区三区_亚洲精品菠萝久久久久久久_日本成人免费视频_狠狠躁少妇一区二区三区_国产精品中文字幕久久久_国产乱子伦农村叉叉叉_麻豆tv免费在线观看_av在线这里只有精品_色吧亚洲视频_嫩草影院一二三

OpenAI之后，英偉達也卷入類似訴訟

數(shù)據(jù)集侵權(quán)，英偉達被訴

版權(quán)成原罪，爭議難解

熱門資訊

推薦資訊

科技最熱文章