AI企業VS新聞出版機構版權第一案:數據屬于誰?產業和保護最大公約數如何劃定?
21世紀經濟報道記者鄭雪實習生張晨茜北京報道
進入新的一年,人工智能開年大戲已拉開序幕。不久之前,《紐約時報》向曼哈頓聯邦法院提起訴訟,指控OpenAI和微軟未經許可使用該報數百萬篇文章訓練機器人。
“被告(指OpenAI和微軟,下同)……生成式人工智能(GenAI)工具依賴于大語言模型(LLMs),這些模型是通過復制和使用《紐約時報》的數百萬篇受版權保護的新聞文章、深入調查、評論文章、評論、操作指南等而建立的。……被告試圖在未經許可或支付的情況下,利用《紐約時報》對其新聞業的巨大投資來構建替代品。”
在人工智能企業發展過程中,其中數據,尤其是高質量的數據,或者說是知識,成為一項必不可少的競爭要素。人工智能繁榮背后,數據知識產權相關問題成為AI發展隱憂。
《紐約時報》起訴書列舉的多個案例,似乎已經從事實層面證實OpenAI、微軟未經許可使用其報道作為訓練數據,同時輸出內容構成實質性相似。在涉數據知識產權相關問題討論仍無定論和共識的背景下,這起訴訟意味著相關討論已進入實質探討層面。
這不是涉數據知識產權的第一期案例,也不會是最后一起案例。其中的關鍵在于,司法應該如何在技術、產業發展和權利保護之間找到最大公約數?
《紐約時報》訴OpenAI、微軟“搭便車”
《紐約時報》和OpenAI、微軟的糾葛始于2023年4月。《紐約時報》聯系微軟和OpenAI,提出知識產權方面的擔憂,并探討了可能的友好解決方案,包括商業條款和技術保護措施,以便實現雙方實現互利的價值交換。
隨后,《紐約時報》更新服務條款,明確禁止使用其內容進行人工智能訓練。隨后屏蔽了OpenAI的爬蟲程序GPTBot。
“這些努力未能產生解決方案。”起訴書寫道,表示本訴訟旨在追究被告應承擔的數十億美元的法定和實際損害賠償責任。
起訴書表示,微軟的BingChat(最近更名為“Copilot”)和OpenAI的ChatGPT,在未經許可或付款的情況下,利用《紐約時報》對新聞業的巨額投資來制造替代產品,屬于搭便車行為。
《紐約時報》認為,大模型的“幻覺”也被錯誤地歸因于其。被告的模型錯誤地將《紐約時報》事實上沒有發表的內容歸于《紐約時報》,造成了商業和競爭損害。
《紐約時報》并不認可被告構成“合理使用”。在它看來,被告的工具在未經許可或授權的情況下提供相關內容,削弱并損害了《紐約時報》與其讀者的關系,同時剝奪了時報的訂閱、許可、廣告和關聯收入。此外,GenAI模型的輸出內容與用于訓練它們的輸入內容相競爭并緊密模仿,也并不屬于合理使用范疇。
《紐約時報》要求獲得損害賠償,但未提及最終數額;要求永久禁止被告從事所述的非法、不公平和侵權行為,刪除包含《紐約時報》作品原理的訓練集等。
對于《紐約時報》的訴訟,OpenAI感到“驚訝和失望”,OpenAI發言人Lindsey Held表示,“我們尊重內容創作者和所有者的權利,并致力于與他們合作,確保他們從人工智能技術和新的收入模式中受益”。而微軟拒絕就該訴訟發表評論。
這并不是OpenAI面臨的第一起因版權糾紛引起的訴訟。
不完全梳理來看,2023年6月,OpenAI面臨集體訴訟,稱其竊聽了“書籍、文章、網站和帖子――包括未經同意獲得的個人信息”。同年9月,David Baldacci、Mary Bly等十六位作家以及作家協會,對OpenAI和微軟提起訴訟。
值得關注的是,這是傳統的新聞出版領域與新興人工智能領域的第一次交鋒。
“這個訴訟是典型的人工智能技術對人類已有智力成果產生沖擊導致權利沖突的案例,既關系到AI產業的發展,也涉及已有權利的保護,在人工智能發展史上具有標志性意義。”浙江墾丁律師事務所主任律師張延來說道。在他看來,今后類似的案例會越來越多,需要司法在技術和權利保護之間找到最大公約數。
AI各階段,數據如何保護?
自人工智能飛速發展,涉及數據知識產權引發的相關訴訟不在少數。
廣東財經大學法學院教授姚志偉提示,此類案件的難點在于,一是證明權利人的作品被用于訓練,發生在企業內部較難證實。二是證明輸出的生成物與權利人作品存在“實質性相似”。
就前者《紐約時報》提出OpenAI使用的公開數據集中含有紐約時報的作品進行證明;就后者《紐約時報》進行了多個生成物和其作品之間的比較,證明了生成物存在逐字復制其作品的現象。上述難題的解決使得這起訴訟從事實層面駁回提訴相對困難,將進入深入探討實質性法律問題的層面。
一般而言,人工智能企業的數據主要來源于廠商歷史積累的數據、通過公開渠道爬取的數據以及各類免費或付費的第三方數據庫與數據集等渠道。其中,數據知識產權相關問題已經成為當下人工智能發展的阿喀琉斯之踵,影響著產業發展。
訓練數據收集、使用階段,不少企業呼吁通過數據的合理使用或法定許可解決數據相關問題。合理使用是指既不需要經過版權人許可,也不需要向其支付報酬的使用作品行為。
“關于訓練數據的合理使用問題,實質涉及是否應允許在訓練階段未經授權使用他人的版權作品,尤其是在海量數據即將用盡的背景下。此外,海量數據逐一獲取版權人同意的成本極高甚至難以承受。”姚志偉點出AI企業當下發展可能面臨的困境。
中國政法法學法律碩士學院教授、知識產權法創新與競爭研究中心主任陶乾在“2023數字版權保護與發展論壇”上曾表示,數據采集階段,數據集制作者和數據持有者因數據抓取產生的糾紛,本質上是數據使用問題,可通過反不正當競爭法來處理。數據訓練階段,生成式人工智能學習的是文字、元素和音符之間的分布規律,訓練的是數據而非“享受”作品,不屬于著作權法意義的作品使用行為。
“解決生成式AI版權問題的本質在于數據提供者和數據集制作者在提供數據時的版權合規,而不是在大模型訓練階段的版權合規。”陶乾說道。
與其他案例不同的是,《紐約時報》訴OpenAI、微軟案例中,OpenAI被控采集數百萬篇文章以訓練人工智能,而且據稱是“可以將原報道逐字逐句地復制給提問的用戶”。
“結合美國關于作品合理使用的立法以及司法實踐,很難說此次OpenAI可以像谷歌一樣得到司法支持。除非美國司法完全站在推動人工智能技術發展的角度,做出突破性的認定。”張延來表示。
輸出階段的人工智能,又該如何回應涉及數據知識產權侵權問題?
姚志偉提示,對于輸入階段,使用未經授權的數據是否構成合理使用,可能存在爭議。但對于輸出階段,多數人認為實質相似則構成侵權。
“在內容輸出階段,AIGC版權問題本質上是著作權法如何保護數據衍生品,以及權益歸屬的問題,可以通過引入AIGC強制標注,由市場判斷相關商品是否具有財產價值,通過用戶協議去確定數據衍生品的歸屬。”陶乾在上述會上表示。
多方利益何以平衡?
處于起步發展階段的人工智能,當下對于數據,尤其是高質量的數據仍然十分渴求。
記者梳理發現,針對涉數據知識產權相關問題,尤其是訓練數據階段,人工智能公司也在通過前期約定以避免版權糾紛。如OpenAI先后與美聯社、AxelSpringe等達成協議。
相關合同金額從媒體報道中隱約可見。《紐約時報》曾經報道,蘋果公司正在與一些大型新聞出版商洽談授權其新聞檔案,“價值至少5000萬美元的多年期交易”。1月4日,TheInformation報道稱,OpenAI每年提供100萬至500萬美元的價格,以獲得相關許可。
在涉及數據知識產權方面,已有國家作出回應。如韓國表態允許使用各種出版物進行數據分析,日本政府表態不會對訓練AI所使用的數據實施版權保護。
對于美國政府來說,回應產業發展和利益保護的平衡問題,在此刻顯得尤為重要。
姚志偉表示, “相關案例,如《紐約時報》起訴OpenAI、微軟,可能迫使美國重新思考其在產業利益、公共利益和權利人利益之間的平衡問題。平衡不是寬泛的,最后會落實到具體的制度設計上面,但是需要時間”。
而在張延來看來,涉及數據相關知識產權問題在多方利益的平衡中,尤其需要關注兩個方面。
一是AI數據訓練過程中對已有權利的保護。應當對原有的版權保護體系做出一定的突破,最大限度解除對技術發展的限制,畢竟不發展就是最大的不安全,但要注意對原權利人不可產生內容上的高度替代或者利益上的過分侵蝕。
二是用戶使用AI生成的內容,對其中基于用戶所做的指令、篩選、判斷、優化等智力成果,應當給予著作權保護,不能僅因為AI的介入,否定所有AIGC內容的可版權性。“因為今后的創作將進入人機協作時代,單純的表達能力已經不再稀缺,重要的還是人的審美、創意和判斷能力。”
一個值得思考的問題,如果《紐約時報》勝訴,又該如何制止侵權?
姚志偉表示,直接對模型進行調整較為困難,因為涉及到一些技術障礙,同時效果并不確定,而且實施成本較高。“未來或許在模型輸出階段,通過技術過濾等手段以防止侵權行為的發生”。
本文鏈接:AI企業VS新聞出版機構版權第一案:數據屬于誰?產業和保護最大公約數如何劃定?http://www.sq15.cn/show-2-2266-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。