21世紀經濟報道記者 蔡姝越,實習生 王海晴 上海報道
編者按
站在2024年,AI帶來的版權問題日漸白熱化,國內外已有不少案件涌入司法并落槌,爭議、擔憂、混沌……新產業與舊秩序纏斗在一起,左右互搏。訓練數據版權侵權何解?生成物是否為作品,誰擁有著作權?生成物侵權責任如何劃分?產業鏈愈發精細下,權責如何分配?避風港原則如何適用?......
當然這不僅僅是法律問題,也事關經濟業態、商業模式、產業健康可持續發展。AI的幻影疊落進現實,傳統行業尋求新出路,新的利益分配格局需要新的規則,我們處在哪里,要抵達到何處?依舊沒有答案。4月26日是世界知識產權日,南財合規科技研究院基于此前長期對AI治理的研究,將推出“AI版權戰事”系列,與各界共同尋求解法。
過去的一年被稱為是“大模型元年”,隨著大模型應用的逐漸普及化,文字處理、文生圖像、視頻、音樂等各類生成式AI應用不斷涌現。
與此同時,2024年,生成式AI帶來的版權問題也逐漸進入了行業的關注視野。無論是OpenAI、谷歌訓練大模型的語料被控訴侵犯出版商及新聞機構版權,還是國內在廣州互聯網法院判決落槌的生成式AI服務侵犯奧特曼作品的復制權和改編權的第一案,都反映出生成式AI應用在版權合規方面的現實問題正逐漸浮出水面。
站在AI行業新技術與舊秩序纏斗互搏的當下,如何在現有的法律法規層面尋求訓練語料合規之解?生成物的版權問題該如何歸屬?未來如何在保護版權和鼓勵AI技術創新之間找到平衡點?
以此為線索和基礎,21世紀經濟報道對市面上14款生成式AI應用進行版權實測,并探究生成式AI在法律和技術層面如何從開發到產品應用全流程處理好版權合規問題,為形成更好的行業生態奠定制度基礎。
大模型訓練語料多源于新聞、社交媒體等
一個客觀事實是,對于生成式AI應用及服務背后的版權保護問題,目前已有的行政文件中尚未過多著墨。
2023年7月,國家網信辦等七部門印發《生成式人工智能服務管理暫行辦法》(以下簡稱“《辦法》”)中提到,提供和使用生成式人工智能服務,應尊重知識產權、商業道德,保守商業秘密,不得利用算法、數據、平臺等優勢,實施壟斷和不正當競爭行為。
對于生成式AI應用的平臺及服務提供商,在版權合規層面相關措施最集中的體現便是用戶注冊登錄該平臺時所應勾選和同意的服務條款和用戶協議。
北京大成(上海)律師事務所合伙人彭凱律師也向21記者指出,企業應在用戶服務協議中,應向用戶充分告知知識產權相關的風險,并約定相應義務與責任。
作為平臺和生成式AI服務提供商履行告知義務的主要途徑,21世紀經濟報道記者瀏覽了市面上14款熱門生成式AI應用的相關用戶協議、服務條款中對知識產權部分的內容表述。
其中,訓練語料來源是此次21記者在測評過程中重點關注的部分之一。《辦法》第七條提到,生成式AI服務提供者在進行訓練數據處理活動時,應使用具有合法來源的數據,涉及知識產權的,不得侵害他人依法享有的知識產權。
(圖說:14款生成式AI應用訓練語料來源 整理:王海晴)
在訓練語料的來源說明方面,在21記者所測評的14款主流生成式AI應用中,在用戶協議和服務條款中主動披露訓練語料來源的企業并不多,僅有Gemini(1.5版)和Midjourney兩款AI應用在用戶協議及服務條款中提供了訓練語料的來源,其中涵蓋公共數據庫、互聯網公開內容及第三方數據。
(圖說:Gemini和Midjourney公開的訓練語料來源)
對于語言模型應用文心一言、通義千問及Kimi三款具有對話功能的生成式AI應用,21記者則通過向AI提問“訓練的語料來源主要有哪些”獲悉,在文心一言、通義千問和kimi三款AI應用中,均有公開網絡資源如新聞、社交媒體發布內容、書籍出版物以及專業文本及數據庫等。其中,通義千問的訓練語料中還有可能會調用阿里云內部資源。
此外,Kimi、通義千問、文心一言、Pika、躍問等多款應用雖未直接提供語料訓練來源,但在用戶協議中,均指出了用戶上傳內容可能會被用于“優化模型服務及相關市場營銷”。
不過,與其他強制性同意條款不同,在部分應用中,若用戶不同意上傳內容被平臺“二次訓練”,也可通過平臺提供的退出路徑,撤回上傳內容的授權。
但與此同時,撤回授權也會給用戶體驗帶來間接影響。例如ChatGPT在用戶協議中指出,若用戶選擇不上傳數據進行訓練,相關功能會或將受到一定限制。“如果您不希望我們使用您的內容來訓練我們的模型,可按照相關路徑選擇退出。在某些情況下,這可能會限制我們的服務更好地解決您的特定需求的能力。”ChatGPT指出。
在21記者所測評的應用中,也有些AI應用在使用條款中承諾不使用用戶內容進行機器模型訓練。在AI生成圖片類應用中,妙鴨相機在用戶協議中指出用戶所上傳照片僅被用于提供圖像處理服務,不會用于提取信息和識別,并將在服務完成后系統自動刪除。
筆記軟件Notion也在NotionAI相關功能的使用說明中指出,“Notion 不會使用客戶數據或允許他人使用客戶數據來訓練用于提供Notion AI寫作套件或問答功能的機器學習模型。”并承諾用戶在使用Notion AI Writing Suite或Notion AI Q&A功能時所輸入內容不會被用于模型訓練。
從現有市面上生成式AI應用的訓練語料來源來看,一方面為公開數據、新聞機構報道、圖書出版物等,另一方面為平臺內部用戶授權的上傳內容。此前,谷歌曾因在訓練大模型Gemini時未經授權使用法國新聞機構和出版商內容而被處以2.5億歐元的罰款。
對于訓練語料來源的版權規范問題,華東政法大學知識產權法博士李泳霖建議稱:“開發者應致力于源頭的合法性,例如在著作權合規方面,可以通過集體管理組織授權以及簽約創作者等方式建立正版數據庫,再如鼓勵開發者之間建立著作權相互授權的商業模式,即不同開發者對其享有著作權的作品進行相互授權使用。”
生成內容版權歸屬平臺還是用戶?
除了訓練語料的具體來源,在本次測評過程中,21記者發現,多數應用也在用戶協議或隱私政策中,交代了通過生成式AI應用上傳、?成、發布或傳播的內容,其版權歸屬、侵權責任認定,以及應用對用戶生成內容的潛在使用情況。
(圖說:部分生成式AI應用版權聲明和保護措施摘錄 整理:王海晴)
版權歸屬方面,有部分應用認定生成內容的版權屬于開發者所有。如文心一言,其用戶協議便提到,在App及服務中提供的內容的知識產權屬于開發者百度所有,相關權利人依照法律規定應享有權利的除外。另一方面,若用戶在使用服務過程中產生了侵權風險,相關責任以及對平臺造成的損失則需要用戶側承擔。
而在Kimi、Suno、妙鴨相機等應用的用戶協議中,對版權歸屬的劃分則更加偏向用戶一側。
如Kimi在其協議中指出,用戶在應用中輸入的任何內容的版權均僅歸原作者所有,而用戶基于應用生成的內容的版權,由用戶自行維護并對其獨立判斷后使用。
近期大熱的音頻生成應用Suno,則依照用戶付費與否,對兩類用戶的版權歸屬進行區分。Suno在平臺常見問題FAQ界面中提到,在遵守服務條款的前提下,訂閱專業版或高級版的用戶,享有付費身份下生成的歌曲的所有權;而用戶使用平臺提供的免費服務生成的歌曲,其所有權將保留在平臺手中,但用戶可將這些歌曲用于非商業目的。
(圖說:Suno依照付費/免費用戶對歌曲所有權進行劃分)
與此同時,由于Suno也支持用戶上傳歌詞,創作含人聲的歌曲,其在FAQ中也強調,無論是付費或非付費用戶,都擁有原創內容的所有權。同時,除歌詞版權人外,用戶也被明確要求不可上傳已公開發布的歌曲歌詞,否則將被視為侵權。
AI視頻應用Pika在其使用條款中的表述則相對保守。條款中指出,Pika開發商Mellis不主張保管用戶在平臺內生成內容的所有權,前提是要求用戶內容不侵犯、違反或挪用第三方知識產權等各項專有權利。
此外,作為AI寫真小程序的妙鴨相機,則直接明確除了歸屬于第三方知識產權的內容,用戶在使用服務時生成內容、在平臺發布的內容的所有權利,均歸用戶方所有。同時,用戶需要在使用服務前保證,對于上傳內容擁有相應的合法權利,或已取得他人合法授權并有權用于該服務,否則造成的一切后果及損失由用戶自行承擔。
值得關注的是,一些AI應用還為用戶提供了作品侵權的申訴渠道及相關保護措施。Suno、ChatGPT、Pika、Midjourney都提供了用戶如遇作品侵權可向平臺內進行申訴的渠道,平臺將于一定限期內對侵權內容進行處理。其中,Pika和ChatGPT還指出,將對屢次侵權的用戶采取終止賬戶使用權限的措施。
業務創新與版權保護如何平衡?
目前,多數生成式AI應用仍處于起步階段,開發者仍在不斷摸索產品的商業模式和應用場景。而結合本次測評的結果來看,生成式AI在日常生活以及應用中的滲透,給傳統版權法帶來了新的挑戰。
彭凱告訴21記者,在數據合規領域,有一個關鍵概念,即“privacy by design”,是指在技術系統設計中從一開始就嵌入隱私保護的方法,主動預見并預防風險。“我理解在生成式AI領域,要實現內容生成、創作的合規,也可以參考貫徹類似的理念。”他表示。
李泳霖向21記者指出,當前知識產權法律框架下,生成式AI應用面對的最主要的挑戰仍然是圍繞其版權展開。存在爭議的場景包括:生成式AI訓練過程中對在先產品的使用,生成過程中對在先產品的使用,以及生成作品后,對被生成作品的使用。
“這其中暗含了一個前提,即生成式AI生成的內容屬于人的智力成果。就當前生成式AI的技術現狀而言,這些應用仍然屬于人類的工具,因此其生成的相關內容毫無疑問屬于人的智力成果。”他表示。
天使投資人、人工智能專家郭濤認為,如何界定AI生成物是否具有獨創性,即是否符合著作權法對作品的要求,如何確定AI生成物的作者身份,界定責任主體,以及如何評估AI生成物與現有作品之間的相似度,以判斷是否存在侵權行為,都是目前技術層面上對于AI生成物版權認定的難點。
值得關注的是,目前的司法實踐中,已有案例試圖厘清并解答以上問題。今年2月,廣州互聯網法院生效了一起生成式AI服務侵犯他人著作權判決。該案認為,被告(某人工智能公司)在提供生成式人工智能服務過程中侵犯了原告對案涉奧特曼作品所享有的復制權和改編權,并應承擔相關民事責任。這也是全球范圍內首例生成式AI服務侵犯他人著作權的生效判決。
“從現有的案例中,我們可以觀察到相關部門在嘗試平衡創新與版權保護,并且在我國的判決中,我們可以看到司法裁判者對于AI技術與創作的大力擁抱與鼓勵。”彭凱向21記者指出。
他認為,對于AIGC創作者而言,這無疑是一大利好,既有判決不僅肯定了利用人工智能生成圖片的“作品”屬性和使用者的“創作者”身份,鼓勵他們進一步學習AI工具、提升自身的審美素養,從而促使生成物能夠得到認可、具備保護價值。
另一方面,對于企業而言,創作者的熱情也能推動其進一步完善優化自身的服務與產品。“當然,各類法規標準的出臺以及司法判決的涌現也意味著他們需要積極履行更多的版權保護合規義務。”他指出。
對于目前生成式AI應用中存在的潛在版權風險,一名上海法院工作者在與21記者交談時分享了他的看法。他認為,目前生成式AI應用興起的情景,與二十年前互聯網應用開始快速發展時的情景頗為相似。“站在鼓勵產業發展的角度,我認為在目前這個環節中,給予市面上的生成式AI應用更多的發展空間,對他們的業務細節不過多苛求,或許是更好的方案。”他表示。
本文鏈接:14款生成式AI應用版權合規實測:誰在混沌中摸到了秩序的輪廓?|AI版權戰事④http://www.sq15.cn/show-2-5255-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。
上一篇: 一季度中國5G手機出貨量達5643萬部