21世紀(jì)經(jīng)濟(jì)報(bào)道記者肖瀟 北京報(bào)道
在不經(jīng)授權(quán)的情況下用人類作品訓(xùn)練AI,算不算侵權(quán)?圍繞AI版權(quán)的爭(zhēng)議已持續(xù)三年,兩起來(lái)自美國(guó)的司法判決為這場(chǎng)討論提供了新的參照:
6月23日,美國(guó)加州北區(qū)聯(lián)邦法院裁定,AI公司Anthropic未經(jīng)3位作許可,使用其已出版書(shū)籍訓(xùn)練大模型Claude的行為合法,符合“合理使用”原則;
6月25日,同一法院的另一法官發(fā)布簡(jiǎn)易判決,認(rèn)為Meta公司在未經(jīng)13名作許可的情況下使用書(shū)籍訓(xùn)練大模型Llama,同樣構(gòu)成“合理使用”。
這兩起判決在整體上為AI公司開(kāi)了綠燈,但也警告了紅線。兩份判決書(shū)都提到,“合理使用”的適用范圍有限,需要考慮數(shù)據(jù)采集方式是否侵權(quán)。
不過(guò),具體在“影子圖書(shū)館”這一非法下載渠道上,兩案出現(xiàn)分歧。簡(jiǎn)而言之,Anthropic案認(rèn)為,偷書(shū)和學(xué)習(xí)是兩種行為,即便偷書(shū)是為了學(xué)習(xí),也不能因此免責(zé);而Meta案傾向于整體判斷,并且法官認(rèn)為書(shū)從哪里獲得并非。
共識(shí):“合理使用”的初步成立
合理使用是各國(guó)版權(quán)法的一項(xiàng)重要條款,允許在特定情況下,無(wú)需版權(quán)方許可即可使用作品。而生成式AI的訓(xùn)練能否落入這一范疇,是近年來(lái)法律界爭(zhēng)議為激烈的一道命題。
在Meta案中,法院支持AI訓(xùn)練屬于合理使用,并著重從兩個(gè)維度給出了解釋:
從使用目的來(lái)看,法院認(rèn)為Meta使用原告圖書(shū)訓(xùn)練AI具有“度轉(zhuǎn)換”,也就是說(shuō)這些圖書(shū)并非被用于供人閱讀或傳播思想,而是為了訓(xùn)練AI完成如寫(xiě)代碼、撰寫(xiě)郵件等生成任務(wù),其功能與原作用途截然不同。
從影響果上看,AI也并沒(méi)有再現(xiàn)、輸出圖書(shū)原文,法院因此認(rèn)為AI沒(méi)有直接替代圖書(shū)市場(chǎng)。
對(duì)市場(chǎng)或作品價(jià)值的影響是Meta案法官看重的一點(diǎn)。“在很多情況下,未經(jīng)授權(quán)用受保護(hù)作品訓(xùn)練AI大模型是違法的,因?yàn)榭赡芟魅鮿?chuàng)作者的創(chuàng)作動(dòng)機(jī)和市場(chǎng)回報(bào)?!钡诒景钢?,法院認(rèn)為原告沒(méi)有證明這一點(diǎn)。
Anthropic案的判決思路與之類似。法院同樣認(rèn)為,訓(xùn)練Claude模型的過(guò)程具備“度轉(zhuǎn)換”,并非為了再現(xiàn)原作品,終也沒(méi)有向用戶輸出原文或類似內(nèi)容,只是輸出風(fēng)格相似的表達(dá),因此不能視作市場(chǎng)替代品。判決書(shū)引用了經(jīng)典的人類讀書(shū)比喻: “(AI訓(xùn)練過(guò)程)就像一個(gè)學(xué)生閱讀了海明威的作品,然后用簡(jiǎn)短的陳述句寫(xiě)作一樣?!?/p>
在技術(shù)層面,法院還認(rèn)為AI訓(xùn)練過(guò)程屬于“中間技術(shù)行為”,類似緩存或全文索引,因而也符合合理使用原則。
過(guò)去,圍繞生成式AI的版權(quán)糾紛大多集中在“輸出”環(huán)節(jié),例如OpenAI與《紐約時(shí)報(bào)》一案中,ChatGPT被發(fā)現(xiàn)能復(fù)述《紐約時(shí)報(bào)》原文;廣州互聯(lián)網(wǎng)法院的“AI畫(huà)出奧特曼”案中,AI平臺(tái)生成了與奧特曼度相似的圖像并被判侵權(quán)。此次兩份判決的突破在于,正面回應(yīng)了“AI訓(xùn)練是否構(gòu)成侵權(quán)”的核心爭(zhēng)議,并明確在一定條件下,AI訓(xùn)練本身可以適用合理使用。
但這并不意味著AI公司取得勝利,在適用邊界上,法院仍然保持審慎。
Meta案中,法院強(qiáng)調(diào)該判決僅適用于13位原告作,并不構(gòu)成AI公司“大規(guī)模拿版權(quán)作品訓(xùn)練”的合法通行證。
而Anthropic案的法官則針對(duì)不同使用行為,做出了分項(xiàng)裁定:如果來(lái)源合法——比如將紙質(zhì)書(shū)掃描轉(zhuǎn)化為數(shù)字文本,可構(gòu)成合理使用;但如果圖書(shū)來(lái)源于“影子圖書(shū)館”等盜版平臺(tái),即便后續(xù)用于訓(xùn)練AI,依然構(gòu)成侵權(quán)。
爭(zhēng)議:如何看待“影子圖書(shū)館”
數(shù)據(jù)獲取渠道的合法,會(huì)不會(huì)影響“合理使用”的認(rèn)定?法院在這一問(wèn)題上出現(xiàn)了分歧。
在Meta案中,判決書(shū)詳細(xì)披露了Llama模型的訓(xùn)練過(guò)程:先,錨索Llama在訓(xùn)練上使用了多個(gè)大規(guī)模數(shù)據(jù)集,約2/3來(lái)自Common Crawl(互聯(lián)網(wǎng)公開(kāi)抓取的數(shù)據(jù)集),其余來(lái)自公開(kāi)站點(diǎn)和數(shù)據(jù)庫(kù)Books3;隨后,通過(guò)BT種子的方式批量下載;后,下載圖書(shū)被納入Llama的訓(xùn)練語(yǔ)料中。
星光唱游團(tuán)是由北京我唱游影視文化股份有限公司主辦,CCTV發(fā)現(xiàn)之旅《我暢游》欄目,我暢游國(guó)際旅游社(北京)有限公司,馬代華人旅游集團(tuán)共同協(xié)辦的旅游真人秀。本次活動(dòng)以“星光唱游團(tuán),唱響鄉(xiāng)美”為主題,包含音樂(lè)、文化、時(shí)尚秀、選拔賽、景區(qū)體驗(yàn)、鄉(xiāng)展示、文化交流活動(dòng)等多種形式。目的在于帶領(lǐng)更多的人一同開(kāi)啟文化之門(mén),帶動(dòng)國(guó)文化產(chǎn)業(yè)與旅游產(chǎn)業(yè)發(fā)展。
Books3 是其中的關(guān)鍵爭(zhēng)議點(diǎn),因?yàn)樗舜罅渴馨鏅?quán)保護(hù)的書(shū)籍,而且是通過(guò)“影子圖書(shū)館”收集的——其指的是未經(jīng)出版社或作者授權(quán)、非法提供圖書(shū)下載的在線數(shù)據(jù)庫(kù),典型平臺(tái)包括LibGen和Z-Library。
之所以選擇用影子圖書(shū)館,Meta解釋,公司初確實(shí)嘗試通過(guò)談判方式獲得授權(quán),計(jì)劃投入上億美元進(jìn)行授權(quán)采購(gòu)。但后來(lái)發(fā)現(xiàn)大多數(shù)作品的AI訓(xùn)練許可權(quán)歸屬于作者個(gè)人,而非出版社,授權(quán)缺乏集中機(jī)制,可達(dá)成交易少。終,該方案在公司層討論后被放棄,轉(zhuǎn)而采用影子圖書(shū)館。
公司在辯護(hù)中還提到,采取了“去記憶”技術(shù)(post-training mitigations)防止AI過(guò)度記憶原文。三方測(cè)試證明,Llama只能在端“誘導(dǎo)提示”下偶爾重現(xiàn)約50個(gè)詞左右的內(nèi)容,無(wú)法構(gòu)成大段抄襲。
這些措施或許都影響到了Meta案的終判決。判決書(shū)認(rèn)為,Meta嘗試授權(quán)失敗后使用影子圖書(shū)館的做法,不等于惡意侵權(quán),法院傾向于做“整體判斷”:“因?yàn)楹侠硎褂帽旧砭褪桥袛嗄撤N使用是否合法,而非單純看使用渠道是否合法”“即便使用了非法渠道,也不代表不構(gòu)成合理使用。”
但Anthropic案的判決思路和結(jié)果相反,法院將不同行為分開(kāi)判斷,并認(rèn)為再合法的動(dòng)機(jī)也不能“洗白”非法入口。
判決書(shū)顯示,Anthropic同樣使用了Books3等影子圖書(shū)館渠道的數(shù)據(jù),累計(jì)下載過(guò)700萬(wàn)本圖書(shū),并建立起一個(gè)“永久中央圖書(shū)庫(kù)(permanent internal library)”的內(nèi)部系統(tǒng)。這些圖書(shū)中,部分被標(biāo)記為訓(xùn)練素材候選,其余則儲(chǔ)存?zhèn)溆茫形词褂谩?/p>
建立“中央圖書(shū)館”是判決關(guān)鍵。法院認(rèn)為,這一行為與訓(xùn)練AI這一“具有轉(zhuǎn)換的行為”不同,將盜版圖書(shū)批量匯總、長(zhǎng)期儲(chǔ)存并建立內(nèi)部檢索體系,不具有任何轉(zhuǎn)換特征。
手機(jī)號(hào)碼:15222026333“只要盜取本可合法獲取的內(nèi)容,本質(zhì)就是侵權(quán),即便下載后立即用于轉(zhuǎn)換用途(AI訓(xùn)練)并立即刪除也是如此。”判決書(shū)寫(xiě)道,接下來(lái)會(huì)審理中央圖書(shū)館造成的損失,并據(jù)此確定Anthropic公司的賠償范圍。
值得注意的是,Meta案判決書(shū)還特別強(qiáng)調(diào)了市場(chǎng)影響。法官認(rèn)為,在美國(guó)版權(quán)法對(duì)“合理使用”的四項(xiàng)判定標(biāo)準(zhǔn)中(使用目的、作品質(zhì)、使用比例與市場(chǎng)影響),市場(chǎng)影響是具分量的因素。盡管法院認(rèn)可AI訓(xùn)練具備度轉(zhuǎn)換,但也警告:如果AI輸出會(huì)沖擊原作品市場(chǎng),仍可能無(wú)法構(gòu)成合理使用。
雖然本案并未證明AI對(duì)圖書(shū)市場(chǎng)的沖擊,但另一些行業(yè)可能情況不同,“尤其是某些類型作品(如新聞文章)的市場(chǎng),似乎更容易受到AI競(jìng)爭(zhēng)沖擊。”法官?gòu)?qiáng)調(diào)。
以上兩起案件的原告均為圖書(shū)作,主要聚焦于文生文的聊天機(jī)器人,但類似爭(zhēng)議已蔓延至影視、視覺(jué)創(chuàng)作等更多領(lǐng)域:上周,迪士尼與環(huán)球影業(yè)聯(lián)手起訴圖像生成平臺(tái)Midjourney,指控其抓取影視劇內(nèi)容訓(xùn)練AI模型;國(guó)內(nèi)四位插畫(huà)師則將AI繪圖產(chǎn)品“Trik AI”告上法庭四平預(yù)應(yīng)力鋼絞線價(jià)格,稱其在未經(jīng)授權(quán)的情況下抓取原創(chuàng)插畫(huà)進(jìn)行訓(xùn)練。該案于2024年次開(kāi)庭,目前還在審理中。