[新聞]美國生成式AI首宗著作侵權案實體判決出爐
Anthropic
美國生成式AI首宗著作侵權案實體判決出爐 -- Bartz, Graeber & Johnson v.
Anthropic
原文網址:http://bit.ly/3Gx8MUp
原文:
前言
生成式AI(下稱GAI)席捲全球以來,引爆前所未有的著作權爭訟,目前已有約50件未經
授權使用他人著作內容,進行模型訓練之GAI侵權官司。幾乎所有的AI大咖,如OpenAI、
Meta、Google、Nvidia與Anthropic等,無一倖免都被告。以Claude聊天機器人爆紅的
Anthropic,繼全球第一件涉及GAI與音樂歌詞的侵權案Concord Music Group, Inc. et
al., v. Anthropic後 (請參閱全球首宗音樂出版商控告生成式AI Claude歌詞著作侵權案
),2024年8月再度被書籍作家控告,而與過去數宗侵權案僅止於程序判決不同的,北加州
法官於2025年6月下旬,就全球GAI模型訓練是否構成合理使用,首度做出突破性的實體判
決。
本案緣起
美國AI公司Anthropic係由前OpenAI員工於2021年1月創立,其核心產品係Claude的AI軟體
服務,能迅速產出類似人類的閱讀與寫作回應。之所以能做到此,是因為使用其建立的中
央資料庫中挑選書籍與文本,訓練Claude各版本之大型語言模型(以下稱LLM)[1]。
為了建構LLM,Anthropic從網路上盜版網站免費下載數百萬本書籍,但也購買了幾百萬本
紙本書(其中部分與從盜版網站取得的書籍重複),通常為二手書,然後由其服務供應商
將書拆除裝訂、裁切書頁、逐頁掃描成可搜尋的數位檔案,並丟棄紙本書。每本書都被掃
描成PDF格式,包含掃描頁面之圖像與可機器辨識之文字。Anthropic因此取得數百萬本書
的副本。此外,Anthropic亦複製原告作品內容 -- 例如在複製書評、學術文章、網誌貼
文等。
Anthropic將這些複製版匯集成一個「中央圖書資料庫」(central library,以下或稱「
資料庫」或「圖書館」),再從其中挑選不同的書籍編入各種「資料組合」用於訓練其正
在開發的LLM以提供其AI服務。即使決定不再使用某些書籍訓練LLM,Anthropic仍將「永
久保存」這些資料庫副本作為永久性、通用資源。
其中一些書籍為原告Andrea Bartz、Charles Graeber 與 Kirk Wallace Johnson等所撰
寫,其作品遭Anthropic自盜版及購得來源中複製,而其所有的複製行為均未經授權,這
些作者遂於2024年8月向北加州法院,對Anthropic提起著作權侵害訴訟。彼等指控其訓練
迭代LLM時,深知使用書籍是達到訓練LLM最具成效的方法,因此於2021年1或2月間,下載
Books3 --一包含196,640本書籍的線上圖書館,且明知這些書係由未經授權複製而來之盜
版品,並繼續下載其他經散布與再分享之盜版資料庫副本。計2021年6月自Library
Genesis(LibGen)下載至少5百萬本書;2022年7月自 Pirate Library Mirror(PiLiMi)下
載至少2百萬本書,Anthropic均知其為盜版來源。
被告訓練書籍經歷之複製階段
Anthropic選定用於訓練的書籍,經歷幾個複製階段,實際上「複製次數」多到其坦承難
以估計:
首先,從中央資料庫複製出作業用副本以納入訓練數據集。
接著進行清洗,移除頁首、頁尾或頁碼等重複或低價值內容,產出「清洗版」副本。若同
一本書出現兩次,或經過數據集檢視後認為有刪除理由,Anthropic會在此步驟刪除該書
的相關副本。
第三階段是「標記化(tokenized)」處理:詞彙被簡化(如 "studying" 轉換為 "study"
),並轉為短字符序列與對應的數值代碼(token),依 Anthropic自行建立的詞彙表。這
些標記化副本在訓練過程中會反覆複製。此過程是一種嘗試錯誤法的統計學習,用以發現
文字碎片之間、以及與其他書籍與網站之間的關聯性。
第四階段,訓練完成的LLM本身保留所訓練資料的「壓縮版」副本。原告認為此等壓縮版
本,實質上等於「記憶」幾乎逐字相同的原文內容。也能讓LLM背誦其所訓練之著作,但
訓練後的微調等程序,則不在本案討論範圍內。
本案二造爭點與被告之程序反擊
原告主張Anthropic至少有兩項使用行為:其一,建立一龐大的中央資料庫;其二,從該
資料庫中挑選不同的內容集合來訓練特定的LLM,並逐漸選擇結構更佳、表達更精煉的作
品。原告主張,將紙本書掃描成數位檔的行為本身即為侵權,不構成合理使用。
回應原告起訴,Anthropic則提出動議,主張使用原告書籍是正當的,要求法院就「合理
使用」做出簡易判決(Summary judgment,或稱即席判決)[2],其認為這些副本在訓練
LLM過程中屬於「合理必要」。因此本案於簡易判決程序中,爭點在於被告對系爭著作之
使用,是否構成美國著作權法第107條之「合理使用(fair use)」。
原告僅就LLM訓練之複製提告
每當LLM被整合至Claude公開版本時,系統會結合軟體過濾使用者的輸入與模型的輸出,
但訓練資料並未直接外洩至使用者介面。因此,原告「並未指控」Claude提供或未來可能
提供原著作的侵權副本,「也未主張」LLM的輸出內容構成對其作品的侵害,更無證據顯
示Claude公開版使用者曾接觸任何侵權內容。原告亦未指稱Anthropic曾將數位化的著作
副本,提供外部第三方使用。
亦即,原告並未挑戰LLM的輸出結果,而僅質疑其輸入資料。儘管Claude可能協助作者創
作出與原告作品水準相當的內容,進而成為潛在競爭者,但原告並未主張Claude所輸出的
內容,構成抄襲或明顯的仿冒,亦無從追溯至特定之原告作品。
法院也認為,盜版或掃描的書籍被收錄至中央資料庫後,再從其複製轉成訓練資料。這些
資料經清洗、標註及壓縮處理後納入LLM。完成訓練的模型不會透過Claude對外輸出任何
原著作進一步的副本。即使某些書籍之副本最終未實際用於訓練,Anthropic仍將其保留
以供未來其他的用途。在整個過程中,至少有原告的一部作品被納入其中,而Anthropic
計劃永久保存所有資料,即使部分作品最終未被納入LLM訓練。
總之,法院指出Anthropic的LLM並未向公眾展現任何特定著作的創意元素,甚至未重現某
位作者可辨識的風格表現(即使假設這些風格本身具著作權保護性)。確實,Claude所生
成的語法、寫作風格和結構,可能來自數千本作品的綜合學習。但若某人閱讀所有現代經
典,並模仿其優美表達是否即構成著作權侵權?當然不是,因著作權法不保護「運作方式
、概念或原則」之本身,即便其係由作品體現。
本案簡易判決就合理使用四個要素之判斷
加州北區聯邦地院William Alsup法官於2025年6月23日做成中間判決,此為本案目前的首
次實體裁定(substantive order)。根據著作權法第107條,對受著作權保護之作品的合理
使用……例如批評、評論、新聞報導、教學(包括課堂使用的多份影本)、學術或研究之
目的,不構成著作權侵害。在判斷特定個案中是否構成合理使用時,法院應考量下列要素
:
(1) 使用之目的與性質,包括是否具商業性質,或是否為非營利教育目的;
(2) 著作的性質;
(3) 所使用的部分在整體著作中所占的比例與實質性;
(4) 該使用對該著作潛在市場或價值的影響。
基於此,本案判決將該四項要素逐一說明,並詳述每一要素如何適用於訓練副本及購買與
盜版所得的資料庫副本,最後給出整體綜合分析。在美國著作權法實務案例中,由最高法
院所揭櫫出來的「轉化性」使用,是判斷是否構成合理使用重中之重的關鍵要素!
1.使用之目的與性質
對於所爭議的使用行為,第一項要素著眼於該使用的「目的與性質」,包括該使用是否具
有商業性,或是否為非營利教育用途。
A. 用於訓練特定LLM的副本
系爭使用行為是為了訓練LLM,以便其接收文字輸入並產生文字輸出,Anthropic複製原告
的著作,藉由訓練過程反覆映射每個文本片段序列之間的統計關係,以訓練模型,就像人
類能理解提示,接收文本輸入並回覆新的文本輸出,該訓練過程中包含「記憶」作品內容
,將其「壓縮」進模型中,這些模型記住非常多內容。
法院強調,原告未主張任何LLM的輸出內容實際侵害其作品,而Claude加裝額外過濾軟體
,在使用者與LLM之間設置屏障,以確保不會有侵權內容傳送至使用者端。如果使用者看
到的內容屬於侵權,原告可另案主張;若未來輸出內容變成侵權,原告亦可再告,但目前
的情況並非如此。
質言之,將著作用於訓練生成新文本的LLM,其目的與性質屬於典型的「轉化性使用」。
正如某讀者想成為作家,Anthropic的LLM並非「為了複製原作而訓練」,而是「為了創造
出不同的作品」。若訓練過程中,合理需要將著作複製進入 LLM系統中或以其他方式保留
副本,則此複製行為屬於合理使用範疇。因此,就第一項要素「使用目的與性質」,對訓
練副本而言,傾向支持合理使用。
B. 用於建立中央資料庫的副本
由於Anthropic所購買與非法取得的資料庫副本,在法律上的情況有所不同,法院分別處
理。
(1) 從合法購買紙本轉為數位資料庫副本
Anthropic購買數百萬本紙本書建立「研究資料庫」,其做法是將每本書掃描為數位形式
後銷毀原件,僅將轉換後的數位副本保留於資料庫中供內部使用,而非對外分享或銷售。
依美國著作權法第109(a)條,Anthropic購買紙本書後,取得該書完整的處置權,因此有
權將其副本保留於資料庫中,做為一般用途。而本案涉及之數位副本僅供中央資料庫內部
保存,並未對外公開散布,Anthropic將合法購買的紙本書轉為數位格式的副本,目的在
資料管理與運作效益,符合第一要素中的轉化性使用。若這些數位副本日後用於訓練LLM
,則該行為因訓練目的用途不同亦構成轉化性使用。
法院認為,因為資料的儲存與可檢索性,並非著作本身之創作特質,而屬於作品外部框架
的物理屬性,或關於作品之資訊特性層面。Anthropic原本有權保留紙本書,其選擇改以
複製為數位版本保存,此種紙本轉數位(print-to-digital conversion)格式轉換行為本
身,目的在節省儲存空間並提升檢索便利性,可構成合理使用。此一轉換未新增任何副本
,且有助於資料管理與快速查詢,其目的並非侵害著作權人之正當權益,因此具備轉化性
。因此,這些數位副本應視同原始購買的紙本書,可合法存放於中央資料庫中。
至於Anthropic作為營利機構,其本身之「商業性質」僅是其中一項考量,但並非第一項
合理使用的決定性要素。該要素的核心在於,是否保護著作權人行使其權利、或選擇不行
使其權利的自由。換句話說,被告是否為營利機構、是否從中獲益,僅具指標性意義,並
非決定性要素。
總之,合理使用第一要素,支持將合法購買的紙本轉為數位副本,但這一結論,不適用於
非法取得之資料庫盜版副本。
(2)盜版資料庫副本(Pirated Library Copies)
在購買實體書建立中央資料庫之前,Anthropic曾下載超過七百萬本盜版書籍副本,未支
付任何費用將其納入資料庫保存,即使後來決定這些書籍不會用來訓練AI(不論是暫時或
永久)。從盜版網站複製教科書,即已構成侵權,無須另作討論(……the person who
copies the textbook from a pirate site has infringed already, full stop.)。就
Anthropic的論點:僅因某些副本日後可用於訓練LLM,就主張這些副本納入資料庫可屬於
合理使用,法院不予採納。
法院不認為從可合法購買的網站以盜版形式下載資料,對後續使用有其「合理必要」。沒
有任何法院認為:為撰寫書評、研究書中內容或訓練LLM,而複製本可合法購得的書籍副
本,是正當或必要的。即使這些盜版資料用於具轉化性的用途並立刻被刪除,這種取得行
為本質上,已是不可許可的侵權行為。
欲建立一可供各種使用目的之資料庫,本即為Anthropic取得副本之使用目的。雖然其後
續使用是用來訓練LLM,但不是所有的盜版書籍都實際用於訓練,也不是所有副本都因此
被刪除。將盜版資料作為研究資料庫用,僅因其「可能未來有用」,本身即構成一種使用
行為 – 而這種使用不是轉化性使用。
本案客觀分析結果顯示,Anthropic起初是為建立一通用目的之資料庫而盜版著作,以取
代購買正版來實現同樣目的。值得注意的是,本案並非「來源副本無法購買或借閱」,才
使用盜版來源製作副本,而且本案也非那種「僅因偶然或技術上必要」,才使用盜版來源
製作副本的情況。Anthropic「盜版」本身就是目的:其為了建立中央圖書館,而該資料
庫本可透過合法付費方式購買而建立,卻選擇不付費,儘管後來還是購買部分正本。
本案Anthropic的盜版情況,其複製首批作品時,並沒有任何已授權的正本可作為來源;
這些被複製的全文資料,也並非每一份副本都是訓練LLM所需;甚至有許多初始副本根本
沒被使用或不再使用,卻仍從未被刪除,遑論Anthropic建立的資料庫副本,缺乏任何內
部控管機制以限制存取或使用權限。
小結:此類使用作品訓練LLM行為,合理使用的第一要素 --「使用之目的與性質」極具轉
化性(transformative)-- 甚至可謂極為顯著的轉化。但本案中對於從盜版來源而來的
中央資料庫副本,傾向不構成合理使用。而且,即使 Anthropic事後購買作品之合法副本
,也不能抹除最初盜版所造成的侵害。
2. 著作的性質
合理使用的第二要素為「原告著作之性質」,其要求:某些類型的著作,較其他類型更接
近著作權法所意圖保護的核心,因此當被使用的是此類著作時,要主張合理使用將更為困
難。譬如:已出版作品相較於未出版作品享有較低的保護;事實性作品(如報導、論述)
比虛構或幻想性作品(如小說、詩歌)受到的保護也略低。但保護較低不等於毫無保護。
即便是不具保護性的事實陳述,其編排若具有創意,仍可超越著作權保護的最低門檻。
本案中,Anthropic已承認所有原告的書籍皆係已出版作品,無論是小說或非小說,皆包
含可受著作權保護的表達內容。法院認為,Anthropic正是基於作品之「表達性價值」選
擇這些書籍,用來建立其中央資料庫,並進一步作為LLM訓練資料之依據。本要素之主要
功能,是輔助評估其他合理使用要素,包括:原作品性質與後續使用性質的差異;複製數
量與後續使用目的之關聯。因此,就所有類型副本而言,第二要素皆不利於主張合理使用
。
3. 使用部分的數量與實質性(Substantiality)
第三項合理使用要素為:「被告使用原著作中多少比例與實質性」。關鍵在於:使用的數
量是否與其複製目的「具有合理關聯」?因此,法院分析:被告對原作品的使用比例;更
重要的,是這些使用是否合理且與其所主張的轉化性使用目的(transformative purpose)
相符。
A. 用於訓練特定LLM模型的副本
被Anthropic納入訓練集的副本之所以被選用,是因其內容完整且包含豐富具保護性的表
達內容,那麼,這些複製行為是否對轉化性使用而言屬於「合理必要」(reasonably
necessary)?答案是肯定的。因為此要素重點不單在於「複製多少內容或是否具實質性」
,而更在於「這些內容在所主張的第二次使用中,被公開揭露給大眾的範圍與實質性,是
否構成對原作主要用途的競爭替代品」。
法院再次強調,原告在本案中,並無指控任何Claude輸出結果的內容,與原告作品之間存
在可追溯之連結。因此,訓練Claude基礎之LLM所使用的複製行為,其合理性尤其明顯。
對此,原告主要反對的理由是,用於訓練的複製範圍過於廣泛:整本書皆被複製,且並非
「絕對必要」。
本案確實存在整部作品被大量複製的情況,而依巡迴上法院之實務見解是「複製整部作品
,不利於合理使用之認定」,但法院認為,本項要素所需評估的是,那些僅用來達成與作
品原始用途相同之複製行為。而原告並未指控此類複製行為之存在。本案中,Anthropic
被指控的複製(訓練LLM),與書籍原本的一般用途(閱讀、販售)截然不同,兩者幾乎
毫無交集,因此原告的主張無法被採納。
至於「絕對必要」(strictly necessary)方面,法院認為:若某項具有生產性的使用
(productive use),只有在引用某特定作品時才得以實現,則合理使用的強度會提升至最
高點;反之,若該使用在未引用該特定作品時亦可實現,則合理使用的強度降至最低點,
而引用該作品需有特別強而有力的正當理由。本案Anthropic的確可使用其他書籍,或甚
至不使用書籍來訓練其LLM,但Anthropic提出具說服力的解釋,說明為何使用這些作品屬
於「合理必要」。
二造一致同意,訓練LLM 所需的文本量極為龐大。原告主張,既然Anthropic 證明能使用
較小規模的書籍進行訓練,則其理應可以完全不使用書籍 -- 或至少不使用原告書籍。但
法院認為,原告忽略一點:「合理必要」並不等於「絕對必要」。因此,在使用如此大量
作品為合理所需的前提下,實際使用任何一部作品進行訓練,與使用其他作品在合理性上
並無明顯差異。
再者,原告並未主張Claude對外公開的輸出內容,有任何部分構成侵權。因此,儘管原告
的作品因表現優秀而被選入訓練集,但將這些高品質範例用於訓練LLM所帶來的明顯效益
,並未以揭露作品內容提供予公眾作為代價。因此,訓練過程中所複製的內容,在此情況
下屬於特別合理而且是具說服力的使用。
小結:第三要素傾向支持合理使用 -- 尤其對於訓練LLM的複製資料而言。
B. 用於建立中央資料庫的副本
不過,有一項不同的使用情況 -- 這種區別會影響判斷複製數量與實質性,是否「與複製
目的合理相關」。
(1) 由紙本轉為數位格式的已購圖書副本
對Anthropic已購買的紙本圖書,並將其轉為數位格式後用於資料庫保存,Anthropic已擁
有在資料庫保存該副本的權利。其複製之目的是為了保存該書,並使其在儲存與檢索上更
為便利,而複製整本書正符合此目的所需,並無過度複製,因原始的紙本已被銷毀。因此
,第三合理使用要素支持該已購買副本轉數位的行為構成合理使用。
(2) 盜版的圖書副本
然而,對於盜版圖書副本,Anthropic並無任何持有權。雖然其聲稱目的是為訓練LLM,但
其實際行為是想要「收集全世界所有書籍」,且即使決定不再用該副本進行訓練,仍保留
該副本,暗示有其他未明確說明的用途。針對這種「收集所有可能對訓練或其他用途有用
書籍」的行為,任何未授權的複製數量幾乎都嫌過多,而Anthropic竟複製數百萬本包括
原告的著作。因此,第三要素對盜版圖書副本不利於合理使用。
(3) 使用對市場或著作權價值的影響
最後一項合理使用要素是:「該使用對著作權作品潛在市場或價值的影響」。當複製的副
本,取代著作權人已經或可能提供的市場需求時,此要素不利合理使用。「第一要素考慮
的是原作品與第二次使用,原則上是否可能互為替代用途,第四要素則關注實際或潛在的
市場替代效應。」
A. 用於訓練特定LLM的副本
法院認為,用於訓練LLM的副本,並未也不會取代原告著作的市場需求,或者說未達到著
作權法認定的重要取代程度。原告自己也承認,訓練LLM並未導致向公眾提供與其著作一
模一樣的複製品,亦未導致侵權抄襲品的公開發表。如果情況非如此,案件結果會截然不
同。若未來有此類事實出現,原告仍可另行提告。
原告主張訓練LLM「可能」會導致大量替代性作品湧現,與其著作競爭 -- 例如事實摘要
、小說改寫、寫作風格模仿等;而且訓練LLM已經或將來會取代一個新興市場 -- 該市場
為著作授權用於LLM訓練(狹義目的)之市場。Anthropic則辯稱,若付費給權利人,交易
成本將超過其技術開發的預期利益,導致其可能放棄與權利人合作,甚至放棄技術開發。
但法院認為,著作權法之目的是促進原創作品的創作,而不是保護作者免於市場競爭。至
於市場或有發展可能,但即使如此,該用途市場並非著作權法保障作者享有之必然市場。
原告援引的案例皆涉及對著作權法真正保護權利的市場損害,而非本案所涉的合理使用類
型,著作權人不能如此期待。
小結:第四合理使用要素支持針對用於訓練的副本主張合理使用。
B. 用於建立中央資料庫的副本
(1) 已購圖書由紙本轉為數位格式副本
本判決假設,Anthropic將已購紙本轉換為數位格式,可能取代其本來會直接向原告購買
數位版的行為(假如無法以二手紙本購得時)。但依第一要素所述理由,這種損失不屬於
著作權法保留給原告的權利範圍,純粹只是格式轉換。
原告進而主張,即使如此,格式轉換仍可能使原告失去銷售正本的機會,因為Anthropic
傳輸數位副本比紙本更容易,且所有格式轉換者狀況相同。經調查,本案並無任何跡象顯
示Anthropic有意於取得資料庫副本後再分發。且若內部中央資料庫副本確實導致進一步
複製或散布,原告仍可就該等後續侵權行為另行求償。格式轉換本身並未剝奪原告的正當
權益。因此,對已購紙本轉數位的行為,本要素呈中性。
(2) 盜版圖書副本
用於建立中央資料庫且來自盜版來源的副本,顯然是以一對一的方式取代了原告書籍的市
場需求。並非所有只是想進行合理使用的人,在此期間都有權擁有完整副本,更無權為了
方便或降低成本而竊取。用於訓練LLM的副本是一回事,而為了組建一方便且通用的資料
庫以備不時之需而蒐集副本,則是完全不同的使用行為。
Anthropic首先辯稱「Claude服務並未透過取代原告傳統市場,而降低或剝奪其作品價值
」,但原告作品的盜版顯然已構成取代市場的行為。其次,Anthropic辯稱其可能只能購
買部分書籍及文本,無法取得其他複製的文本。但本案不涉及那些無法購買的文本,原告
的書籍都是可購買到的,Anthropic事實上後來也買了。最後,Anthropic認為單一本書的
損失太小不足以考慮,但合理使用的判斷須考量:若該行為被認可為合理使用,所產生可
能之結果 -- 即竊用本來可買到的作品(一本書、數百萬本書),只要表面上意圖做所謂
的轉化性使用(書評節錄、LLM訓練等),卻不需負任何責任,這當然不對。因此,本要
素對盜版圖書副本判定不利於合理使用。
法院總體分析之結論
法院最終之總體判斷為,用於訓練特定LLM的副本係合理使用。除了第二項著作性質的要
素外,其餘三項要素均支持此結果,尤其第一項要素給予強烈支持。法院更指出,涉案技
術具高度轉化性,甚至可能是「許多人一生中所見到最具轉化性之技術之一」。而對於被
告將合法購買之紙本書轉換為數位副本的行為,法院亦認定為合理使用。理由在於紙本已
被銷毀,而數位副本並未被再分發,其目的僅為提升資料儲存效率與可搜尋性。
相較之下,用於建立中央資料庫的盜版書籍副本,則不構成合理使用,法院指出,四項要
素全數不利被告。每項著作的使用均需個別提出正當理由,但本案中除方便與成本考量外
,並無其他合理化之依據。至於部分副本未實際用於模型訓練,僅作保留之用,法院仍不
授予Anthropic簡易判決,因其資料庫副本仍被保存,且工程團隊確實製作過其他副本。
總結以上分析,Anthropic為訓練Claude所使用的書籍,構成極具「轉化性」之使用,屬
於著作權法之「合理使用」。至於Anthropic掃描其所購買的紙本書籍所產生的數位副本
,雖也構成合理使用,但理由不同於用於訓練的副本。其所以構成合理使用,是因其僅將
為中央資料庫所購買之紙本書籍,轉換成提升資料處理效率之可搜尋的數位副本,並未新
增副本、創作新作品,或再分發既有副本。然而,特別重要的是:要創建一永久、通用性
的資料庫,Anthropic無權使用盜版書籍副本,作為其中央資料庫訓練LLM,其本身不足以
正當化使用侵權著作,也不構成免除責任的合理使用依據。
總之,法院授予Anthropic關於訓練用途為合理使用的簡易判決,也授予紙本轉數位格式
變換為合理使用的簡易判決。但否決Anthropic主張盜版圖書副本,應視同訓練副本的簡
易判決請求。法院接下來,將繼續針對用於建立Anthropic中央資料庫的盜版副本及其造
成的損害(實際或法定賠償,包括故意侵權)進行審判。Anthropic之後購買其先前竊用
的書籍副本,不能免除其竊用責任,但可能會影響法定賠償的程度。對於從資料庫副本衍
生的其他用途副本(非訓練用途),並不排除任何追訴可能。
以上是美國最新判決的介紹,以下是筆者本判決所帶來的啟示。之前美國好幾個法院都做
出中間性程序判決,本案性質上雖也是中間判決,但卻是針對合理使用之實體部分做出的
實質判決,這也是本判決最讓人矚目的原因。因為過去眾多案件的法官,沒有這麼直接清
楚的做出突破性的法律意見,此判決原告可能不服而上訴,但最核心的部分對原告並非不
利,尤其是法官就所謂盜版的繼續審理。無論如何,本判決可說是石破天驚立下標準!值
得關注。
用於訓練特定LLM模型之複製是否具轉化性 -- 盜版 v. 合法版
基於用來訓練特定LLM模型的副本,此法律上是可構成轉化性的使用,但問題是,並非只
要進行訓練LLM所使用的副本都合法!法官在這層面上做了二種區隔,必須先看工具訓練
者所使用的副本來源,如是合法買來的,那麼將這本實體書紙本轉化為數位格式加以訓練
,是合理使用!反之,只要來源並非合法購得,譬如未經授權在網路上爬取資料的複製,
就非合理使用!但是否即構成違法侵權,法官必須要再審理下去,因為畢竟簡易判決之程
序,不過是順著被告提出動議後所進行的中間裁決而已。
以上法官劃下的判定標準,可從二個角度觀察:首先,所有訓練AI工具的供應商,必須要
了解手上所使用資料來源,法官雖然只提到紙本書,但從法理上看,來源只要是合法購得
的,此時不論是紙本或網路版譬如電子書,只要是買來的,這些素材都可將其作為訓練資
料,而此時進行的複製動作,都可構成合理使用而不侵權。其次,只要是未經合法購買的
版本,也就是判決所謂的盜版副本,則有可能違法,但目前尚不得而知﹗不過基於法院所
述,預估將來可能對被告不利(不過也不排除其他有利的抗辯理由)。最後,是其他在網
路上不收費的素材,是有人自願放在網路上自由讓大家看,這部分法官並沒提到,不過基
於該類素材是自由流通,拿來做LLM模型可能構成合理使用,法理上應做如是觀。
以上之判斷標準,顯然為沉寂多時的出版界注入一強心針,因為對許多新世代來說,幾已
不太看紙本而完全以網路為主,因此法官的判決只要是合法購買紙本書,就可做訓練之用
,這當然會振興實體出版的銷路,而其所畫下的原則,等於宣示只要合法購買紙本書籍,
就可拆解掃描進行GAI的使用。
不過,必須特別注意的是,本案原告只針對AI工具開發商單純在訓練過程中所進行的複製
提告,而並未將AI吐出來內容作為提告的對象,因此必須把訓練過程中的複製,和結果吐
出來是否可能產生近似結果的複製,加以區別。二者在法律評價上應不同,這可從本判決
多次提到:「如果訓練LLM並未導致向公眾提供與其著作一模一樣的複製品,亦未導致侵
權抄襲品的公開發表。如果情況非如此,案件結果會截然不同….」,似乎暗示將朝合理
使用相反方向發展!但目前還無任何判決,而本案僅止於前者的法律評價。
在目前眾多GAI案件中,原告大多是告訓練過程中的複製,迄今只有下列幾件原告將被告
AI工具產生結果構成近似的部分提告,並舉證做具體比對:
1. New York Times v. Microsoft & OpenAI(請參閱媒體巨擘控告ChatGPT著作侵權案
--New York Times v. Microsoft & OpenAI) ; 2. Concord Music Group, et al., v.
Anthropic (請參閱全球首宗音樂出版商控告生成式AI Claude歌詞著作侵權案);3. UMG
Recordings v. Suno(請參閱全球首宗生成式AI錄音著作侵權案─美國唱片業巨頭控告
SUNO); 4. UMG Recordings, et al,. v. Uncharted Labs; 5. GEMA v. Suno(請參閱歐
洲首宗生成式AI著作侵權官司─德國音樂仲團GEMA起訴OpenAI和Suno)。但目前尚無任何
判決有待觀察。簡單說,如果被告生成出來的內容,是構成與原告的著作相同或近似時,
那麼此時法院針對合理使用的判斷,可能會有不同的考量。
接下來,再談一下本案最核心的關鍵:為何訓練LLM可構成所謂的轉化性?
本案法官能勇敢的做出全球第一個具轉化性之肯定見解,其立意固然甚佳,但針對其為何
能構成轉化性的分析理由,似尚有可值得補充之處,筆者嘗試補充解釋如下。
GAI轉化性概念之法理思辯
在本案簡易判決之前,有論者認為在AI訓練過程中,是否應重新檢視「複製」這個傳統法
律概念?因AI資料處理經常將文本轉換為「向量」的數值代碼技術,然後用這些向量從大
型語言模型接收輸出回應,此即科技上「向量嵌入」(vector embedding)之應用。因為當
今GAI訓練資料已不可逆,由於電腦看不懂人類的文字圖畫,所以需先做向量嵌入,以編
碼的方式運作讓電腦看懂,好讓電腦可以利用線性代數中做矩陣數值運算,因而「向量嵌
入」操作係不得不進行之動作。
論者遂主張,訓練過程中之複製,本質係為訓練而並非是要去抄襲,因而不屬於傳統複製
,故倡議為因應AI發展需解除著作權束縛,隨著科技進步將複製概念加以轉換,使訓練過
程中之複製不視為一般違法複製。但問題在於,未經授權爬取作品內容,一般觀念上此網
路上爬取資料的動作即構成重製。因此,GAI案件中被告抗辯「爬取並不等同於複製」
(AI scraping isn’t copying)的觀點,法理上過不了關。
退而求其次,再來檢視合理使用。概念上,從網站爬取資料,縱使涉及過程中之複製,但
其目的只是在拷貝全文後,再「抽取元數據」(abstracting metadata);尤其是關於字和
字、句子和句子之間的關連性與權重、與不受著作權保護之統計模式或詞頻等資訊,結合
這些數據建構AI工具,故從運作過程上看,其所著重的已非對原數據的「單純複製」,而
有其轉化之用途。
換言之,GAI模型中之設計操作,並非單純用來「複製資料」,其主要目地係從資料中,
是在找出著作權表達層面以外之抽象化的知識(如用日本著作權法第30條之4的規定來類
比,就是「不以供自己或他人享受或觀賞作品中所表達之思想或感情為目的」(請參閱因
應生成式AI我國應修改著作權法嗎?─以美國、日本與歐盟模式為例),亦即本判決所謂
:Anthropic的LLM並非「為了複製原作而訓練」,而是「為了創造出不同的作品」。因此
,AI運作中之向量嵌入雖係複製,但視個案情況可能具有轉化性而得構成合理使用
(transformative fair use)。不過應注意:法院針對判決中所謂盜版副本的部分,雖然
未立即認為就構成侵權,但在駁回被告駁回起訴動議之餘,將來仍會繼續審判,並非當然
構成轉化之合理使用。
總之,本判決是美國首度針對GAI訓練資料之複製,是否構成合理使用的中間實質判決,
未來可能對其他三大模型如GPT、Llama和Gemini等GAI工具的著作權訴訟案產生影響。
心得:
這則報導說明,美國法院於2025年6月做出生成式AI(GAI)訓練資料合理使用的首宗實體
裁定:Anthropic採用合法購買的紙本書轉掃描版並用於訓練,被視為轉化性使用,屬合
理使用;但若從盜版來源複製圖書建立資料庫,則不構成合理使用,仍屬侵權。此判決強
調資料來源合法性關鍵,對AI訓練使用的合理使用界限具有重大指標意義,將深刻影響未
來類似AI著作權訴訟。
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 203.145.192.245 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Patent/M.1751600953.A.7DA.html
Patent 近期熱門文章
PTT職涯區 即時熱門文章