[新聞]美國生成式AI首宗著作侵權案實體判決出爐

看板Patent (專利)作者 (H)時間2天前 (2025/07/04 11:49), 編輯推噓0(000)
留言0則, 0人參與, 最新討論串1/1
Anthropic 美國生成式AI首宗著作侵權案實體判決出爐 -- Bartz, Graeber & Johnson v. Anthropic 原文網址:http://bit.ly/3Gx8MUp 原文: 前言 生成式AI(下稱GAI)席捲全球以來,引爆前所未有的著作權爭訟,目前已有約50件未經 授權使用他人著作內容,進行模型訓練之GAI侵權官司。幾乎所有的AI大咖,如OpenAI、 Meta、Google、Nvidia與Anthropic等,無一倖免都被告。以Claude聊天機器人爆紅的 Anthropic,繼全球第一件涉及GAI與音樂歌詞的侵權案Concord Music Group, Inc. et al., v. Anthropic後 (請參閱全球首宗音樂出版商控告生成式AI Claude歌詞著作侵權案 ),2024年8月再度被書籍作家控告,而與過去數宗侵權案僅止於程序判決不同的,北加州 法官於2025年6月下旬,就全球GAI模型訓練是否構成合理使用,首度做出突破性的實體判 決。 本案緣起 美國AI公司Anthropic係由前OpenAI員工於2021年1月創立,其核心產品係Claude的AI軟體 服務,能迅速產出類似人類的閱讀與寫作回應。之所以能做到此,是因為使用其建立的中 央資料庫中挑選書籍與文本,訓練Claude各版本之大型語言模型(以下稱LLM)[1]。 為了建構LLM,Anthropic從網路上盜版網站免費下載數百萬本書籍,但也購買了幾百萬本 紙本書(其中部分與從盜版網站取得的書籍重複),通常為二手書,然後由其服務供應商 將書拆除裝訂、裁切書頁、逐頁掃描成可搜尋的數位檔案,並丟棄紙本書。每本書都被掃 描成PDF格式,包含掃描頁面之圖像與可機器辨識之文字。Anthropic因此取得數百萬本書 的副本。此外,Anthropic亦複製原告作品內容 -- 例如在複製書評、學術文章、網誌貼 文等。 Anthropic將這些複製版匯集成一個「中央圖書資料庫」(central library,以下或稱「 資料庫」或「圖書館」),再從其中挑選不同的書籍編入各種「資料組合」用於訓練其正 在開發的LLM以提供其AI服務。即使決定不再使用某些書籍訓練LLM,Anthropic仍將「永 久保存」這些資料庫副本作為永久性、通用資源。 其中一些書籍為原告Andrea Bartz、Charles Graeber 與 Kirk Wallace Johnson等所撰 寫,其作品遭Anthropic自盜版及購得來源中複製,而其所有的複製行為均未經授權,這 些作者遂於2024年8月向北加州法院,對Anthropic提起著作權侵害訴訟。彼等指控其訓練 迭代LLM時,深知使用書籍是達到訓練LLM最具成效的方法,因此於2021年1或2月間,下載 Books3 --一包含196,640本書籍的線上圖書館,且明知這些書係由未經授權複製而來之盜 版品,並繼續下載其他經散布與再分享之盜版資料庫副本。計2021年6月自Library Genesis(LibGen)下載至少5百萬本書;2022年7月自 Pirate Library Mirror(PiLiMi)下 載至少2百萬本書,Anthropic均知其為盜版來源。 被告訓練書籍經歷之複製階段 Anthropic選定用於訓練的書籍,經歷幾個複製階段,實際上「複製次數」多到其坦承難 以估計: 首先,從中央資料庫複製出作業用副本以納入訓練數據集。 接著進行清洗,移除頁首、頁尾或頁碼等重複或低價值內容,產出「清洗版」副本。若同 一本書出現兩次,或經過數據集檢視後認為有刪除理由,Anthropic會在此步驟刪除該書 的相關副本。 第三階段是「標記化(tokenized)」處理:詞彙被簡化(如 "studying" 轉換為 "study" ),並轉為短字符序列與對應的數值代碼(token),依 Anthropic自行建立的詞彙表。這 些標記化副本在訓練過程中會反覆複製。此過程是一種嘗試錯誤法的統計學習,用以發現 文字碎片之間、以及與其他書籍與網站之間的關聯性。 第四階段,訓練完成的LLM本身保留所訓練資料的「壓縮版」副本。原告認為此等壓縮版 本,實質上等於「記憶」幾乎逐字相同的原文內容。也能讓LLM背誦其所訓練之著作,但 訓練後的微調等程序,則不在本案討論範圍內。 本案二造爭點與被告之程序反擊 原告主張Anthropic至少有兩項使用行為:其一,建立一龐大的中央資料庫;其二,從該 資料庫中挑選不同的內容集合來訓練特定的LLM,並逐漸選擇結構更佳、表達更精煉的作 品。原告主張,將紙本書掃描成數位檔的行為本身即為侵權,不構成合理使用。 回應原告起訴,Anthropic則提出動議,主張使用原告書籍是正當的,要求法院就「合理 使用」做出簡易判決(Summary judgment,或稱即席判決)[2],其認為這些副本在訓練 LLM過程中屬於「合理必要」。因此本案於簡易判決程序中,爭點在於被告對系爭著作之 使用,是否構成美國著作權法第107條之「合理使用(fair use)」。 原告僅就LLM訓練之複製提告 每當LLM被整合至Claude公開版本時,系統會結合軟體過濾使用者的輸入與模型的輸出, 但訓練資料並未直接外洩至使用者介面。因此,原告「並未指控」Claude提供或未來可能 提供原著作的侵權副本,「也未主張」LLM的輸出內容構成對其作品的侵害,更無證據顯 示Claude公開版使用者曾接觸任何侵權內容。原告亦未指稱Anthropic曾將數位化的著作 副本,提供外部第三方使用。 亦即,原告並未挑戰LLM的輸出結果,而僅質疑其輸入資料。儘管Claude可能協助作者創 作出與原告作品水準相當的內容,進而成為潛在競爭者,但原告並未主張Claude所輸出的 內容,構成抄襲或明顯的仿冒,亦無從追溯至特定之原告作品。 法院也認為,盜版或掃描的書籍被收錄至中央資料庫後,再從其複製轉成訓練資料。這些 資料經清洗、標註及壓縮處理後納入LLM。完成訓練的模型不會透過Claude對外輸出任何 原著作進一步的副本。即使某些書籍之副本最終未實際用於訓練,Anthropic仍將其保留 以供未來其他的用途。在整個過程中,至少有原告的一部作品被納入其中,而Anthropic 計劃永久保存所有資料,即使部分作品最終未被納入LLM訓練。 總之,法院指出Anthropic的LLM並未向公眾展現任何特定著作的創意元素,甚至未重現某 位作者可辨識的風格表現(即使假設這些風格本身具著作權保護性)。確實,Claude所生 成的語法、寫作風格和結構,可能來自數千本作品的綜合學習。但若某人閱讀所有現代經 典,並模仿其優美表達是否即構成著作權侵權?當然不是,因著作權法不保護「運作方式 、概念或原則」之本身,即便其係由作品體現。 本案簡易判決就合理使用四個要素之判斷 加州北區聯邦地院William Alsup法官於2025年6月23日做成中間判決,此為本案目前的首 次實體裁定(substantive order)。根據著作權法第107條,對受著作權保護之作品的合理 使用……例如批評、評論、新聞報導、教學(包括課堂使用的多份影本)、學術或研究之 目的,不構成著作權侵害。在判斷特定個案中是否構成合理使用時,法院應考量下列要素 : (1) 使用之目的與性質,包括是否具商業性質,或是否為非營利教育目的; (2) 著作的性質; (3) 所使用的部分在整體著作中所占的比例與實質性; (4) 該使用對該著作潛在市場或價值的影響。 基於此,本案判決將該四項要素逐一說明,並詳述每一要素如何適用於訓練副本及購買與 盜版所得的資料庫副本,最後給出整體綜合分析。在美國著作權法實務案例中,由最高法 院所揭櫫出來的「轉化性」使用,是判斷是否構成合理使用重中之重的關鍵要素! 1.使用之目的與性質 對於所爭議的使用行為,第一項要素著眼於該使用的「目的與性質」,包括該使用是否具 有商業性,或是否為非營利教育用途。 A. 用於訓練特定LLM的副本 系爭使用行為是為了訓練LLM,以便其接收文字輸入並產生文字輸出,Anthropic複製原告 的著作,藉由訓練過程反覆映射每個文本片段序列之間的統計關係,以訓練模型,就像人 類能理解提示,接收文本輸入並回覆新的文本輸出,該訓練過程中包含「記憶」作品內容 ,將其「壓縮」進模型中,這些模型記住非常多內容。 法院強調,原告未主張任何LLM的輸出內容實際侵害其作品,而Claude加裝額外過濾軟體 ,在使用者與LLM之間設置屏障,以確保不會有侵權內容傳送至使用者端。如果使用者看 到的內容屬於侵權,原告可另案主張;若未來輸出內容變成侵權,原告亦可再告,但目前 的情況並非如此。 質言之,將著作用於訓練生成新文本的LLM,其目的與性質屬於典型的「轉化性使用」。 正如某讀者想成為作家,Anthropic的LLM並非「為了複製原作而訓練」,而是「為了創造 出不同的作品」。若訓練過程中,合理需要將著作複製進入 LLM系統中或以其他方式保留 副本,則此複製行為屬於合理使用範疇。因此,就第一項要素「使用目的與性質」,對訓 練副本而言,傾向支持合理使用。 B. 用於建立中央資料庫的副本 由於Anthropic所購買與非法取得的資料庫副本,在法律上的情況有所不同,法院分別處 理。 (1) 從合法購買紙本轉為數位資料庫副本 Anthropic購買數百萬本紙本書建立「研究資料庫」,其做法是將每本書掃描為數位形式 後銷毀原件,僅將轉換後的數位副本保留於資料庫中供內部使用,而非對外分享或銷售。 依美國著作權法第109(a)條,Anthropic購買紙本書後,取得該書完整的處置權,因此有 權將其副本保留於資料庫中,做為一般用途。而本案涉及之數位副本僅供中央資料庫內部 保存,並未對外公開散布,Anthropic將合法購買的紙本書轉為數位格式的副本,目的在 資料管理與運作效益,符合第一要素中的轉化性使用。若這些數位副本日後用於訓練LLM ,則該行為因訓練目的用途不同亦構成轉化性使用。 法院認為,因為資料的儲存與可檢索性,並非著作本身之創作特質,而屬於作品外部框架 的物理屬性,或關於作品之資訊特性層面。Anthropic原本有權保留紙本書,其選擇改以 複製為數位版本保存,此種紙本轉數位(print-to-digital conversion)格式轉換行為本 身,目的在節省儲存空間並提升檢索便利性,可構成合理使用。此一轉換未新增任何副本 ,且有助於資料管理與快速查詢,其目的並非侵害著作權人之正當權益,因此具備轉化性 。因此,這些數位副本應視同原始購買的紙本書,可合法存放於中央資料庫中。 至於Anthropic作為營利機構,其本身之「商業性質」僅是其中一項考量,但並非第一項 合理使用的決定性要素。該要素的核心在於,是否保護著作權人行使其權利、或選擇不行 使其權利的自由。換句話說,被告是否為營利機構、是否從中獲益,僅具指標性意義,並 非決定性要素。 總之,合理使用第一要素,支持將合法購買的紙本轉為數位副本,但這一結論,不適用於 非法取得之資料庫盜版副本。 (2)盜版資料庫副本(Pirated Library Copies) 在購買實體書建立中央資料庫之前,Anthropic曾下載超過七百萬本盜版書籍副本,未支 付任何費用將其納入資料庫保存,即使後來決定這些書籍不會用來訓練AI(不論是暫時或 永久)。從盜版網站複製教科書,即已構成侵權,無須另作討論(……the person who copies the textbook from a pirate site has infringed already, full stop.)。就 Anthropic的論點:僅因某些副本日後可用於訓練LLM,就主張這些副本納入資料庫可屬於 合理使用,法院不予採納。 法院不認為從可合法購買的網站以盜版形式下載資料,對後續使用有其「合理必要」。沒 有任何法院認為:為撰寫書評、研究書中內容或訓練LLM,而複製本可合法購得的書籍副 本,是正當或必要的。即使這些盜版資料用於具轉化性的用途並立刻被刪除,這種取得行 為本質上,已是不可許可的侵權行為。 欲建立一可供各種使用目的之資料庫,本即為Anthropic取得副本之使用目的。雖然其後 續使用是用來訓練LLM,但不是所有的盜版書籍都實際用於訓練,也不是所有副本都因此 被刪除。將盜版資料作為研究資料庫用,僅因其「可能未來有用」,本身即構成一種使用 行為 – 而這種使用不是轉化性使用。 本案客觀分析結果顯示,Anthropic起初是為建立一通用目的之資料庫而盜版著作,以取 代購買正版來實現同樣目的。值得注意的是,本案並非「來源副本無法購買或借閱」,才 使用盜版來源製作副本,而且本案也非那種「僅因偶然或技術上必要」,才使用盜版來源 製作副本的情況。Anthropic「盜版」本身就是目的:其為了建立中央圖書館,而該資料 庫本可透過合法付費方式購買而建立,卻選擇不付費,儘管後來還是購買部分正本。 本案Anthropic的盜版情況,其複製首批作品時,並沒有任何已授權的正本可作為來源; 這些被複製的全文資料,也並非每一份副本都是訓練LLM所需;甚至有許多初始副本根本 沒被使用或不再使用,卻仍從未被刪除,遑論Anthropic建立的資料庫副本,缺乏任何內 部控管機制以限制存取或使用權限。 小結:此類使用作品訓練LLM行為,合理使用的第一要素 --「使用之目的與性質」極具轉 化性(transformative)-- 甚至可謂極為顯著的轉化。但本案中對於從盜版來源而來的 中央資料庫副本,傾向不構成合理使用。而且,即使 Anthropic事後購買作品之合法副本 ,也不能抹除最初盜版所造成的侵害。 2. 著作的性質 合理使用的第二要素為「原告著作之性質」,其要求:某些類型的著作,較其他類型更接 近著作權法所意圖保護的核心,因此當被使用的是此類著作時,要主張合理使用將更為困 難。譬如:已出版作品相較於未出版作品享有較低的保護;事實性作品(如報導、論述) 比虛構或幻想性作品(如小說、詩歌)受到的保護也略低。但保護較低不等於毫無保護。 即便是不具保護性的事實陳述,其編排若具有創意,仍可超越著作權保護的最低門檻。 本案中,Anthropic已承認所有原告的書籍皆係已出版作品,無論是小說或非小說,皆包 含可受著作權保護的表達內容。法院認為,Anthropic正是基於作品之「表達性價值」選 擇這些書籍,用來建立其中央資料庫,並進一步作為LLM訓練資料之依據。本要素之主要 功能,是輔助評估其他合理使用要素,包括:原作品性質與後續使用性質的差異;複製數 量與後續使用目的之關聯。因此,就所有類型副本而言,第二要素皆不利於主張合理使用 。 3. 使用部分的數量與實質性(Substantiality) 第三項合理使用要素為:「被告使用原著作中多少比例與實質性」。關鍵在於:使用的數 量是否與其複製目的「具有合理關聯」?因此,法院分析:被告對原作品的使用比例;更 重要的,是這些使用是否合理且與其所主張的轉化性使用目的(transformative purpose) 相符。 A. 用於訓練特定LLM模型的副本 被Anthropic納入訓練集的副本之所以被選用,是因其內容完整且包含豐富具保護性的表 達內容,那麼,這些複製行為是否對轉化性使用而言屬於「合理必要」(reasonably necessary)?答案是肯定的。因為此要素重點不單在於「複製多少內容或是否具實質性」 ,而更在於「這些內容在所主張的第二次使用中,被公開揭露給大眾的範圍與實質性,是 否構成對原作主要用途的競爭替代品」。 法院再次強調,原告在本案中,並無指控任何Claude輸出結果的內容,與原告作品之間存 在可追溯之連結。因此,訓練Claude基礎之LLM所使用的複製行為,其合理性尤其明顯。 對此,原告主要反對的理由是,用於訓練的複製範圍過於廣泛:整本書皆被複製,且並非 「絕對必要」。 本案確實存在整部作品被大量複製的情況,而依巡迴上法院之實務見解是「複製整部作品 ,不利於合理使用之認定」,但法院認為,本項要素所需評估的是,那些僅用來達成與作 品原始用途相同之複製行為。而原告並未指控此類複製行為之存在。本案中,Anthropic 被指控的複製(訓練LLM),與書籍原本的一般用途(閱讀、販售)截然不同,兩者幾乎 毫無交集,因此原告的主張無法被採納。 至於「絕對必要」(strictly necessary)方面,法院認為:若某項具有生產性的使用 (productive use),只有在引用某特定作品時才得以實現,則合理使用的強度會提升至最 高點;反之,若該使用在未引用該特定作品時亦可實現,則合理使用的強度降至最低點, 而引用該作品需有特別強而有力的正當理由。本案Anthropic的確可使用其他書籍,或甚 至不使用書籍來訓練其LLM,但Anthropic提出具說服力的解釋,說明為何使用這些作品屬 於「合理必要」。 二造一致同意,訓練LLM 所需的文本量極為龐大。原告主張,既然Anthropic 證明能使用 較小規模的書籍進行訓練,則其理應可以完全不使用書籍 -- 或至少不使用原告書籍。但 法院認為,原告忽略一點:「合理必要」並不等於「絕對必要」。因此,在使用如此大量 作品為合理所需的前提下,實際使用任何一部作品進行訓練,與使用其他作品在合理性上 並無明顯差異。 再者,原告並未主張Claude對外公開的輸出內容,有任何部分構成侵權。因此,儘管原告 的作品因表現優秀而被選入訓練集,但將這些高品質範例用於訓練LLM所帶來的明顯效益 ,並未以揭露作品內容提供予公眾作為代價。因此,訓練過程中所複製的內容,在此情況 下屬於特別合理而且是具說服力的使用。 小結:第三要素傾向支持合理使用 -- 尤其對於訓練LLM的複製資料而言。 B. 用於建立中央資料庫的副本 不過,有一項不同的使用情況 -- 這種區別會影響判斷複製數量與實質性,是否「與複製 目的合理相關」。 (1) 由紙本轉為數位格式的已購圖書副本 對Anthropic已購買的紙本圖書,並將其轉為數位格式後用於資料庫保存,Anthropic已擁 有在資料庫保存該副本的權利。其複製之目的是為了保存該書,並使其在儲存與檢索上更 為便利,而複製整本書正符合此目的所需,並無過度複製,因原始的紙本已被銷毀。因此 ,第三合理使用要素支持該已購買副本轉數位的行為構成合理使用。 (2) 盜版的圖書副本 然而,對於盜版圖書副本,Anthropic並無任何持有權。雖然其聲稱目的是為訓練LLM,但 其實際行為是想要「收集全世界所有書籍」,且即使決定不再用該副本進行訓練,仍保留 該副本,暗示有其他未明確說明的用途。針對這種「收集所有可能對訓練或其他用途有用 書籍」的行為,任何未授權的複製數量幾乎都嫌過多,而Anthropic竟複製數百萬本包括 原告的著作。因此,第三要素對盜版圖書副本不利於合理使用。 (3) 使用對市場或著作權價值的影響 最後一項合理使用要素是:「該使用對著作權作品潛在市場或價值的影響」。當複製的副 本,取代著作權人已經或可能提供的市場需求時,此要素不利合理使用。「第一要素考慮 的是原作品與第二次使用,原則上是否可能互為替代用途,第四要素則關注實際或潛在的 市場替代效應。」 A. 用於訓練特定LLM的副本 法院認為,用於訓練LLM的副本,並未也不會取代原告著作的市場需求,或者說未達到著 作權法認定的重要取代程度。原告自己也承認,訓練LLM並未導致向公眾提供與其著作一 模一樣的複製品,亦未導致侵權抄襲品的公開發表。如果情況非如此,案件結果會截然不 同。若未來有此類事實出現,原告仍可另行提告。 原告主張訓練LLM「可能」會導致大量替代性作品湧現,與其著作競爭 -- 例如事實摘要 、小說改寫、寫作風格模仿等;而且訓練LLM已經或將來會取代一個新興市場 -- 該市場 為著作授權用於LLM訓練(狹義目的)之市場。Anthropic則辯稱,若付費給權利人,交易 成本將超過其技術開發的預期利益,導致其可能放棄與權利人合作,甚至放棄技術開發。 但法院認為,著作權法之目的是促進原創作品的創作,而不是保護作者免於市場競爭。至 於市場或有發展可能,但即使如此,該用途市場並非著作權法保障作者享有之必然市場。 原告援引的案例皆涉及對著作權法真正保護權利的市場損害,而非本案所涉的合理使用類 型,著作權人不能如此期待。 小結:第四合理使用要素支持針對用於訓練的副本主張合理使用。 B. 用於建立中央資料庫的副本 (1) 已購圖書由紙本轉為數位格式副本 本判決假設,Anthropic將已購紙本轉換為數位格式,可能取代其本來會直接向原告購買 數位版的行為(假如無法以二手紙本購得時)。但依第一要素所述理由,這種損失不屬於 著作權法保留給原告的權利範圍,純粹只是格式轉換。 原告進而主張,即使如此,格式轉換仍可能使原告失去銷售正本的機會,因為Anthropic 傳輸數位副本比紙本更容易,且所有格式轉換者狀況相同。經調查,本案並無任何跡象顯 示Anthropic有意於取得資料庫副本後再分發。且若內部中央資料庫副本確實導致進一步 複製或散布,原告仍可就該等後續侵權行為另行求償。格式轉換本身並未剝奪原告的正當 權益。因此,對已購紙本轉數位的行為,本要素呈中性。 (2) 盜版圖書副本 用於建立中央資料庫且來自盜版來源的副本,顯然是以一對一的方式取代了原告書籍的市 場需求。並非所有只是想進行合理使用的人,在此期間都有權擁有完整副本,更無權為了 方便或降低成本而竊取。用於訓練LLM的副本是一回事,而為了組建一方便且通用的資料 庫以備不時之需而蒐集副本,則是完全不同的使用行為。 Anthropic首先辯稱「Claude服務並未透過取代原告傳統市場,而降低或剝奪其作品價值 」,但原告作品的盜版顯然已構成取代市場的行為。其次,Anthropic辯稱其可能只能購 買部分書籍及文本,無法取得其他複製的文本。但本案不涉及那些無法購買的文本,原告 的書籍都是可購買到的,Anthropic事實上後來也買了。最後,Anthropic認為單一本書的 損失太小不足以考慮,但合理使用的判斷須考量:若該行為被認可為合理使用,所產生可 能之結果 -- 即竊用本來可買到的作品(一本書、數百萬本書),只要表面上意圖做所謂 的轉化性使用(書評節錄、LLM訓練等),卻不需負任何責任,這當然不對。因此,本要 素對盜版圖書副本判定不利於合理使用。 法院總體分析之結論 法院最終之總體判斷為,用於訓練特定LLM的副本係合理使用。除了第二項著作性質的要 素外,其餘三項要素均支持此結果,尤其第一項要素給予強烈支持。法院更指出,涉案技 術具高度轉化性,甚至可能是「許多人一生中所見到最具轉化性之技術之一」。而對於被 告將合法購買之紙本書轉換為數位副本的行為,法院亦認定為合理使用。理由在於紙本已 被銷毀,而數位副本並未被再分發,其目的僅為提升資料儲存效率與可搜尋性。 相較之下,用於建立中央資料庫的盜版書籍副本,則不構成合理使用,法院指出,四項要 素全數不利被告。每項著作的使用均需個別提出正當理由,但本案中除方便與成本考量外 ,並無其他合理化之依據。至於部分副本未實際用於模型訓練,僅作保留之用,法院仍不 授予Anthropic簡易判決,因其資料庫副本仍被保存,且工程團隊確實製作過其他副本。 總結以上分析,Anthropic為訓練Claude所使用的書籍,構成極具「轉化性」之使用,屬 於著作權法之「合理使用」。至於Anthropic掃描其所購買的紙本書籍所產生的數位副本 ,雖也構成合理使用,但理由不同於用於訓練的副本。其所以構成合理使用,是因其僅將 為中央資料庫所購買之紙本書籍,轉換成提升資料處理效率之可搜尋的數位副本,並未新 增副本、創作新作品,或再分發既有副本。然而,特別重要的是:要創建一永久、通用性 的資料庫,Anthropic無權使用盜版書籍副本,作為其中央資料庫訓練LLM,其本身不足以 正當化使用侵權著作,也不構成免除責任的合理使用依據。 總之,法院授予Anthropic關於訓練用途為合理使用的簡易判決,也授予紙本轉數位格式 變換為合理使用的簡易判決。但否決Anthropic主張盜版圖書副本,應視同訓練副本的簡 易判決請求。法院接下來,將繼續針對用於建立Anthropic中央資料庫的盜版副本及其造 成的損害(實際或法定賠償,包括故意侵權)進行審判。Anthropic之後購買其先前竊用 的書籍副本,不能免除其竊用責任,但可能會影響法定賠償的程度。對於從資料庫副本衍 生的其他用途副本(非訓練用途),並不排除任何追訴可能。 以上是美國最新判決的介紹,以下是筆者本判決所帶來的啟示。之前美國好幾個法院都做 出中間性程序判決,本案性質上雖也是中間判決,但卻是針對合理使用之實體部分做出的 實質判決,這也是本判決最讓人矚目的原因。因為過去眾多案件的法官,沒有這麼直接清 楚的做出突破性的法律意見,此判決原告可能不服而上訴,但最核心的部分對原告並非不 利,尤其是法官就所謂盜版的繼續審理。無論如何,本判決可說是石破天驚立下標準!值 得關注。 用於訓練特定LLM模型之複製是否具轉化性 -- 盜版 v. 合法版 基於用來訓練特定LLM模型的副本,此法律上是可構成轉化性的使用,但問題是,並非只 要進行訓練LLM所使用的副本都合法!法官在這層面上做了二種區隔,必須先看工具訓練 者所使用的副本來源,如是合法買來的,那麼將這本實體書紙本轉化為數位格式加以訓練 ,是合理使用!反之,只要來源並非合法購得,譬如未經授權在網路上爬取資料的複製, 就非合理使用!但是否即構成違法侵權,法官必須要再審理下去,因為畢竟簡易判決之程 序,不過是順著被告提出動議後所進行的中間裁決而已。 以上法官劃下的判定標準,可從二個角度觀察:首先,所有訓練AI工具的供應商,必須要 了解手上所使用資料來源,法官雖然只提到紙本書,但從法理上看,來源只要是合法購得 的,此時不論是紙本或網路版譬如電子書,只要是買來的,這些素材都可將其作為訓練資 料,而此時進行的複製動作,都可構成合理使用而不侵權。其次,只要是未經合法購買的 版本,也就是判決所謂的盜版副本,則有可能違法,但目前尚不得而知﹗不過基於法院所 述,預估將來可能對被告不利(不過也不排除其他有利的抗辯理由)。最後,是其他在網 路上不收費的素材,是有人自願放在網路上自由讓大家看,這部分法官並沒提到,不過基 於該類素材是自由流通,拿來做LLM模型可能構成合理使用,法理上應做如是觀。 以上之判斷標準,顯然為沉寂多時的出版界注入一強心針,因為對許多新世代來說,幾已 不太看紙本而完全以網路為主,因此法官的判決只要是合法購買紙本書,就可做訓練之用 ,這當然會振興實體出版的銷路,而其所畫下的原則,等於宣示只要合法購買紙本書籍, 就可拆解掃描進行GAI的使用。 不過,必須特別注意的是,本案原告只針對AI工具開發商單純在訓練過程中所進行的複製 提告,而並未將AI吐出來內容作為提告的對象,因此必須把訓練過程中的複製,和結果吐 出來是否可能產生近似結果的複製,加以區別。二者在法律評價上應不同,這可從本判決 多次提到:「如果訓練LLM並未導致向公眾提供與其著作一模一樣的複製品,亦未導致侵 權抄襲品的公開發表。如果情況非如此,案件結果會截然不同….」,似乎暗示將朝合理 使用相反方向發展!但目前還無任何判決,而本案僅止於前者的法律評價。 在目前眾多GAI案件中,原告大多是告訓練過程中的複製,迄今只有下列幾件原告將被告 AI工具產生結果構成近似的部分提告,並舉證做具體比對: 1. New York Times v. Microsoft & OpenAI(請參閱媒體巨擘控告ChatGPT著作侵權案 --New York Times v. Microsoft & OpenAI) ; 2. Concord Music Group, et al., v. Anthropic (請參閱全球首宗音樂出版商控告生成式AI Claude歌詞著作侵權案);3. UMG Recordings v. Suno(請參閱全球首宗生成式AI錄音著作侵權案─美國唱片業巨頭控告 SUNO); 4. UMG Recordings, et al,. v. Uncharted Labs; 5. GEMA v. Suno(請參閱歐 洲首宗生成式AI著作侵權官司─德國音樂仲團GEMA起訴OpenAI和Suno)。但目前尚無任何 判決有待觀察。簡單說,如果被告生成出來的內容,是構成與原告的著作相同或近似時, 那麼此時法院針對合理使用的判斷,可能會有不同的考量。 接下來,再談一下本案最核心的關鍵:為何訓練LLM可構成所謂的轉化性? 本案法官能勇敢的做出全球第一個具轉化性之肯定見解,其立意固然甚佳,但針對其為何 能構成轉化性的分析理由,似尚有可值得補充之處,筆者嘗試補充解釋如下。 GAI轉化性概念之法理思辯 在本案簡易判決之前,有論者認為在AI訓練過程中,是否應重新檢視「複製」這個傳統法 律概念?因AI資料處理經常將文本轉換為「向量」的數值代碼技術,然後用這些向量從大 型語言模型接收輸出回應,此即科技上「向量嵌入」(vector embedding)之應用。因為當 今GAI訓練資料已不可逆,由於電腦看不懂人類的文字圖畫,所以需先做向量嵌入,以編 碼的方式運作讓電腦看懂,好讓電腦可以利用線性代數中做矩陣數值運算,因而「向量嵌 入」操作係不得不進行之動作。 論者遂主張,訓練過程中之複製,本質係為訓練而並非是要去抄襲,因而不屬於傳統複製 ,故倡議為因應AI發展需解除著作權束縛,隨著科技進步將複製概念加以轉換,使訓練過 程中之複製不視為一般違法複製。但問題在於,未經授權爬取作品內容,一般觀念上此網 路上爬取資料的動作即構成重製。因此,GAI案件中被告抗辯「爬取並不等同於複製」 (AI scraping isn’t copying)的觀點,法理上過不了關。 退而求其次,再來檢視合理使用。概念上,從網站爬取資料,縱使涉及過程中之複製,但 其目的只是在拷貝全文後,再「抽取元數據」(abstracting metadata);尤其是關於字和 字、句子和句子之間的關連性與權重、與不受著作權保護之統計模式或詞頻等資訊,結合 這些數據建構AI工具,故從運作過程上看,其所著重的已非對原數據的「單純複製」,而 有其轉化之用途。 換言之,GAI模型中之設計操作,並非單純用來「複製資料」,其主要目地係從資料中, 是在找出著作權表達層面以外之抽象化的知識(如用日本著作權法第30條之4的規定來類 比,就是「不以供自己或他人享受或觀賞作品中所表達之思想或感情為目的」(請參閱因 應生成式AI我國應修改著作權法嗎?─以美國、日本與歐盟模式為例),亦即本判決所謂 :Anthropic的LLM並非「為了複製原作而訓練」,而是「為了創造出不同的作品」。因此 ,AI運作中之向量嵌入雖係複製,但視個案情況可能具有轉化性而得構成合理使用 (transformative fair use)。不過應注意:法院針對判決中所謂盜版副本的部分,雖然 未立即認為就構成侵權,但在駁回被告駁回起訴動議之餘,將來仍會繼續審判,並非當然 構成轉化之合理使用。 總之,本判決是美國首度針對GAI訓練資料之複製,是否構成合理使用的中間實質判決, 未來可能對其他三大模型如GPT、Llama和Gemini等GAI工具的著作權訴訟案產生影響。 心得: 這則報導說明,美國法院於2025年6月做出生成式AI(GAI)訓練資料合理使用的首宗實體 裁定:Anthropic採用合法購買的紙本書轉掃描版並用於訓練,被視為轉化性使用,屬合 理使用;但若從盜版來源複製圖書建立資料庫,則不構成合理使用,仍屬侵權。此判決強 調資料來源合法性關鍵,對AI訓練使用的合理使用界限具有重大指標意義,將深刻影響未 來類似AI著作權訴訟。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 203.145.192.245 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Patent/M.1751600953.A.7DA.html
文章代碼(AID): #1ePqyvVQ (Patent)
文章代碼(AID): #1ePqyvVQ (Patent)