[新聞]美國生成式AI首宗著作侵權案實體判決出爐

看板Patent (專利)作者stpiknow (H)時間11月前 (2025/07/04 11:49)推噓0(0推 0噓 0→)

留言0則, 0人參與討論串1/1

Anthropic 美國生成式AI首宗著作侵權案實體判決出爐 -- Bartz, Graeber & Johnson v. Anthropic 原文網址:http://bit.ly/3Gx8MUp 原文: 前言生成式AI（下稱GAI）席捲全球以來，引爆前所未有的著作權爭訟，目前已有約50件未經授權使用他人著作內容，進行模型訓練之GAI侵權官司。幾乎所有的AI大咖，如OpenAI、 Meta、Google、Nvidia與Anthropic等，無一倖免都被告。以Claude聊天機器人爆紅的 Anthropic，繼全球第一件涉及GAI與音樂歌詞的侵權案Concord Music Group, Inc. et al., v. Anthropic後 (請參閱全球首宗音樂出版商控告生成式AI Claude歌詞著作侵權案 )，2024年8月再度被書籍作家控告，而與過去數宗侵權案僅止於程序判決不同的，北加州法官於2025年6月下旬，就全球GAI模型訓練是否構成合理使用，首度做出突破性的實體判決。本案緣起美國AI公司Anthropic係由前OpenAI員工於2021年1月創立，其核心產品係Claude的AI軟體服務，能迅速產出類似人類的閱讀與寫作回應。之所以能做到此，是因為使用其建立的中央資料庫中挑選書籍與文本，訓練Claude各版本之大型語言模型（以下稱LLM）[1]。為了建構LLM，Anthropic從網路上盜版網站免費下載數百萬本書籍，但也購買了幾百萬本紙本書（其中部分與從盜版網站取得的書籍重複），通常為二手書，然後由其服務供應商將書拆除裝訂、裁切書頁、逐頁掃描成可搜尋的數位檔案，並丟棄紙本書。每本書都被掃描成PDF格式，包含掃描頁面之圖像與可機器辨識之文字。Anthropic因此取得數百萬本書的副本。此外，Anthropic亦複製原告作品內容 -- 例如在複製書評、學術文章、網誌貼文等。 Anthropic將這些複製版匯集成一個「中央圖書資料庫」（central library，以下或稱「資料庫」或「圖書館」)，再從其中挑選不同的書籍編入各種「資料組合」用於訓練其正在開發的LLM以提供其AI服務。即使決定不再使用某些書籍訓練LLM，Anthropic仍將「永久保存」這些資料庫副本作為永久性、通用資源。其中一些書籍為原告Andrea Bartz、Charles Graeber 與 Kirk Wallace Johnson等所撰寫，其作品遭Anthropic自盜版及購得來源中複製，而其所有的複製行為均未經授權，這些作者遂於2024年8月向北加州法院，對Anthropic提起著作權侵害訴訟。彼等指控其訓練迭代LLM時，深知使用書籍是達到訓練LLM最具成效的方法，因此於2021年1或2月間，下載 Books3 --一包含196,640本書籍的線上圖書館，且明知這些書係由未經授權複製而來之盜版品，並繼續下載其他經散布與再分享之盜版資料庫副本。計2021年6月自Library Genesis(LibGen)下載至少5百萬本書；2022年7月自 Pirate Library Mirror(PiLiMi)下載至少2百萬本書，Anthropic均知其為盜版來源。被告訓練書籍經歷之複製階段 Anthropic選定用於訓練的書籍，經歷幾個複製階段，實際上「複製次數」多到其坦承難以估計：首先，從中央資料庫複製出作業用副本以納入訓練數據集。接著進行清洗，移除頁首、頁尾或頁碼等重複或低價值內容，產出「清洗版」副本。若同一本書出現兩次，或經過數據集檢視後認為有刪除理由，Anthropic會在此步驟刪除該書的相關副本。第三階段是「標記化(tokenized)」處理：詞彙被簡化（如 "studying" 轉換為 "study" ），並轉為短字符序列與對應的數值代碼(token)，依 Anthropic自行建立的詞彙表。這些標記化副本在訓練過程中會反覆複製。此過程是一種嘗試錯誤法的統計學習，用以發現文字碎片之間、以及與其他書籍與網站之間的關聯性。第四階段，訓練完成的LLM本身保留所訓練資料的「壓縮版」副本。原告認為此等壓縮版本，實質上等於「記憶」幾乎逐字相同的原文內容。也能讓LLM背誦其所訓練之著作，但訓練後的微調等程序，則不在本案討論範圍內。本案二造爭點與被告之程序反擊原告主張Anthropic至少有兩項使用行為：其一，建立一龐大的中央資料庫；其二，從該資料庫中挑選不同的內容集合來訓練特定的LLM，並逐漸選擇結構更佳、表達更精煉的作品。原告主張，將紙本書掃描成數位檔的行為本身即為侵權，不構成合理使用。回應原告起訴，Anthropic則提出動議，主張使用原告書籍是正當的，要求法院就「合理使用」做出簡易判決（Summary judgment，或稱即席判決）[2]，其認為這些副本在訓練 LLM過程中屬於「合理必要」。因此本案於簡易判決程序中，爭點在於被告對系爭著作之使用，是否構成美國著作權法第107條之「合理使用(fair use)」。原告僅就LLM訓練之複製提告每當LLM被整合至Claude公開版本時，系統會結合軟體過濾使用者的輸入與模型的輸出，但訓練資料並未直接外洩至使用者介面。因此，原告「並未指控」Claude提供或未來可能提供原著作的侵權副本，「也未主張」LLM的輸出內容構成對其作品的侵害，更無證據顯示Claude公開版使用者曾接觸任何侵權內容。原告亦未指稱Anthropic曾將數位化的著作副本，提供外部第三方使用。亦即，原告並未挑戰LLM的輸出結果，而僅質疑其輸入資料。儘管Claude可能協助作者創作出與原告作品水準相當的內容，進而成為潛在競爭者，但原告並未主張Claude所輸出的內容，構成抄襲或明顯的仿冒，亦無從追溯至特定之原告作品。法院也認為，盜版或掃描的書籍被收錄至中央資料庫後，再從其複製轉成訓練資料。這些資料經清洗、標註及壓縮處理後納入LLM。完成訓練的模型不會透過Claude對外輸出任何原著作進一步的副本。即使某些書籍之副本最終未實際用於訓練，Anthropic仍將其保留以供未來其他的用途。在整個過程中，至少有原告的一部作品被納入其中，而Anthropic 計劃永久保存所有資料，即使部分作品最終未被納入LLM訓練。總之，法院指出Anthropic的LLM並未向公眾展現任何特定著作的創意元素，甚至未重現某位作者可辨識的風格表現（即使假設這些風格本身具著作權保護性）。確實，Claude所生成的語法、寫作風格和結構，可能來自數千本作品的綜合學習。但若某人閱讀所有現代經典，並模仿其優美表達是否即構成著作權侵權？當然不是，因著作權法不保護「運作方式、概念或原則」之本身，即便其係由作品體現。本案簡易判決就合理使用四個要素之判斷加州北區聯邦地院William Alsup法官於2025年6月23日做成中間判決，此為本案目前的首次實體裁定(substantive order)。根據著作權法第107條，對受著作權保護之作品的合理使用……例如批評、評論、新聞報導、教學（包括課堂使用的多份影本）、學術或研究之目的，不構成著作權侵害。在判斷特定個案中是否構成合理使用時，法院應考量下列要素： (1) 使用之目的與性質，包括是否具商業性質，或是否為非營利教育目的； (2) 著作的性質； (3) 所使用的部分在整體著作中所占的比例與實質性； (4) 該使用對該著作潛在市場或價值的影響。基於此，本案判決將該四項要素逐一說明，並詳述每一要素如何適用於訓練副本及購買與盜版所得的資料庫副本，最後給出整體綜合分析。在美國著作權法實務案例中，由最高法院所揭櫫出來的「轉化性」使用，是判斷是否構成合理使用重中之重的關鍵要素！ 1.使用之目的與性質對於所爭議的使用行為，第一項要素著眼於該使用的「目的與性質」，包括該使用是否具有商業性，或是否為非營利教育用途。 A. 用於訓練特定LLM的副本系爭使用行為是為了訓練LLM，以便其接收文字輸入並產生文字輸出，Anthropic複製原告的著作，藉由訓練過程反覆映射每個文本片段序列之間的統計關係，以訓練模型，就像人類能理解提示，接收文本輸入並回覆新的文本輸出，該訓練過程中包含「記憶」作品內容，將其「壓縮」進模型中，這些模型記住非常多內容。法院強調，原告未主張任何LLM的輸出內容實際侵害其作品，而Claude加裝額外過濾軟體，在使用者與LLM之間設置屏障，以確保不會有侵權內容傳送至使用者端。如果使用者看到的內容屬於侵權，原告可另案主張；若未來輸出內容變成侵權，原告亦可再告，但目前的情況並非如此。質言之，將著作用於訓練生成新文本的LLM，其目的與性質屬於典型的「轉化性使用」。正如某讀者想成為作家，Anthropic的LLM並非「為了複製原作而訓練」，而是「為了創造出不同的作品」。若訓練過程中，合理需要將著作複製進入 LLM系統中或以其他方式保留副本，則此複製行為屬於合理使用範疇。因此，就第一項要素「使用目的與性質」，對訓練副本而言，傾向支持合理使用。 B. 用於建立中央資料庫的副本由於Anthropic所購買與非法取得的資料庫副本，在法律上的情況有所不同，法院分別處理。 (1) 從合法購買紙本轉為數位資料庫副本 Anthropic購買數百萬本紙本書建立「研究資料庫」，其做法是將每本書掃描為數位形式後銷毀原件，僅將轉換後的數位副本保留於資料庫中供內部使用，而非對外分享或銷售。依美國著作權法第109(a)條，Anthropic購買紙本書後，取得該書完整的處置權，因此有權將其副本保留於資料庫中，做為一般用途。而本案涉及之數位副本僅供中央資料庫內部保存，並未對外公開散布，Anthropic將合法購買的紙本書轉為數位格式的副本，目的在資料管理與運作效益，符合第一要素中的轉化性使用。若這些數位副本日後用於訓練LLM ，則該行為因訓練目的用途不同亦構成轉化性使用。法院認為，因為資料的儲存與可檢索性，並非著作本身之創作特質，而屬於作品外部框架的物理屬性，或關於作品之資訊特性層面。Anthropic原本有權保留紙本書，其選擇改以複製為數位版本保存，此種紙本轉數位(print-to-digital conversion)格式轉換行為本身，目的在節省儲存空間並提升檢索便利性，可構成合理使用。此一轉換未新增任何副本，且有助於資料管理與快速查詢，其目的並非侵害著作權人之正當權益，因此具備轉化性。因此，這些數位副本應視同原始購買的紙本書，可合法存放於中央資料庫中。至於Anthropic作為營利機構，其本身之「商業性質」僅是其中一項考量，但並非第一項合理使用的決定性要素。該要素的核心在於，是否保護著作權人行使其權利、或選擇不行使其權利的自由。換句話說，被告是否為營利機構、是否從中獲益，僅具指標性意義，並非決定性要素。總之，合理使用第一要素，支持將合法購買的紙本轉為數位副本，但這一結論，不適用於非法取得之資料庫盜版副本。（2）盜版資料庫副本（Pirated Library Copies）在購買實體書建立中央資料庫之前，Anthropic曾下載超過七百萬本盜版書籍副本，未支付任何費用將其納入資料庫保存，即使後來決定這些書籍不會用來訓練AI（不論是暫時或永久）。從盜版網站複製教科書，即已構成侵權，無須另作討論（……the person who copies the textbook from a pirate site has infringed already, full stop.）。就 Anthropic的論點：僅因某些副本日後可用於訓練LLM，就主張這些副本納入資料庫可屬於合理使用，法院不予採納。法院不認為從可合法購買的網站以盜版形式下載資料，對後續使用有其「合理必要」。沒有任何法院認為：為撰寫書評、研究書中內容或訓練LLM，而複製本可合法購得的書籍副本，是正當或必要的。即使這些盜版資料用於具轉化性的用途並立刻被刪除，這種取得行為本質上，已是不可許可的侵權行為。欲建立一可供各種使用目的之資料庫，本即為Anthropic取得副本之使用目的。雖然其後續使用是用來訓練LLM，但不是所有的盜版書籍都實際用於訓練，也不是所有副本都因此被刪除。將盜版資料作為研究資料庫用，僅因其「可能未來有用」，本身即構成一種使用行為 – 而這種使用不是轉化性使用。本案客觀分析結果顯示，Anthropic起初是為建立一通用目的之資料庫而盜版著作，以取代購買正版來實現同樣目的。值得注意的是，本案並非「來源副本無法購買或借閱」，才使用盜版來源製作副本，而且本案也非那種「僅因偶然或技術上必要」，才使用盜版來源製作副本的情況。Anthropic「盜版」本身就是目的：其為了建立中央圖書館，而該資料庫本可透過合法付費方式購買而建立，卻選擇不付費，儘管後來還是購買部分正本。本案Anthropic的盜版情況，其複製首批作品時，並沒有任何已授權的正本可作為來源；這些被複製的全文資料，也並非每一份副本都是訓練LLM所需；甚至有許多初始副本根本沒被使用或不再使用，卻仍從未被刪除，遑論Anthropic建立的資料庫副本，缺乏任何內部控管機制以限制存取或使用權限。小結：此類使用作品訓練LLM行為，合理使用的第一要素 --「使用之目的與性質」極具轉化性（transformative）-- 甚至可謂極為顯著的轉化。但本案中對於從盜版來源而來的中央資料庫副本，傾向不構成合理使用。而且，即使 Anthropic事後購買作品之合法副本，也不能抹除最初盜版所造成的侵害。 2. 著作的性質合理使用的第二要素為「原告著作之性質」，其要求：某些類型的著作，較其他類型更接近著作權法所意圖保護的核心，因此當被使用的是此類著作時，要主張合理使用將更為困難。譬如：已出版作品相較於未出版作品享有較低的保護；事實性作品（如報導、論述）比虛構或幻想性作品（如小說、詩歌）受到的保護也略低。但保護較低不等於毫無保護。即便是不具保護性的事實陳述，其編排若具有創意，仍可超越著作權保護的最低門檻。本案中，Anthropic已承認所有原告的書籍皆係已出版作品，無論是小說或非小說，皆包含可受著作權保護的表達內容。法院認為，Anthropic正是基於作品之「表達性價值」選擇這些書籍，用來建立其中央資料庫，並進一步作為LLM訓練資料之依據。本要素之主要功能，是輔助評估其他合理使用要素，包括：原作品性質與後續使用性質的差異；複製數量與後續使用目的之關聯。因此，就所有類型副本而言，第二要素皆不利於主張合理使用。 3. 使用部分的數量與實質性(Substantiality) 第三項合理使用要素為：「被告使用原著作中多少比例與實質性」。關鍵在於：使用的數量是否與其複製目的「具有合理關聯」？因此，法院分析：被告對原作品的使用比例；更重要的，是這些使用是否合理且與其所主張的轉化性使用目的(transformative purpose) 相符。 A. 用於訓練特定LLM模型的副本被Anthropic納入訓練集的副本之所以被選用，是因其內容完整且包含豐富具保護性的表達內容，那麼，這些複製行為是否對轉化性使用而言屬於「合理必要」(reasonably necessary)？答案是肯定的。因為此要素重點不單在於「複製多少內容或是否具實質性」，而更在於「這些內容在所主張的第二次使用中，被公開揭露給大眾的範圍與實質性，是否構成對原作主要用途的競爭替代品」。法院再次強調，原告在本案中，並無指控任何Claude輸出結果的內容，與原告作品之間存在可追溯之連結。因此，訓練Claude基礎之LLM所使用的複製行為，其合理性尤其明顯。對此，原告主要反對的理由是，用於訓練的複製範圍過於廣泛：整本書皆被複製，且並非「絕對必要」。本案確實存在整部作品被大量複製的情況，而依巡迴上法院之實務見解是「複製整部作品，不利於合理使用之認定」，但法院認為，本項要素所需評估的是，那些僅用來達成與作品原始用途相同之複製行為。而原告並未指控此類複製行為之存在。本案中，Anthropic 被指控的複製（訓練LLM），與書籍原本的一般用途（閱讀、販售）截然不同，兩者幾乎毫無交集，因此原告的主張無法被採納。至於「絕對必要」(strictly necessary)方面，法院認為：若某項具有生產性的使用 (productive use)，只有在引用某特定作品時才得以實現，則合理使用的強度會提升至最高點；反之，若該使用在未引用該特定作品時亦可實現，則合理使用的強度降至最低點，而引用該作品需有特別強而有力的正當理由。本案Anthropic的確可使用其他書籍，或甚至不使用書籍來訓練其LLM，但Anthropic提出具說服力的解釋，說明為何使用這些作品屬於「合理必要」。二造一致同意，訓練LLM 所需的文本量極為龐大。原告主張，既然Anthropic 證明能使用較小規模的書籍進行訓練，則其理應可以完全不使用書籍 -- 或至少不使用原告書籍。但法院認為，原告忽略一點：「合理必要」並不等於「絕對必要」。因此，在使用如此大量作品為合理所需的前提下，實際使用任何一部作品進行訓練，與使用其他作品在合理性上並無明顯差異。再者，原告並未主張Claude對外公開的輸出內容，有任何部分構成侵權。因此，儘管原告的作品因表現優秀而被選入訓練集，但將這些高品質範例用於訓練LLM所帶來的明顯效益，並未以揭露作品內容提供予公眾作為代價。因此，訓練過程中所複製的內容，在此情況下屬於特別合理而且是具說服力的使用。小結：第三要素傾向支持合理使用 -- 尤其對於訓練LLM的複製資料而言。 B. 用於建立中央資料庫的副本不過，有一項不同的使用情況 -- 這種區別會影響判斷複製數量與實質性，是否「與複製目的合理相關」。 (1) 由紙本轉為數位格式的已購圖書副本對Anthropic已購買的紙本圖書，並將其轉為數位格式後用於資料庫保存，Anthropic已擁有在資料庫保存該副本的權利。其複製之目的是為了保存該書，並使其在儲存與檢索上更為便利，而複製整本書正符合此目的所需，並無過度複製，因原始的紙本已被銷毀。因此，第三合理使用要素支持該已購買副本轉數位的行為構成合理使用。 (2) 盜版的圖書副本然而，對於盜版圖書副本，Anthropic並無任何持有權。雖然其聲稱目的是為訓練LLM，但其實際行為是想要「收集全世界所有書籍」，且即使決定不再用該副本進行訓練，仍保留該副本，暗示有其他未明確說明的用途。針對這種「收集所有可能對訓練或其他用途有用書籍」的行為，任何未授權的複製數量幾乎都嫌過多，而Anthropic竟複製數百萬本包括原告的著作。因此，第三要素對盜版圖書副本不利於合理使用。 (3) 使用對市場或著作權價值的影響最後一項合理使用要素是：「該使用對著作權作品潛在市場或價值的影響」。當複製的副本，取代著作權人已經或可能提供的市場需求時，此要素不利合理使用。「第一要素考慮的是原作品與第二次使用，原則上是否可能互為替代用途，第四要素則關注實際或潛在的市場替代效應。」 A. 用於訓練特定LLM的副本法院認為，用於訓練LLM的副本，並未也不會取代原告著作的市場需求，或者說未達到著作權法認定的重要取代程度。原告自己也承認，訓練LLM並未導致向公眾提供與其著作一模一樣的複製品，亦未導致侵權抄襲品的公開發表。如果情況非如此，案件結果會截然不同。若未來有此類事實出現，原告仍可另行提告。原告主張訓練LLM「可能」會導致大量替代性作品湧現，與其著作競爭 -- 例如事實摘要、小說改寫、寫作風格模仿等；而且訓練LLM已經或將來會取代一個新興市場 -- 該市場為著作授權用於LLM訓練（狹義目的）之市場。Anthropic則辯稱，若付費給權利人，交易成本將超過其技術開發的預期利益，導致其可能放棄與權利人合作，甚至放棄技術開發。但法院認為，著作權法之目的是促進原創作品的創作，而不是保護作者免於市場競爭。至於市場或有發展可能，但即使如此，該用途市場並非著作權法保障作者享有之必然市場。原告援引的案例皆涉及對著作權法真正保護權利的市場損害，而非本案所涉的合理使用類型，著作權人不能如此期待。小結：第四合理使用要素支持針對用於訓練的副本主張合理使用。 B. 用於建立中央資料庫的副本 (1) 已購圖書由紙本轉為數位格式副本本判決假設，Anthropic將已購紙本轉換為數位格式，可能取代其本來會直接向原告購買數位版的行為（假如無法以二手紙本購得時）。但依第一要素所述理由，這種損失不屬於著作權法保留給原告的權利範圍，純粹只是格式轉換。原告進而主張，即使如此，格式轉換仍可能使原告失去銷售正本的機會，因為Anthropic 傳輸數位副本比紙本更容易，且所有格式轉換者狀況相同。經調查，本案並無任何跡象顯示Anthropic有意於取得資料庫副本後再分發。且若內部中央資料庫副本確實導致進一步複製或散布，原告仍可就該等後續侵權行為另行求償。格式轉換本身並未剝奪原告的正當權益。因此，對已購紙本轉數位的行為，本要素呈中性。 (2) 盜版圖書副本用於建立中央資料庫且來自盜版來源的副本，顯然是以一對一的方式取代了原告書籍的市場需求。並非所有只是想進行合理使用的人，在此期間都有權擁有完整副本，更無權為了方便或降低成本而竊取。用於訓練LLM的副本是一回事，而為了組建一方便且通用的資料庫以備不時之需而蒐集副本，則是完全不同的使用行為。 Anthropic首先辯稱「Claude服務並未透過取代原告傳統市場，而降低或剝奪其作品價值」，但原告作品的盜版顯然已構成取代市場的行為。其次，Anthropic辯稱其可能只能購買部分書籍及文本，無法取得其他複製的文本。但本案不涉及那些無法購買的文本，原告的書籍都是可購買到的，Anthropic事實上後來也買了。最後，Anthropic認為單一本書的損失太小不足以考慮，但合理使用的判斷須考量：若該行為被認可為合理使用，所產生可能之結果 -- 即竊用本來可買到的作品（一本書、數百萬本書），只要表面上意圖做所謂的轉化性使用（書評節錄、LLM訓練等），卻不需負任何責任，這當然不對。因此，本要素對盜版圖書副本判定不利於合理使用。法院總體分析之結論法院最終之總體判斷為，用於訓練特定LLM的副本係合理使用。除了第二項著作性質的要素外，其餘三項要素均支持此結果，尤其第一項要素給予強烈支持。法院更指出，涉案技術具高度轉化性，甚至可能是「許多人一生中所見到最具轉化性之技術之一」。而對於被告將合法購買之紙本書轉換為數位副本的行為，法院亦認定為合理使用。理由在於紙本已被銷毀，而數位副本並未被再分發，其目的僅為提升資料儲存效率與可搜尋性。相較之下，用於建立中央資料庫的盜版書籍副本，則不構成合理使用，法院指出，四項要素全數不利被告。每項著作的使用均需個別提出正當理由，但本案中除方便與成本考量外，並無其他合理化之依據。至於部分副本未實際用於模型訓練，僅作保留之用，法院仍不授予Anthropic簡易判決，因其資料庫副本仍被保存，且工程團隊確實製作過其他副本。總結以上分析，Anthropic為訓練Claude所使用的書籍，構成極具「轉化性」之使用，屬於著作權法之「合理使用」。至於Anthropic掃描其所購買的紙本書籍所產生的數位副本，雖也構成合理使用，但理由不同於用於訓練的副本。其所以構成合理使用，是因其僅將為中央資料庫所購買之紙本書籍，轉換成提升資料處理效率之可搜尋的數位副本，並未新增副本、創作新作品，或再分發既有副本。然而，特別重要的是：要創建一永久、通用性的資料庫，Anthropic無權使用盜版書籍副本，作為其中央資料庫訓練LLM，其本身不足以正當化使用侵權著作，也不構成免除責任的合理使用依據。總之，法院授予Anthropic關於訓練用途為合理使用的簡易判決，也授予紙本轉數位格式變換為合理使用的簡易判決。但否決Anthropic主張盜版圖書副本，應視同訓練副本的簡易判決請求。法院接下來，將繼續針對用於建立Anthropic中央資料庫的盜版副本及其造成的損害（實際或法定賠償，包括故意侵權）進行審判。Anthropic之後購買其先前竊用的書籍副本，不能免除其竊用責任，但可能會影響法定賠償的程度。對於從資料庫副本衍生的其他用途副本（非訓練用途），並不排除任何追訴可能。以上是美國最新判決的介紹，以下是筆者本判決所帶來的啟示。之前美國好幾個法院都做出中間性程序判決，本案性質上雖也是中間判決，但卻是針對合理使用之實體部分做出的實質判決，這也是本判決最讓人矚目的原因。因為過去眾多案件的法官，沒有這麼直接清楚的做出突破性的法律意見，此判決原告可能不服而上訴，但最核心的部分對原告並非不利，尤其是法官就所謂盜版的繼續審理。無論如何，本判決可說是石破天驚立下標準！值得關注。用於訓練特定LLM模型之複製是否具轉化性 -- 盜版 v. 合法版基於用來訓練特定LLM模型的副本，此法律上是可構成轉化性的使用，但問題是，並非只要進行訓練LLM所使用的副本都合法！法官在這層面上做了二種區隔，必須先看工具訓練者所使用的副本來源，如是合法買來的，那麼將這本實體書紙本轉化為數位格式加以訓練，是合理使用！反之，只要來源並非合法購得，譬如未經授權在網路上爬取資料的複製，就非合理使用！但是否即構成違法侵權，法官必須要再審理下去，因為畢竟簡易判決之程序，不過是順著被告提出動議後所進行的中間裁決而已。以上法官劃下的判定標準，可從二個角度觀察：首先，所有訓練AI工具的供應商，必須要了解手上所使用資料來源，法官雖然只提到紙本書，但從法理上看，來源只要是合法購得的，此時不論是紙本或網路版譬如電子書，只要是買來的，這些素材都可將其作為訓練資料，而此時進行的複製動作，都可構成合理使用而不侵權。其次，只要是未經合法購買的版本，也就是判決所謂的盜版副本，則有可能違法，但目前尚不得而知﹗不過基於法院所述，預估將來可能對被告不利（不過也不排除其他有利的抗辯理由）。最後，是其他在網路上不收費的素材，是有人自願放在網路上自由讓大家看，這部分法官並沒提到，不過基於該類素材是自由流通，拿來做LLM模型可能構成合理使用，法理上應做如是觀。以上之判斷標準，顯然為沉寂多時的出版界注入一強心針，因為對許多新世代來說，幾已不太看紙本而完全以網路為主，因此法官的判決只要是合法購買紙本書，就可做訓練之用，這當然會振興實體出版的銷路，而其所畫下的原則，等於宣示只要合法購買紙本書籍，就可拆解掃描進行GAI的使用。不過，必須特別注意的是，本案原告只針對AI工具開發商單純在訓練過程中所進行的複製提告，而並未將AI吐出來內容作為提告的對象，因此必須把訓練過程中的複製，和結果吐出來是否可能產生近似結果的複製，加以區別。二者在法律評價上應不同，這可從本判決多次提到：「如果訓練LLM並未導致向公眾提供與其著作一模一樣的複製品，亦未導致侵權抄襲品的公開發表。如果情況非如此，案件結果會截然不同….」，似乎暗示將朝合理使用相反方向發展！但目前還無任何判決，而本案僅止於前者的法律評價。在目前眾多GAI案件中，原告大多是告訓練過程中的複製，迄今只有下列幾件原告將被告 AI工具產生結果構成近似的部分提告，並舉證做具體比對： 1. New York Times v. Microsoft & OpenAI(請參閱媒體巨擘控告ChatGPT著作侵權案 --New York Times v. Microsoft & OpenAI) ; 2. Concord Music Group, et al., v. Anthropic (請參閱全球首宗音樂出版商控告生成式AI Claude歌詞著作侵權案);3. UMG Recordings v. Suno(請參閱全球首宗生成式AI錄音著作侵權案─美國唱片業巨頭控告 SUNO); 4. UMG Recordings, et al,. v. Uncharted Labs; 5. GEMA v. Suno(請參閱歐洲首宗生成式AI著作侵權官司─德國音樂仲團GEMA起訴OpenAI和Suno)。但目前尚無任何判決有待觀察。簡單說，如果被告生成出來的內容，是構成與原告的著作相同或近似時，那麼此時法院針對合理使用的判斷，可能會有不同的考量。接下來，再談一下本案最核心的關鍵：為何訓練LLM可構成所謂的轉化性？本案法官能勇敢的做出全球第一個具轉化性之肯定見解，其立意固然甚佳，但針對其為何能構成轉化性的分析理由，似尚有可值得補充之處，筆者嘗試補充解釋如下。 GAI轉化性概念之法理思辯在本案簡易判決之前，有論者認為在AI訓練過程中，是否應重新檢視「複製」這個傳統法律概念？因AI資料處理經常將文本轉換為「向量」的數值代碼技術，然後用這些向量從大型語言模型接收輸出回應，此即科技上「向量嵌入」(vector embedding)之應用。因為當今GAI訓練資料已不可逆，由於電腦看不懂人類的文字圖畫，所以需先做向量嵌入，以編碼的方式運作讓電腦看懂，好讓電腦可以利用線性代數中做矩陣數值運算，因而「向量嵌入」操作係不得不進行之動作。論者遂主張，訓練過程中之複製，本質係為訓練而並非是要去抄襲，因而不屬於傳統複製，故倡議為因應AI發展需解除著作權束縛，隨著科技進步將複製概念加以轉換，使訓練過程中之複製不視為一般違法複製。但問題在於，未經授權爬取作品內容，一般觀念上此網路上爬取資料的動作即構成重製。因此，GAI案件中被告抗辯「爬取並不等同於複製」 (AI scraping isn’t copying)的觀點，法理上過不了關。退而求其次，再來檢視合理使用。概念上，從網站爬取資料，縱使涉及過程中之複製，但其目的只是在拷貝全文後，再「抽取元數據」(abstracting metadata)；尤其是關於字和字、句子和句子之間的關連性與權重、與不受著作權保護之統計模式或詞頻等資訊，結合這些數據建構AI工具，故從運作過程上看，其所著重的已非對原數據的「單純複製」，而有其轉化之用途。換言之，GAI模型中之設計操作，並非單純用來「複製資料」，其主要目地係從資料中，是在找出著作權表達層面以外之抽象化的知識（如用日本著作權法第30條之4的規定來類比，就是「不以供自己或他人享受或觀賞作品中所表達之思想或感情為目的」(請參閱因應生成式AI我國應修改著作權法嗎？─以美國、日本與歐盟模式為例），亦即本判決所謂：Anthropic的LLM並非「為了複製原作而訓練」，而是「為了創造出不同的作品」。因此，AI運作中之向量嵌入雖係複製，但視個案情況可能具有轉化性而得構成合理使用 (transformative fair use)。不過應注意：法院針對判決中所謂盜版副本的部分，雖然未立即認為就構成侵權，但在駁回被告駁回起訴動議之餘，將來仍會繼續審判，並非當然構成轉化之合理使用。總之，本判決是美國首度針對GAI訓練資料之複製，是否構成合理使用的中間實質判決，未來可能對其他三大模型如GPT、Llama和Gemini等GAI工具的著作權訴訟案產生影響。心得: 這則報導說明，美國法院於2025年6月做出生成式AI（GAI）訓練資料合理使用的首宗實體裁定：Anthropic採用合法購買的紙本書轉掃描版並用於訓練，被視為轉化性使用，屬合理使用；但若從盜版來源複製圖書建立資料庫，則不構成合理使用，仍屬侵權。此判決強調資料來源合法性關鍵，對AI訓練使用的合理使用界限具有重大指標意義，將深刻影響未來類似AI著作權訴訟。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 203.145.192.245 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Patent/M.1751600953.A.7DA.html