文字生成式人工智慧(Gen AI)軟體 — Claude的開發公司Anthropic PBC,未經授權使用數百萬本他人書籍著作用以訓練Claude,因而被控告侵害書籍著作權。其是否能主張合理使用?美國加州北區法院William Alsup法官做出美國第一起判決(初步即決判決),認為:(1)用於訓練AI軟體用途可構成合理使用;(2)購買實體書數位化建置通用資料庫構成合理使用;(3)盜版取得的數百萬本書籍檔案放在資料庫中則不構成合理使用。
圖片來源 : shutterstock、達志影像
被告Anthropic PBC乃開發Claude的公司
被告Anthropic PBC是一家開發AI軟體的公司,由前OpenAI員工於2021年1月創立。其核心產品是一項名為Claude的Gen AI軟體[1]。
在2021年1、2月時,Anthropic共同創辦人Ben Mann下載了Books3資料集 — 一個包含196,640本書的線上資料庫。於同年6月,Ben Mann以同樣方式從Library Genesis(LibGen)下載了至少5,000,000本書。2022年7月,Anthropic又從Pirate Library Mirror(PiLiMi)下載了至少2,000,000萬本書。就此,Anthropic共非法下載超過7,000,000本書,其中包含每位原告作者至少2本涉訟著作的複本[2]。
之後,為了尋找獲取書籍的新途徑,Anthropic於2024年2月聘請Google Books計畫前合作夥伴的部門主管Tom Turvey。Anthropic斥資數千萬美元,購買數百萬本的實體書籍後,再將這些書籍拆除書脊、裁切書頁,並掃描成數位格式,被破壞的原始紙本書籍則被丟棄[3]。
Anthropic將二種來源的書籍複印檔建置了一個中央資料庫,主要目的是用於訓練其大型語言模型(LLM)。每一個經過完整訓練的LLM本身都保留了其訓練資料的「壓縮」複本。實質上,每個LLM所建立的關聯映射(mapping)極為完整,其幾乎逐字「記憶」這些用於訓練的著作。因此,若要求這些訓練完成的LLM背誦其訓練過的著作,它們能夠做到[4]。
然而,訓練用複本的流通僅止於此,並未擴散至外部市場。另外,當每一LLM被整合至Claude的對外版本時,還會配合其他軟體,對使用者輸入給LLM的內容進行過濾,並對LLM回應給使用者的輸出結果也加以過濾[5]。
最後,即便Anthropic決定某些盜版書籍或掃描書籍的複本將完全不再用於訓練Claude,或未來永不使用,該公司仍會保留這些中央「研究資料庫」或「通用資料區」作為其公司內部的「硬性資源」,以供其他用途或未來用途使用[6]。
原告為三位書籍作者
此起判決原告是Andrea Bartz、Charles Graeber與Kirk Wallace Johnson三位書籍作者(由Bartz代稱之),主張其書籍著作權被Anthropic侵權[7]。2024年8月向加州北區地院提起本件之集體訴訟[8]。
Anthropic則提出動議,請求在集體訴訟認證之前,提前審理有關合理使用(fair use)的簡易判決動議[9]。本案法官William Alsup於2025年6月23日做出對「合理使用」議題的即決判決。法官對本案的用途區分為二項 — 第一用途是Anthropic為了訓練LLM,第二用途則是Anthropic為了建立中央資料庫(保留作為未來其他用途)。
【本文未完,完整內容請見《北美智權報》384期:從LABUBU全球爆紅看泡泡瑪特的IP與維權策略】
※如欲轉載本文,請與北美智權報聯絡