【先探投資週刊電子報】提供潛力股報導,及分析台股、大盤趨勢、個股漲跌。讓你掌握股市,貼近台股趨勢! 【人資e周刊】內容包含最新勞工政策解析、企業管理進修、人事聘用秘方,希望您的疑難雜症能獲得解決之道。
★ 無法正常瀏覽內容,請按這裡線上閱讀
新聞  健康  udn部落格  
2023/12/13 第651期  |  訂閱/退訂  |  看歷史報份  |  能力雜誌網站
精選文章 Books3又引發新議題
 
Books3又引發新議題
文/馮震宇
在OpenAI 推出ChatGPT 形成燎原之勢,與之連動的就是生成式AI 所衍生的著作權糾紛與日俱增。近來最值得重視的發展,就是網路書籍資料庫Books3 衍生的爭議。一方面突顯權利人如何使用著作權影響AI 未來發展,另一方面也促使其他線上訓練資料來源,如:X 平台、Reddit 等開啟收費模式。在這兩種趨勢夾擊之下,生成式AI 面臨爆紅後的首次重大威脅,其結果可能永遠改變整個生成式AI 未來產業的發展與生態。

伴隨全球關注

生成式AI 引起訴訟不斷

ChatGPT 這類的生成式AI 之所以引起全球廣泛關注,就在於生成式AI 有助於重塑大多數客戶體驗,並建立前所未見的全新應用程式,更可協助客戶實質提昇生產力。根據Goldman Sachs 的資料,生成式AI可能推動全球GDP成長7%(約7 兆美元),並在10 年內將全球生產力提昇1.5%。雖然生成式AI 有此等優點,卻從爆紅之日起就訴訟不斷。

一開始,第一波訴訟主要針對自動撰寫程式的CoPilot 和自動生成圖片idJourney、Stability AI 等生成式AI 業者所發起,由於原告不易證明其創作被用於AI 訓練,並未引發太大衝擊。但最新一波訴訟,主要由作家與權利人團體提起,主張OpenAI、Meta 與其他AI 業者未經作者同意,即將作者的書籍用於訓練AI 大型語言模型(LLM)。由於第二波訴訟指控明確,也獲得部分AI 業者的承認,彰顯出可能的法律威脅。從此等訴訟趨勢觀察,生成式AI 發展最大的威脅與最深的祕密,其實就在於其訓練資料的來源。這些一般人所不知悉的AI 訓練資料來源,卻在相關侵權訴訟中,逐漸被揭開神祕面紗。

生成式AI 發展的神祕面紗

遊走侵權的灰色地帶

除了OpenAI 初期揭露其部分訓練資料來自線上Books1 與Books2 資料庫,Meta 與彭博社揭露其訓練資料一部分來自Books3 外,目前AI 業者已經完全不揭露其訓練資料來源,並對客戶推出免於侵權訴訟的保護計畫,以規避可能的法律風險。面對權利人著作權侵權主張,已經從單純的侵權問題,發展到AI 訓練資料壟斷與數據有價,甚至是否應給予權利人一個選擇加入(optin)或退出(opt-out) 機制,其結果也將影響未來AI 產業的發展。

為解決這些問題,美國作家協會先禮後兵,先以公開信方式要求AI 業者給予作者公平合理的補償,進而與作者一起對AI 業者提起侵權集體訴訟。一些廣為AI 業者利用,作為獲取訓練資料來源的網站,如:X 平台、全球最大社群網站之一Reddit 和全球知名技術論壇Stack Overflow 都在今年宣佈,將向AI 開發者收取網站內容訪問的API 接取費用,這也對中小型的AI 業者構成另一種不利的競爭環境。

為降低客戶對侵權風險的擔憂, 微軟、Adobe 與Google 相繼推出對客戶侵權的保護方案。至於歐盟正在進行立法協商的AI 法案(AIAct),基於資料透明性(Transparency) 理由,要求AI 業者應合理揭露其訓練資料來源。由於牽涉複雜,在法院做出明確的判決之前,這些問題仍將持續影響生成式AI 的推廣與應用。

為訓練大型語言模型

AI 業者未經許可大量擷取多方資料

就生成式AI 的運作基礎觀察,生成式AI 與其他人工智慧一樣,都採用機器學習模型技術,這些模型會針對大量資料進行預先訓練,也稱為基礎模型(FM)。以ChatGPT 為代表的類型,通常被稱為大型語言模型(LLM),專門針對以語言為基礎的應用,例如:自動產生摘要、文章、進行分類、提供開放式問答和資訊擷取。

大型語言模型與其他AI 模型不同之處,就在於LLM 包含大量參數(通常在百億、千億以上,例如GPT-3 就包含1,750 億個參數,GPT-4據推測更達到驚人的1.76 兆個參數;Google 在2023 年5 月推出的PaLM 2 大型語言模型也包含5,400 億個參數;Meta 在2023 年7 月推出相當於ChatGPT 的開源AI 語言模型Llama 2 也達百億級別,更將在2024 年推出比擬GPT-4 的(LLM),可透過訓練前接觸各種形式和大量模式的資料,將知識運用於廣泛的環境中。建構LLM,除開發基礎模型,更需不斷改進算法與模型,故AI 業者還需2 個重要因素:

強大的計算能力和大量可用的數據。目前AI 業者都必須向輝達(Nvidia) 購買其AI 晶片以獲得

足夠的算力。縱使如此,還必須獲得大量的訓練資料作為改進算法所需的數據。因此,維基百科(Wikipedia)、各種網路論壇,如Reddit、推特(現為X 平台)的聊天或張貼之內容、各種數位化書籍、學術文章,甚至其他網路上的大型資料庫如LAION 等資源,都成為生成式AI 改善模型的重要資料來源。以廣為各方使用的圖像生成AI Stable Diffusion 為例, 最初模型由慕尼黑大學的CompVis 研究團隊研發, 再由Stability AI、CompVis 與Runway 3 家初創公司合作共同開發,並獲得德國非營利組織LAION 提供包含50 億個資料集的LAION-5B 資料庫支持,其後還與大型圖庫DeviantArt 合作,才能後來居上超越OpenAI 的Dale-E 模型。Stability AI 之所以被Getty Images 控告侵權,最主要的原因,就是Stability AI 在未經同意的情況下, 使用Getty Images 網站上數百萬張圖片訓練Stable Diffusion,許多的圖片都還附有Getty Images 的浮水印,使得證據確鑿。具爭議的影子圖書館

Books3 資料庫 AI 業者不敢說的祕密

在自動生成圖形與程式碼外,為了產生類似人類的答案,ChatGPT 等AI 系統還要運用大量文字資料進行訓練,高品質的生成式AI 更需比網路一般性資料更佳的資料,特別是大量書籍內容進行訓練。

一般而言,若要取得這些高品質資料,往往必須透過談判與授權方式取得。但此種方式不但價格高昂,且往往曠日廢時,因此許多AI 業者就直接利用網路上未經授權的資料集進行訓練。

其中引發目前訴訟的,就是涉及所謂「影子圖書館」的Books2 資料庫與一個包括196,640本純文字格式的書籍、整體文字資料高達37G的Books3 資料庫,目前出現的訴訟也都集中於這兩個資料庫。僅2023 年下半年,就出現4 件集體訴訟

案件。首先在6 月底, 作家Mona Awad 和Paul Tremblay 就向舊金山聯邦法院提起訴訟,指控ChatGPT 非法利用他們的書籍作為大型語言模型的AI 訓練資料。7 月10 日,美國知名喜劇演員Sarah Silverman 與其他2 位作者

Richard Kadrey 與Christopher Golden, 也主張OpenAI 的ChatGPT 和Meta 的大型語言模型Llama,運用從影子圖書館非法獲取的數據集進行訓練,其中包含她的回憶錄作品《The Bedwetter》,並分別在舊金山聯邦地方法院對Meta 和OpenAI 提起侵害著作權的訴訟。

9 月時,集體訴訟更接連出現。首先在9月8 日,知名的普利茲獎得主Michael Chabon、劇作家黃哲倫(David Henry Hwang) 與Matthew Klam 等多位美國作家,共同在舊金山聯邦法院對OpenAI 提告,指控OpenAI 濫用他們的作

品訓練AI 熱門的聊天機器人ChatGPT。緊接著在9 月18 日,美國作家協會與知名暢銷小說家John Grisham、George R.R. Martin 和Jodi Picoult 等17 位會員,也共同向紐約南區地方法院對OpenAI 提起侵權訴訟,要求法院判決OpenAI 應對該協會會員「公然和有害的侵權行為」加以賠償。

除此之外,8 位匿名原告也對Alphabet 及相關公司提起集體訴訟,指控他們開發的生成式AI 機器人Bard 未經授權從網站上抓取資料,涉及資料轉換與盜竊、侵犯隱私、不正當競爭、侵犯著作權,而刪除著作權管理資訊(DRM) 更

違反美國數位千禧年法案(DMCA) 之規定。這些接二連三侵權案件的出現,只是冰山的一角,未來隨著生成式AI 日趨普及,類似的案件將只會更多。

AI 訓練背後的暗黑世界

盜版書籍資料庫

除網站資料外,AI 訓練最主要的高品質訓練內容,其實來自於書籍。根據OpenAI 在2020 年發佈的一篇論文揭露,除網路資料,其有關於書籍的訓練資料部分,主要來自被稱為Books1 與Books2 的2 個資料庫,至於Meta 的Llama 和彭博社的BloombergGPT 也在論文中揭露利用Books3。

雖然這3 個資料庫所包含的書籍內容不是非常明確,但根據學者的研究,Books1 據推測是非營利古騰堡計畫(Project Gutenberg) 的完整內容,包含約70,000 本書。雖然這些書籍的著作權已經消滅,但其中仍有部分書籍附有不得

以商業或非商業目的重製或散佈的限制。至於Books2 的來源更不明確,許多人認為其主要來自網路上著作權的暗黑世界「影子圖書館(Shadow Library)」,也就是盜版書籍網站,如Library Genesis、Z-Library、Sci-Hub 和Bibliotik。雖然著作權團體多次努力將這些影子圖書館掃平,但仍無法如願。例如:2022 年11

月,美國政府就起訴2 名負責Z-Library 營運的俄羅斯公民,並在阿根廷將其等逮捕,但如同知名的海盜灣(The Pirate Bay) 一樣,單純的訴訟或逮捕並無法根除這些網站。

Books3 則是目前用於訓練AI 最知名的盜版書籍資料庫,由知名開源AI 支援者ShawnPresser 透過OpenAI 發佈的論文進行逆向工程後彙而得。Presser 自稱之所以要發佈Books3最主要原因,就是考慮OpenAI GPT-3 已經享有先發優勢與大筆資金的情況下,能否讓其他競爭者也能與OpenAI 競爭並重新創造一個類似的

LLM ?也就是他創建Books3 資料集的目的,就是要為沒有龐大財力與資料的研究人員與獨立的AI 開發者提供「OpenAI 級訓練資料」,並為其等創造一個與大型AI 公司公平競爭的機會。他擔心,若沒有Books3 的訓練資料,未來的AI

世界將會由OpenAI, Google, Meta 等大型AI公司壟斷。

人工智慧所承諾的未來

用偷來的文字所撰寫

由於Books3 資料最多,因此不僅僅是大型AI 公司、甚至學術研究機構也透過AcademicTorrents 利用Books3 的資料集進行AI 訓練。而開源的EleutherAI 更基於Books3 數據集,再加上其他各種來源的資料,如YouTube 視頻字幕、歐洲議會的檔案和發言逐字稿、英文維基百科、甚至一些公司的電子郵件(例如知名

能源公司Enron 的員工在公司2001 年破產前發送和接收的電子郵件)整理成另一個大型檔案集The Pile。

大西洋雜誌(The Atlantic) 在8 月所推出的一系列調查報導也證明,這些大型語言模型確實在訓練AI 的過程,未經作者同意大量使用來自Books3 的盜版書籍作為AI 訓練資料,這些AI 程式也正改變人類閱讀、學習和交流的方式。因此該雜誌很明確表示,「人工智慧所承諾的未來,是用偷來的文字撰寫的」,因為Books1,Books2, Books3 除了被Meta 與OpenAI 用來訓練其LLM 外,也被其他生成式AI 系統,如彭博社(Bloomberg) 的BloombergGPT、EleutherAI

的GPT-J( 一種流行的開源模型)用於訓練其AI,甚至已經用於目前嵌入網站中的其他生成式AI 程式。

事實上, 彭博社證實該公司確實利用Books3 用於訓練BloombergGPT 的初始模

型,但卻表示:「我們不會將Books3 資料集包含在用於訓練未來版本 BloombergGPT 的資料來源中」。

由於現階段有關著作權的問題滋生,為此美國作家協會(The Authors Guild) 特別在2023 年7 月向生成式AI 企業發表了一封公開信, 要求Alphabet、OpenAI、Meta 和微軟等公司,就訓練AI 使用受著作權保護的資料應獲得作者之同意,並應給予公平補償。這封公開信一經發表,就獲得超過1 萬名作家連署,

而作家協會在人氣大漲的情況下,更進一步與Eleuther 就The Pile 授權議題進行探討,其目的在於確保未來AI 業者只使用經授權的資料集

進行訓練。

丹麥著作權團體Right Alliance 除希望以訴訟方式讓Books3 從網路上消失,還將訴訟目標瞄準使用Books3 的AI 業者。一旦其策略成功,可能會改變生成式AI 的產業以及誰控制生成式AI 的問題。

這些動作與相關訴訟的出現,已經造成一個現象,就是AI 業者對於其所使用的訓練資料更形保密,這也將使權利人更難得知其創作是否被作為訓練資料,也更難對這些AI 業者提起訴訟並證明有侵權的情事發生。

至於AI 業者是否會因使用未授權資料進行AI 訓練,就當然構成著作權的侵權,仍處於未定的狀態。這是因為雖未經授權而利用是一個重要考慮因素,但仍要考慮業者是否有故意或重大過失,權利人團體若要證明仍有一定的難

度,更何況業者都會主張合理使用為抗辯。雖然在美國最高法院於Andy Warhol Foundation v. Goldsmith 一案,大幅收緊合理使用的適用範圍,將第一個判斷標準重新聚焦在使用目的及性質上,並將商業利用(Commercialism) 與否,重

新納入權衡範圍,但AI 業者的利用是否就一定構成侵權,仍需就合理使用其他因素加以綜合判斷,目前尚未能確定。

在法律渾沌不明的當下,雖然生成式AI 有其應用與經濟上的重要性,但若要讓生成式AI能真正發揮功能,首先就要消弭其所衍生的侵權訴訟問題,否則在大量訴訟的壓力下,任何創新的技術都無法廣泛推廣和應用,也無怪乎業界紛紛提出保護客戶免於訴訟的方案,以推廣其產品。例如,微軟就宣佈將對Copilot 產品的企業客戶承擔法律責任,Adobe 也宣佈在著作權、隱私權以及公開權方面保護使用Firefly產品的企業客戶。Google 則更進一步在10 月13 日,在其部落格中宣佈,該公司將對其訓練

資料和基礎模型的輸出負責,如果用戶因使用其基礎模型後獲得的結果而被起訴,Google 將保護用戶。但根據Google 之聲明,僅對使用Duet AI、Vertex AI 的搜尋、對話與部分API 的用戶承擔法律責任,雖然將保護對象擴大到企業

用戶以外的一般用戶,但Google 卻未將對最常被使用的Bard 搜尋工具包括在內,且這種保護「僅適用於您沒有試圖故意創建或使用生成的輸出來侵犯他人權利的情況。」

Books3 資料庫引發的影響漣漪

將重塑未來AI 世界的發展

這場由Books3 資料庫所引發的著作權爭議,其可能影響的範圍,已不限於傳統的著作權侵權問題,還產生其他的問題,例如:資料透明化(Data Transparency)、是否會限制中小型業者與學術研究人員進入AI 賽道、權利人是否有權選擇將其創作移除等問題,其結果將可能重塑未來AI 世界的發展。

再加上部分國家如以色列、日本、英國等已經透過法律放寬資料探勘(Text and DataMining, TDM) 作為著作權的例外,也因此知名著作權學者Pam Samuelson 教授擔心,這種國際間對AI 訓練規範的不一致,將導致創新套利(Innovation Arbitrage) 的情況發生,也就是AI業者將會選擇到對AI 訓練規範較寬鬆的國家去發展。雖然人類已經進入AI 時代,但由於智慧財產權也進入數位化階段,並以位元的形式快速流動,因此Books3 的爭議反而突顯在AI 時代,控制內容遠比以往任何時候都更加重要;但若嚴加控制,可能出現不同的問題與結果。如

何選擇仍將有賴於未來法規(例如:歐盟AI 法案)或法院判決,但Books3 的爭議與訴訟則已經點出問題的所在,其結果也將永遠影響未來AI 產業的發展與AI 世界的應用。在生成式AI持續進步與發展離不開受著作權保護的內容,若

要准許AI 進一步發展,就一定要找到一個平衡權利人與AI 利用的機制。(本文作者為政治大學法學院暨商學院合聘教授)

【更多精彩內容請見《能力雜誌》2023年11月號,非經同意不得轉載、刊登】

 
  免費電子報 | 著作權聲明 | 隱私權聲明 | 聯絡我們