按Enter到主內容區
:::

經濟部智慧財產局

:::
國際動態

訓練生成式AI使用資料之適法性分析,以GEMA v. OpenAI一案為例

字型大小:

  德國慕尼黑第一地方法院(Landgericht München I)於2025年末作出一份指標性的判決,肯認生成式AI在模型訓練過程中,若把受著作權保護的歌詞「記憶」,且在後續輸出中僅透過簡單的提示詞即可完整重現,即構成對著作權法上「重製權」以及「公開傳輸權」之侵害,也說明在何種情況下才得以適用「文字及資料探勘」(Text and Data Mining, TDM)豁免。

  本案緣起是德國音樂著作權集管團體GEMA對OpenAI集團提起訴訟,主張OpenAI將九首德國著名歌曲的歌詞在未經授權的情況下,納入其大型語言模型的訓練資料中,且一般使用者不須透過太複雜的提示詞,即可於OpenAI所提供的生成式AI中重現,此舉構成對著作權的侵害。原告為了證明輸出內容與訓練資料之間的關聯,使用相當直接的提示詞,例如「某首歌的歌詞是什麼」、「某首歌的副歌是什麼」等,並且在部分測試中刻意關閉線上搜尋功能,以凸顯輸出內容並非來自線上即時檢索,而是來自於模型本身。

  法院認為本案討論的重點,在於明確區分為了技術性轉換或資料分析而進行的「暫時重製」,抑或是實際保存在模型中的「永久重製」。為此,法院將AI模型的訓練與運作過程劃分為三個不同的階段:

一、 第一階段,開發者擷取訓練素材並轉換為電腦可讀取的格式,以建立初始的訓練資料集。

二、 第二階段,開發者會分析這些資料並加上標記,以協助系統辨識、分類、管理內容,這個階段是實質訓練模型的過程。

三、 最後是第三階段,一般使用者透過輸入提示詞(Prompts)與接收AI輸出(Outputs),實際使用已訓練完成的模型。

  就著作權法上「重製」的認定,法院援引歐盟法院Infopaq一案所確立的概念,認為「重製」應從寬認定,只要作品內容以某種方式被記憶、嵌入並可再現,即可能構成重製。因此,本案中若歌詞已存在於模型的資料庫中,且能透過簡單的提示詞被輸出,法院認為即非單純技術性轉換或分析,而可能涉及著作權法所規範的重製行為。

  關於文字及資料探勘豁免,法院亦同樣畫出明確的界線,指出文字及資料探勘豁免只能適用於第一階段,也就是為了分析資料而進行的必要、且暫時性地複製與轉換;若作品內容已在第二階段進一步嵌入模型,並侵害權利人的潛在利益,就不能再主張此豁免。

  最後在侵權責任的歸屬上,法院沒有接受被告所稱OpenAI僅為中介平台的抗辯,因為OpenAI主動選擇了這些歌詞作為訓練素材、設計並訓練模型,直接導致這些受著作權保護的客體被永久「嵌入」模型訓練資料庫,只須透過簡單的提示詞即可重現,因此一般使用者不應被追究主要責任。鑑於OpenAI對訓練素材的選擇、模型設計及輸出機制具實質控制力,因此被告必須承擔完全責任。

  本案的重要性不止是慕尼黑第一地方法院首次就生成式AI訓練是否涉及著作侵權作出判斷,更重要的是法院提出一個相當清楚、可供操作的架構,藉由區分AI訓練流程的不同階段,論述這些訓練素材使用資料的合法基礎與模型輸出內容的侵權界線,並把服務提供者的控制程度納入判斷侵權責任的核心,對後續生成式AI訓練模型使用素材,與著作權密不可分的爭議而言,是一份具相當代表性的初審判決。

  • 發布日期:115-04-01
  • 更新日期: 115-04-01
  • 發布單位:國際及法律事務室
  • 點閱次數:94
回頁首