經濟部智慧財產局－國際動態－訓練生成式AI使用資料之適法性分析，以GEMA v. OpenAI一案為例

國際動態

訓練生成式AI使用資料之適法性分析，以GEMA v. OpenAI一案為例

字型大小：

　　德國慕尼黑第一地方法院（Landgericht München I）於2025年末作出一份指標性的判決，肯認生成式AI在模型訓練過程中，若把受著作權保護的歌詞「記憶」，且在後續輸出中僅透過簡單的提示詞即可完整重現，即構成對著作權法上「重製權」以及「公開傳輸權」之侵害，也說明在何種情況下才得以適用「文字及資料探勘」(Text and Data Mining, TDM)豁免。

　　本案緣起是德國音樂著作權集管團體GEMA對OpenAI集團提起訴訟，主張OpenAI將九首德國著名歌曲的歌詞在未經授權的情況下，納入其大型語言模型的訓練資料中，且一般使用者不須透過太複雜的提示詞，即可於OpenAI所提供的生成式AI中重現，此舉構成對著作權的侵害。原告為了證明輸出內容與訓練資料之間的關聯，使用相當直接的提示詞，例如「某首歌的歌詞是什麼」、「某首歌的副歌是什麼」等，並且在部分測試中刻意關閉線上搜尋功能，以凸顯輸出內容並非來自線上即時檢索，而是來自於模型本身。

　　法院認為本案討論的重點，在於明確區分為了技術性轉換或資料分析而進行的「暫時重製」，抑或是實際保存在模型中的「永久重製」。為此，法院將AI模型的訓練與運作過程劃分為三個不同的階段：

一、第一階段，開發者擷取訓練素材並轉換為電腦可讀取的格式，以建立初始的訓練資料集。

二、第二階段，開發者會分析這些資料並加上標記，以協助系統辨識、分類、管理內容，這個階段是實質訓練模型的過程。

三、最後是第三階段，一般使用者透過輸入提示詞（Prompts）與接收AI輸出（Outputs），實際使用已訓練完成的模型。

　　就著作權法上「重製」的認定，法院援引歐盟法院Infopaq一案所確立的概念，認為「重製」應從寬認定，只要作品內容以某種方式被記憶、嵌入並可再現，即可能構成重製。因此，本案中若歌詞已存在於模型的資料庫中，且能透過簡單的提示詞被輸出，法院認為即非單純技術性轉換或分析，而可能涉及著作權法所規範的重製行為。

　　關於文字及資料探勘豁免，法院亦同樣畫出明確的界線，指出文字及資料探勘豁免只能適用於第一階段，也就是為了分析資料而進行的必要、且暫時性地複製與轉換；若作品內容已在第二階段進一步嵌入模型，並侵害權利人的潛在利益，就不能再主張此豁免。

　　最後在侵權責任的歸屬上，法院沒有接受被告所稱OpenAI僅為中介平台的抗辯，因為OpenAI主動選擇了這些歌詞作為訓練素材、設計並訓練模型，直接導致這些受著作權保護的客體被永久「嵌入」模型訓練資料庫，只須透過簡單的提示詞即可重現，因此一般使用者不應被追究主要責任。鑑於OpenAI對訓練素材的選擇、模型設計及輸出機制具實質控制力，因此被告必須承擔完全責任。

　　本案的重要性不止是慕尼黑第一地方法院首次就生成式AI訓練是否涉及著作侵權作出判斷，更重要的是法院提出一個相當清楚、可供操作的架構，藉由區分AI訓練流程的不同階段，論述這些訓練素材使用資料的合法基礎與模型輸出內容的侵權界線，並把服務提供者的控制程度納入判斷侵權責任的核心，對後續生成式AI訓練模型使用素材，與著作權密不可分的爭議而言，是一份具相當代表性的初審判決。

訓練生成式AI使用資料之適法性分析，以GEMA v. OpenAI一案為例

相關連結