생성형 AI를 둘러싼 저작권 전쟁이 2025년을 지나며 새로운 국면에 들어섰다. 2024년까지만 해도 핵심 질문은 비교적 단순했다. AI 기업이 인터넷에서 수집한 책, 기사, 음악, 이미지, 영상 등을 모델 학습에 사용하는 것이 공정이용인가. 저작권자의 허락 없이 수많은 저작물을 복제해 학습 데이터로 쓰는 행위가 법적으로 허용될 수 있는가.

그러나 2025년의 흐름은 이 질문을 한 단계 더 밀어붙였다. 이제 쟁점은 단순히 “AI 학습이 공정이용인가”에 그치지 않는다. 해적판 데이터셋을 사용했는가, 원저작물과 대체 관계에 있는 결과물을 생성했는가, 검색증강생성(RAG) 과정에서 원문을 복제·요약·대체했는가, 음원과 영상의 기술적 보호조치를 우회했는가, 그리고 AI 기업과 저작권자가 어떤 방식으로 라이선스 시장을 만들 것인가로 확장됐다.

Copyright Alliance가 정리한 2025년 AI 저작권 소송 회고에 따르면, 저작권자들이 AI 기업을 상대로 제기한 침해 소송은 70건을 넘어섰다. 2024년 말 약 30건 수준이던 소송 규모가 2025년 들어 두 배 이상 늘어난 셈이다. 이 숫자는 생성형 AI 산업이 더 이상 기술 실험 단계가 아니라, 창작물 시장 전체와 충돌하는 산업 질서의 문제로 넘어갔음을 보여준다.

2025년의 분기점, Bartz v. Anthropic

2025년 AI 저작권 소송에서 가장 큰 사건은 단연 Bartz v. Anthropic이었다. 이 사건에서 미국 캘리포니아 북부연방지방법원은 6월 23일 약식판결 단계에서 Anthropic의 대규모 언어모델 학습이 “매우 변형적”이라며 공정이용에 해당한다고 판단했다. 겉으로 보면 AI 기업에 유리한 판결처럼 보였다.

하지만 사건은 거기서 끝나지 않았다. Anthropic은 모델 학습 자체에 대해서는 공정이용 판단을 일부 얻었지만, 훈련 데이터 확보 과정에서 해적판 도서 파일을 다운로드했다는 문제에 직면했다. Copyright Alliance 자료에 따르면 Anthropic은 Library Genesis와 Pirate Library Mirror 같은 해적판 라이브러리에서 내려받은 48만2460권의 책과 관련해, 2025년 9월 원고 측과 15억 달러 규모의 합의에 도달했다.

이 합의는 AI 저작권 소송의 흐름을 바꾼 상징적 사건이다. 법원이 AI 학습의 변형성을 인정하더라도, 그 학습에 쓰인 데이터가 해적판이라면 별도의 막대한 책임이 발생할 수 있다는 메시지를 던졌기 때문이다. AI 기업이 “학습은 공정이용”이라고 주장하더라도, “무엇을 어디서 어떻게 가져왔는가”라는 질문을 피할 수 없게 된 것이다.

15억 달러라는 숫자도 중요하다. 이는 AI 기업이 저작권자에게 보상할 수 있는 경제적 능력이 있다는 저작권자 측 주장을 강화했다. Copyright Alliance는 이 합의를 두고 AI 기업이 혁신과 경쟁을 계속하면서도 저작권자에게 보상할 수 있다는 점을 보여준 사례로 평가했다. 이 해석에는 저작권자 단체의 관점이 반영돼 있지만, 적어도 시장에 던진 신호는 분명했다. AI 학습 데이터는 더 이상 공짜 원료로 취급되기 어렵다.

Kadrey v. Meta, 공정이용 논쟁의 ‘좁은 승리’

Bartz 판결 이틀 뒤인 6월 25일, 같은 캘리포니아 북부연방지방법원에서는 Kadrey v. Meta 사건의 약식판결 명령이 나왔다. 이 사건에서도 법원은 Meta의 LLM 학습을 “고도로 변형적”이라고 보고 공정이용에 해당한다고 판단했다.

그러나 이 판결 역시 AI 기업의 완전한 승리로 보기는 어렵다. 법원은 결정의 범위가 원고 측 증거 부족에 기반한 매우 좁은 판단이라는 점을 분명히 했다. 특히 중요한 대목은 법원이 생성형 AI가 저작권자의 실제 시장과 잠재 시장에 미칠 간접적 대체 효과를 길게 논의했다는 점이다.

이는 향후 소송에서 저작권자 측이 어떤 전략을 취해야 하는지를 보여준다. 단순히 “내 작품이 학습에 쓰였다”는 주장만으로는 부족할 수 있다. AI 모델이 원저작물 시장을 어떻게 대체하는지, 저작권자가 AI 학습 데이터 라이선스 시장에서 어떤 손해를 입는지, AI 출력물이 창작물의 수요를 어떻게 잠식하는지를 구체적으로 입증해야 한다.

Kadrey 사건은 또 다른 쟁점도 남겼다. Meta가 BitTorrent를 통해 책을 다운로드하는 과정에서 동시에 저작물을 업로드, 즉 시딩했는지 여부다. 만약 대규모 해적판 저작물 배포가 인정된다면, Anthropic 사건과 유사하게 막대한 손해배상 또는 합의로 이어질 수 있다. 따라서 Kadrey 사건은 공정이용 판단의 좁은 승리와 해적판 유통 책임이라는 잠재적 위험이 동시에 남아 있는 사건으로 볼 수 있다.

음악 AI 소송, ‘합의와 라이선스’의 방향을 만들다

2025년 또 하나의 큰 흐름은 음악 AI 분야의 합의와 라이선스 계약이다. Universal Music Group은 10월 29일 AI 음악 생성기업 Udio와 저작권 침해 소송을 합의했다고 발표했다. 합의에는 보상뿐 아니라 UMG의 녹음·출판 카탈로그에 대한 라이선스 계약도 포함됐다. 양측은 2026년 정식 허가를 받은 음악으로 학습된 생성형 AI 구독 서비스를 출시하는 방향으로 협력하기로 했다.

중요한 점은 이 라이선스 구조가 아티스트의 옵트인을 기반으로 한다는 설명이다. 저작권자나 창작자가 자신의 작품을 AI 학습과 생성 서비스에 사용할지 직접 선택하는 구조다. 이는 AI 기업들이 선호해온 “원하지 않으면 빠져나가라”는 옵트아웃 방식과 정반대다. 저작권자 측에서는 옵트인이야말로 창작자의 통제권을 보장하는 방식이라고 본다.

Warner Music Group도 Udio와 유사한 합의를 체결했다. 이어 Warner는 Suno와도 합의했다. Suno는 2026년 “더 발전된 라이선스 기반 모델”을 출시하고, 기존 모델은 단계적으로 폐기하는 방향을 제시했다. 발표에 따르면 아티스트와 송라이터는 자신의 이름, 이미지, 초상, 목소리, 작곡물이 AI 생성 음악에 어떻게 사용될지 통제할 수 있게 된다.

이 흐름은 음악 산업에서 중요한 전환을 뜻한다. AI 음악 생성기업과 대형 음반사가 법정에서 끝까지 싸우기보다, 라이선스 기반 서비스로 이동하는 길을 찾기 시작했다는 의미다. 저작권 소송이 단지 손해배상 청구가 아니라, 새로운 AI 콘텐츠 시장의 협상 도구로 작동하기 시작한 것이다.

다만 모든 소송이 합의된 것은 아니다. Udio 사건에서 Sony는 아직 합의에 이르지 않았고, 독립 음악가들의 소송도 계속되고 있다. 2025년에는 Tony Justice를 비롯한 독립 음악가들이 Suno와 Udio를 상대로 훈련 데이터 무단 사용과 원곡 복제 문제를 제기했다. 또 다른 음악가 집단은 Udio, Suno, 중국 기업 Kunlun Tech를 상대로 유사한 소송을 제기했다. 특히 이들 사건에는 YouTube에서 음원을 추출하는 이른바 스트림 리핑과 DMCA 위반 주장이 포함돼 있어 2026년 음악 AI 소송의 새로운 전략으로 주목된다.

OpenAI 다중소송, 2026년의 핵심 전장

2025년에는 OpenAI를 상대로 한 다수의 문학·뉴스 미디어 저작권 소송이 뉴욕 남부연방지방법원으로 중앙집중화됐다. 이른바 In re OpenAI 다중지구소송이다. New York Times v. OpenAI, Authors Guild v. OpenAI 등 굵직한 사건들이 여기에 포함돼 있다.

이 사건들은 형식상 완전히 하나로 병합된 것은 아니지만, 사전심리 절차와 증거개시, 약식판결 쟁점에서 서로 영향을 줄 수 있다. Copyright Alliance 자료는 2026년에 OpenAI 관련 소송에서 일부 합의 가능성도 보고됐다고 전한다. 만약 OpenAI와 주요 출판·언론사 사이에서 대형 합의나 라이선스 계약이 나온다면, 이는 LLM 산업 전체의 저작권 협상 기준을 바꿀 수 있다.

OpenAI 소송의 중요성은 단순히 한 기업의 법적 위험 때문이 아니다. OpenAI는 생성형 AI 대중화의 상징이다. ChatGPT 이후 LLM 산업이 폭발적으로 성장한 만큼, OpenAI 사건에서 나오는 법원의 판단은 AI 학습 데이터, 뉴스 기사 활용, 책 데이터셋, 출력물의 대체성, 데이터 라이선스 시장에 대한 법적 기준을 형성할 가능성이 크다.

영화 스튜디오, AI 이미지·영상 생성기를 겨누다

2025년에는 할리우드 주요 스튜디오도 본격적으로 소송에 나섰다. Disney와 Universal은 6월 Midjourney를 상대로 중앙캘리포니아연방지방법원에 소장을 제출했다. 이들은 Midjourney가 Marvel, Star Wars 등 유명 프랜차이즈 캐릭터의 복제물과 파생물을 생성·공개·배포한다고 주장했다.

9월에는 Warner Bros. Entertainment도 Midjourney를 상대로 유사한 소송을 제기했다. Warner 측은 Midjourney가 저작권 보호 캐릭터를 포함한 침해 출력물을 생성할 수 있다는 점을 알고도 이를 방지할 충분한 보호장치를 마련하지 않았다고 주장했다. 11월 4일에는 Warner 사건이 Disney·Universal 사건과 병합됐다.

영화 스튜디오 소송의 의미는 크다. 그동안 AI 저작권 소송의 중심은 책, 뉴스 기사, 음악이었다. 그러나 영화사는 캐릭터, 세계관, 시각 이미지, 브랜드 자산을 보유한다. 이미지·영상 생성 AI가 특정 캐릭터와 스타일을 모방해 출력물을 만들 수 있다면, 이는 텍스트 학습 논쟁과는 또 다른 차원의 시장 대체 문제를 낳는다.

또한 Disney, Universal, Warner는 중국 기반 AI 기업 Minimax를 상대로도 소송을 제기했다. Minimax의 이미지·영상 생성기 Hailuo AI가 Star Wars, The Simpsons, Despicable Me, Shrek, Scooby Doo, Looney Tunes 등 저작권 보호 캐릭터가 포함된 결과물을 생성할 수 있다는 주장이다. 해외 기업을 상대로 한 AI 저작권 소송이라는 점에서, 송달과 관할권 문제가 2026년 중요한 쟁점이 될 것으로 보인다.

RAG 소송, ‘학습 데이터’에서 ‘실시간 검색 응답’으로 확장

2025년의 또 다른 변화는 RAG, 즉 검색증강생성 기술을 둘러싼 소송이다. Perplexity와 Cohere가 대표적 피고로 등장했다. RAG는 AI가 사전에 학습한 지식만으로 답하지 않고, 인터넷이나 데이터베이스에서 실시간으로 문서를 검색한 뒤 그 내용을 바탕으로 답변을 생성하는 방식이다.

이 기술은 정확성과 최신성을 높일 수 있다는 장점이 있다. 그러나 저작권 측면에서는 새로운 문제를 낳는다. 모델이 웹사이트를 크롤링하고, 이용자의 질문에 응답하기 위해 저작권 보호 콘텐츠를 입력 단계에서 복제하며, 출력 단계에서 원문과 실질적으로 유사한 답변이나 대체 요약을 제공할 수 있기 때문이다.

2025년 9월 Encyclopedia Britannica와 Merriam-Webster는 Perplexity를 상대로 소송을 제기했다. 이들은 PerplexityBot이 자신들의 웹사이트를 크롤링·스크래핑했고, 질의 응답 과정에서 저작권 보호 기사들을 입력 단계와 출력 단계에서 침해했다고 주장했다. 12월에는 Chicago Tribune과 New York Times도 Perplexity를 상대로 잇따라 소송을 제기했다.

Cohere도 Advance로부터 소송을 당했다. 원고 측은 Cohere의 Command 계열 모델이 뉴스·잡지 기사를 무단 복제해 훈련했고, RAG 기능이 이용자 질의에 대해 원문 전체 복제, 상당한 발췌, 대체 요약을 제공한다고 주장했다.

RAG 소송은 AI 저작권 논쟁의 초점을 바꾼다. 기존 논쟁이 주로 “과거에 어떤 데이터로 모델을 학습했는가”였다면, RAG 논쟁은 “지금 이 순간 이용자의 질문에 답하기 위해 어떤 콘텐츠를 가져와 어떻게 보여주는가”를 묻는다. 이는 검색엔진, 뉴스 미디어, 지식 데이터베이스, AI 답변 서비스 사이의 경계를 다시 그을 수 있는 쟁점이다.

Apple·Salesforce·Adobe·ByteDance까지, 피고의 범위가 넓어졌다

2025년에는 기존에 AI 저작권 소송의 중심에 있지 않았던 대형 기술기업도 새롭게 피고가 됐다. Apple은 OpenELM 모델 훈련에 저작권 보호 도서를 무단 사용했다는 이유로 작가들로부터 소송을 당했다. 원고들은 Apple이 RedPajama 데이터셋을 사용했고, 이 데이터셋이 Books3와 해적판 도서 저장소에서 유래한 자료를 포함한다고 주장했다.

Salesforce도 CodeGen과 XGen 계열 LLM 훈련과 관련해 작가들로부터 집단소송을 당했다. 원고들은 Salesforce가 RedPajama와 The Pile 같은 데이터셋을 사용했다고 주장했다. Adobe 역시 SlimLM이라는 소형 언어모델 훈련 과정에서 SlimPajama 데이터셋을 사용했다는 이유로 소송을 당했다. SlimPajama는 RedPajama에서 파생된 데이터셋으로, 원고 측은 여기에 해적판 도서가 포함됐다고 주장했다.

ByteDance도 새로운 유형의 소송에 휘말렸다. 영상 창작자 단체 Ted Entertainment는 ByteDance가 YouTube에서 수백만 개의 저작권 보호 영상을 스크래핑하고, 기술적 보호조치를 우회해 생성형 AI 모델 MagicVideo를 훈련했다고 주장했다. 이 사건은 직접 저작권 침해보다 DMCA 1201(a)의 기술적 보호조치 우회 금지 조항을 중심으로 제기됐다는 점에서 주목된다.

이 흐름은 AI 저작권 소송의 피고 범위가 넓어지고 있음을 보여준다. OpenAI, Anthropic, Midjourney, Stability AI 같은 AI 전문기업뿐 아니라 Apple, Salesforce, Adobe, ByteDance 같은 대형 기술·플랫폼 기업도 훈련 데이터와 생성형 AI 제품에 대한 책임을 추궁받기 시작했다.

Thomson Reuters v. Ross, 공정이용 논쟁의 또 다른 기준점

2026년에 주목해야 할 사건 중 하나는 Thomson Reuters v. Ross Intelligence다. 이 사건은 오늘날의 생성형 AI와 완전히 같은 유형은 아니지만, AI 학습과 공정이용 논쟁에서 중요한 의미를 갖는다. Ross는 법률 리서치 서비스를 개발하기 위해 Westlaw의 법률 콘텐츠를 스크래핑했다는 이유로 Thomson Reuters로부터 소송을 당했다.

2025년 초 지방법원은 Thomson Reuters의 직접 저작권 침해 주장을 받아들이고 Ross의 공정이용 방어를 배척했다. 법원은 Westlaw의 헤드노트가 저작권 보호 대상이 될 수 있으며, Ross의 사용은 상업적이고 변형적이지 않았고, AI 학습 데이터 시장이라는 잠재 시장에 해를 끼쳤다고 봤다.

다만 4월 법원은 Ross의 중간항소를 허용했다. 따라서 제3연방항소법원이 저작권성과 공정이용 쟁점을 어떻게 볼지가 중요해졌다. 이 사건은 LLM 사건과 다르지만, “AI 학습 데이터 시장”을 공정이용 네 번째 요소, 즉 시장 영향 분석에서 어떻게 다룰 것인지에 대한 중요한 기준점을 제공할 수 있다.

2025년의 결론: 법원보다 시장이 먼저 움직였다

2025년 AI 저작권 소송의 가장 큰 특징은 두 가지다. 하나는 소송이 폭발적으로 늘었다는 점이다. 다른 하나는 대형 합의와 라이선스 계약이 본격적으로 등장했다는 점이다. 법원은 아직 대부분의 핵심 쟁점에 최종적 답을 내리지 않았다. 공정이용 판단도 사건별로 다르고, 증거 수준에 따라 결론이 달라질 수 있다.

그러나 시장은 이미 움직이고 있다. Anthropic의 15억 달러 합의는 해적판 데이터셋 사용의 법적 비용을 보여줬다. UMG·WMG와 Udio·Suno의 합의는 AI 음악 시장이 라이선스와 옵트인 구조로 이동할 수 있음을 보여줬다. OpenAI 다중소송, Midjourney 영화사 소송, Perplexity RAG 소송은 AI 산업의 거의 모든 층위가 저작권 협상의 장으로 들어왔음을 보여준다.

AI 기업 입장에서는 두 가지 전략 중 하나를 선택해야 하는 시점이 가까워지고 있다. 하나는 끝까지 공정이용을 주장하며 법원의 판단을 기다리는 길이다. 다른 하나는 저작권자와 라이선스 계약을 맺고 합법적 데이터 공급망을 구축하는 길이다. 2025년의 흐름은 두 번째 길이 점점 더 현실적인 선택지가 되고 있음을 보여준다.

2026년의 관전 포인트

2026년의 핵심 관전 포인트는 공정이용 판결이다. Copyright Alliance 자료는 In re Google Generative AI, UMG v. Suno, Concord v. Anthropic, In re Mosaic LLM Litigation 등에서 다음 주요 공정이용 판단이 나올 수 있다고 전망한다. 다만 이들 결정은 빨라도 2026년 여름 이후에나 나올 가능성이 있다고 봤다.

또 하나의 관전 포인트는 합의의 확산이다. 2025년에 음악 분야에서 라이선스 기반 합의가 본격화됐다면, 2026년에는 출판·뉴스·영상·RAG 서비스 분야에서도 유사한 구조가 나올 수 있다. 특히 OpenAI 관련 소송에서 대형 합의가 이뤄질 경우, LLM 산업의 데이터 조달 방식은 근본적으로 바뀔 수 있다.

세 번째 관전 포인트는 해적판 데이터셋이다. Books3, RedPajama, The Pile, SlimPajama처럼 기존 오픈 데이터셋에 해적판 도서가 포함됐다는 주장은 여러 소송에서 반복되고 있다. 앞으로 AI 기업은 단순히 “우리는 공개 데이터셋을 썼다”고 말하는 것만으로는 충분하지 않을 수 있다. 데이터 출처, 라이선스 상태, 해적판 포함 여부, 삭제 및 정제 과정까지 입증해야 할 가능성이 커졌다.

네 번째 관전 포인트는 RAG다. RAG는 모델 훈련 단계의 과거 복제와 달리, 이용자 질의에 대한 실시간 복제와 출력 문제를 낳는다. 뉴스 미디어와 지식 콘텐츠 기업 입장에서는 RAG 기반 AI 답변이 원문 방문과 구독 수요를 대체할 수 있다는 우려가 크다. 따라서 RAG 소송은 AI 검색 서비스의 비즈니스 모델 자체를 흔들 수 있다.

AI 저작권 전쟁의 본질은 ‘데이터의 가격’을 정하는 싸움이다

AI 저작권 소송은 표면적으로는 법적 분쟁이다. 그러나 그 본질은 데이터와 창작물의 가격을 정하는 싸움이다. 생성형 AI는 인간이 만든 책, 기사, 음악, 이미지, 영상, 코드, 지식 데이터베이스를 기반으로 성장했다. 이제 저작권자들은 그 원료에 대한 대가를 요구하고 있고, AI 기업들은 학습과 혁신을 위해 공정이용의 폭넓은 인정을 요구하고 있다.

2025년은 이 충돌이 본격적으로 제도화된 해였다. Anthropic의 합의는 해적판 데이터 사용의 위험을 보여줬다. 음악 AI 합의는 라이선스 시장의 가능성을 열었다. Midjourney와 영화사 소송은 캐릭터와 세계관의 보호 문제를 전면화했다. Perplexity와 Cohere를 겨냥한 RAG 소송은 AI 답변 서비스가 원문 콘텐츠 시장을 대체할 수 있다는 우려를 법정으로 가져왔다.

아직 최종 승자는 없다. 법원은 사건별로 다른 판단을 내릴 수 있고, 공정이용의 경계는 계속 다퉈질 것이다. 그러나 방향은 점점 분명해지고 있다. 생성형 AI 산업은 더 이상 “인터넷에 공개된 것은 모두 학습할 수 있다”는 느슨한 전제 위에 머물기 어렵다. 데이터 출처, 라이선스, 보상, 투명성, 창작자의 통제권이 AI 산업의 핵심 인프라가 되고 있다.

2026년은 이 질서가 더 구체화되는 해가 될 가능성이 크다. 공정이용 판결이 나올 것이고, 더 많은 합의가 등장할 것이며, AI 기업과 저작권자는 법정과 협상장을 오가며 새로운 시장 규칙을 만들 것이다. 생성형 AI의 미래는 모델의 성능만으로 결정되지 않는다. 그 모델을 학습시킨 창작물의 권리를 어떻게 다룰 것인가가 AI 산업의 지속 가능성을 가를 것이다.