AI 학습 이전, 데이터 수집의 한계
불법 경로는 면책될 수 있나
[메타X(MetaX)]미국 인공지능 기업 Anthropic이 음악 저작권 침해 혐의로 다시 법정에 섰다. 이번 소송은 생성형 AI가 무엇을 출력했는지가 아니라, AI가 학습 이전 단계에서 어떤 데이터를 어떤 방식으로 확보했는지를 정면으로 문제 삼고 있다는 점에서 기존 분쟁과 결이 다르다.
글로벌 음악 출판사들은 앤스로픽이 비트토렌트(BitTorrent) 기술을 이용해 불법 해적 라이브러리에서 음악 가사와 악보를 대량 수집했다고 주장하고 있다. 이들은 해당 행위가 AI 학습이라는 목적과 무관하게 이미 완결된 저작권 침해이며, 이후 학습이나 출력 단계와 분리해 판단해야 한다는 입장을 분명히 했다.
이번 소송의 본질은 AI 학습의 공정 이용 여부가 아니다. 원고 측은 앤스로픽이 LibGen, PiLiMi 등 불법 라이브러리에서 저작물을 다운로드했고, 토렌트 방식의 특성상 불법 복제물을 내려받는 동시에 제3자에게 재배포하는 행위까지 수반됐다고 주장한다. 출판사들은 이를 “AI 이전 단계에서 이미 성립한 독립적 불법행위”로 규정하고 있다.
이 지점에서 기존 AI 저작권 소송과의 차이가 드러난다. 지금까지의 분쟁은 AI 결과물이 원작과 실질적으로 유사한지, 학습 과정이 공정 이용에 해당하는지를 중심으로 다뤄졌다. 그러나 이번 사건에서 출판사들은 공정 이용 자체가 쟁점이 아니라고 선을 긋는다. 불법 복제 경로를 통한 데이터 수집은 목적을 불문하고 위법이며, AI 학습은 이를 정당화할 수 없다는 논리다.
소송이 주목받는 또 다른 이유는 기업뿐 아니라 경영진 개인이 피고로 포함됐다는 점이다. 원고 측은 공동 창업자인 Benjamin Mann이 토렌트 다운로드 과정에 직접 관여했으며, 최고경영자인 Dario Amodei 역시 이를 인지하고 승인했다고 주장하고 있다. 이는 단순한 운영상의 실수가 아니라, 데이터 수집 의사결정 구조 자체에 불법성이 있었다는 점을 부각하기 위한 전략으로 해석된다.
법원이 이 주장에 설득력을 부여할 경우, AI 기업 경영진에게도 데이터 수집 과정에 대한 개인적 책임 리스크가 발생할 수 있다. 이는 향후 AI 기업들이 데이터 확보 전략을 수립할 때 기술적 판단뿐 아니라 법적 책임 구조까지 고려해야 함을 의미한다.
이번 사건이 던지는 핵심 질문은 단순하다. 불법 경로로 수집한 데이터라도 AI 학습에 사용되면 정당화될 수 있는가, 그리고 데이터 수집 단계의 위법성이 학습과 출력 단계의 합법성과 분리될 수 있는가다. 출판사들의 답은 명확하다. 수집 단계에서의 불법은 이후 어떤 활용 목적에도 치유되지 않는다는 것이다.
이 논리가 받아들여질 경우, 생성형 AI 기업들은 학습 데이터의 출처를 보다 엄격히 증명해야 하는 부담을 안게 된다. 불법·해적 라이브러리에 대한 접근 기록, 데이터 정제 이전 단계의 로그, 내부 통제 체계까지 법적 검증 대상이 될 가능성도 커진다. 이는 모델 성능 경쟁을 넘어, AI 기업의 비용 구조와 사업 지속 가능성에 직접적인 영향을 미친다.
이번 소송이 업계에 던지는 메시지는 분명하다. 웹은 더 이상 ‘자유롭게 가져다 쓸 수 있는 자원’으로 취급되기 어렵다. AI 학습 데이터의 경쟁은 수집 속도에서 수집의 정당성으로 이동하고 있으며, 라이선스 계약 확대, 공개 데이터셋 활용, 합성 데이터 비중 증가는 선택이 아니라 구조적 대응이 되고 있다.
앤스로픽 사건은 특정 기업의 법적 리스크를 넘어선다. 이는 생성형 AI 산업 전체에 대해 “AI 학습 이전 단계의 데이터 수집은 기존 저작권법의 잣대를 그대로 적용받는다”는 기준이 실제로 작동할 수 있는지를 가늠하는 분기점이다. AI 저작권 논쟁의 무게중심은 이제 출력물이 아니라, 데이터의 출발점으로 이동하고 있다.
[저작권자ⓒ META-X. 무단전재-재배포 금지]




































