META-X

Reddit, AI 기업 Anthropic에 첫 소송 제기..."우리는 공짜 데이터가 아니다": X 기자 / 기사승인 : 2025-06-09 11:00:55

AI 모델 학습용 데이터 무단 사용, 이제 '기술 윤리' 아닌 '법정 싸움'으로

레딧(Reddit)이 생성형 AI 기업인 앤트로픽(Anthropic)을 상대로 캘리포니아 법원에 소송을 제기하며, 본격적인 'AI 데이터 학습의 저작권 전쟁'이 시작됐다.

사안의 본질은 단순한 웹 크롤링을 넘어, Reddit이라는 커뮤니티가 만들어온 수십억 개의 대화 데이터가 AI 기업의 상업적 모델을 뒷받침해왔음에도 정당한 대가나 사용 허락 없이 무단 수집·이용되었다는 데 있다.

2025년 6월 4일, Reddit은 캘리포니아 샌프란시스코 고등법원에 앤트로픽을 상대로 총 5개의 혐의(계약 위반, 부당이득, 컴퓨터 자산 침해, 계약방해, 불공정경쟁)를 적용한 민사 소송을 제기했다.

Reddit은 앤트로픽이 자사의 사용자 데이터, 특히 수많은 '서브레딧(subreddit)' 대화 데이터를 무단 수집하고 이를 Claude AI 모델 학습에 사용해 수십억 달러 가치를 창출했으나, Reddit 및 사용자에게는 아무런 보상을 하지 않았다고 주장한다.

Reddit, "무단 크롤링, 무단 학습, 무단 상업화"

Reddit은 이번 소송에서 Anthropic의 데이터 수집 및 활용 방식이 자사 정책과 기술적 보호 장치를 모두 무시한 행위였다고 강하게 비판했다.

Reddit에 따르면, Anthropic은 Reddit의 사용자 약관(User Agreement)에 명시된 상업적 이용 금지 조항을 위반한 채, 자사 AI 모델 학습에 Reddit 콘텐츠를 활용해왔다. 이 약관은 Reddit에 접속하는 모든 이용자가 반드시 동의해야 하는 규칙으로, 상업적 목적의 데이터 이용은 Reddit의 사전 서면 허락 없이는 불가능하다.

또한 Reddit은, Anthropic의 자동화된 봇들이 Reddit의 robots.txt 파일에 명시된 ‘크롤링 금지 지시’를 무시하고, 무려 10만 회 이상 서버에 접속해 데이터를 수집했다고 주장했다. 이는 Reddit이 의도적으로 차단한 접근 방식에 대해 기술적으로도 명백히 위반한 행위라는 것이다.

이뿐만 아니라, Reddit 사용자들이 삭제한 게시물까지도 Claude 모델 학습에 여전히 포함되고 있다는 점을 문제 삼았다. Reddit은 삭제 요청과 정책 위반 콘텐츠를 실시간으로 자동 반영할 수 있는 Compliance API를 제공하고 있지만, Anthropic은 해당 API를 연동하지 않은 채 사용자 삭제 의사를 무시한 데이터로 모델을 훈련시켰다고 밝혔다.

Reddit은 이 모든 행위에 대해 수차례 경고하고, 라이선스 협상에 나설 것을 촉구했으나, Anthropic은 정식 협상조차 거부한 것으로 드러났다. Reddit은 이를 두고 "타인의 콘텐츠를 기반으로 수십억 달러의 기업 가치를 창출하면서, 정당한 대가와 사용자 권리를 외면하는 행위"라고 규정했다.

Reddit은 세계 최대 규모의 대화형 커뮤니티로, AI 학습에 필요한 '자연어 데이터셋'의 보고로 여겨진다. 특히 Claude와 같은 대규모 언어모델(LLM)은 인간의 대화 패턴과 질문-응답의 뉘앙스를 학습하는 데 Reddit 데이터를 활용해 높은 효과를 입증했다. Anthropic 내부 연구진조차 Reddit을 ‘최고 품질의 학습 데이터 출처’로 명시하며 주요 서브레딧 리스트까지 논문에 공개했다.

누가 이익을 얻고, 누가 피해를 보는가

Anthropic은 Claude를 기반으로 Amazon, Google 등과 수십억 달러 규모의 투자 및 기술 제휴를 체결했고, Claude Pro 유료 서비스까지 운영 중이다.

그러나 Reddit은 이 과정에서 아무런 수익도 얻지 못했다.

반면 Reddit은 API 관리, 서버 부하, 콘텐츠 삭제·보안 비용을 부담하고 있으며, 사용자 신뢰 하락이라는 비재무적 손실도 크다.

Reddit은 OpenAI 및 Google과는 공식 라이선스 계약을 체결해 API 접근, 데이터 삭제 연동, 이용 제한 등을 포함한 ‘사용자 보호 조항’을 담았지만, Anthropic은 이에 동참하지 않았다.

AI는 데이터를 어떻게 써야 하는가

이번 소송은 단순한 ‘웹스크래핑 논란’을 넘어, 생성형 AI 시대의 핵심 질문을 던진다.

"AI가 학습한 데이터가 공개된 것이라면, 그것은 자유롭게 써도 되는가?"

Reddit은 "공개되어 있다는 이유만으로 상업적 이용까지 허용되는 것은 아니다"라는 점을 분명히 한다. 이는 2023년 글로벌 개인정보보호 공동성명과도 맥을 같이하며, 공공 게시물이라 하더라도 여전히 개인정보 보호법과 사용자의 권리가 유효하다는 국제 기준을 반영한다.

이번 소송은 생성형 AI 산업 전반에 중대한 시사점을 던진다. 무엇보다 Reddit이 OpenAI, Google 등과는 공식적인 데이터 라이선스 계약을 체결하면서 협력적 관계를 구축한 반면, 이에 응하지 않은 기업에는 법적 조치를 취하겠다는 입장을 분명히 했다는 점에서 업계 전반에 강력한 경고 신호로 작용하고 있다.

AI 기업들에겐 분명한 딜레마도 생겼다. 고성능 모델을 학습시키기 위해서는 방대한 자연어 데이터가 필수적이지만, Reddit과 같은 대형 커뮤니티 플랫폼이 데이터 접근을 제한하거나 유료화할 경우, AI 기업들은 학습 다양성과 성능 측면에서 상당한 제약에 직면하게 된다. 이는 곧 AI 성능 고도화의 속도와 품질에도 영향을 줄 수 있다.

무엇보다 이번 사건은 법적 측면에서도 중대한 분기점이 될 것으로 보인다. 현재까지 퍼블릭 도메인에 가까운 인터넷 콘텐츠가 상업적 AI 학습에 어디까지 활용 가능한지를 둘러싼 명확한 법적 기준은 사실상 부재한 상황이다. Reddit과 Anthropic 간의 이번 소송은, 향후 유사한 분쟁에서 판례로 인용될 수 있는 첫 사례가 될 가능성이 크며, ‘공개된 정보의 상업적 사용’에 대한 새로운 기준 정립을 촉진하는 계기가 될 것으로 예상된다.

AI 학습의 미래, 사용자 권리와 어떻게 공존할 것인가

기술의 발전이 데이터 이용의 자유만큼, 그 책임과 윤리에도 뿌리를 두고 있음을 이 사건은 강하게 보여준다.

X 기자 기술을 설명하기보다 기술이 사회를 어떻게 바꾸는지를 묻는 분석가. 왜 이 기술이 지금 등장했는지, 누가 이 변화의 비용을 지불하고 있는지, 그리고 그 변화가 개인의 삶과 지역, 교육과 노동의 구조를 어떻게 흔들고 있는지를 집요하게 추적한다. 정책 문서와 기업 전략, 학술 연구와 현장의 언어를 오가며 AI 시대의 ‘선택 가능한 미래’가 무엇인지를 독자와 함께 고민한다. 기술은 중립적이지 않다. 질문을 던지고, 구조를 드러내며, 독자가 스스로 판단할 수 있는 좌표를 제공하는 것 그것이 ethan이 메타X에서 글을 쓰는 이유다.

기자 페이지