캐나다 개인정보당국, ChatGPT 초기 학습 방식 위법 판단

이든 기자

metax@metax.kr | 2026-05-14 09:00:00

생성형 AI의 ‘데이터 원죄’가 규제 테이블에 올랐다
공개 웹 데이터 수집·동의·투명성·삭제권 문제 지적
OpenAI, 초기 모델 폐기와 개인정보 필터링 등 개선책 제시
AI 산업 쟁점, ‘성능’에서 ‘데이터 정당성’으로 이동

[메타X(MetaX)] 캐나다 개인정보 규제당국이 OpenAI의 ChatGPT 초기 모델 학습 방식에 대해 개인정보보호법 위반 소지가 있었다고 판단했다. 핵심은 ChatGPT가 얼마나 똑똑한가가 아니다. 그 지능을 만들기 위해 어떤 데이터를, 어떤 동의 절차와 투명성 아래 수집했는가다.

캐나다 연방 개인정보보호위원회(OPC)와 퀘벡, 브리티시컬럼비아, 앨버타 개인정보 당국은 ChatGPT에 대한 공동조사를 진행했고, OpenAI가 초기 ChatGPT 모델을 학습시키는 과정에서 캐나다 연방 및 주 개인정보 법률을 준수하지 못했다고 결론 내렸다. 조사 대상은 공개 웹에서 긁어온 콘텐츠, 라이선스 데이터셋, 사용자 상호작용 등 ChatGPT 초기 모델의 학습 데이터 처리 방식이었다.

이번 사건은 단순한 규제 이슈가 아니다. 생성형 AI 산업 전체가 안고 있는 구조적 질문을 드러낸다. 공개된 인터넷 정보는 정말 자유롭게 학습에 사용할 수 있는가. 개인정보가 포함된 데이터는 어떻게 걸러야 하는가. 이미 학습된 모델에서 개인의 정보 접근·정정·삭제권은 어떻게 보장할 수 있는가. 캐나다 당국의 판단은 이 질문들을 정면으로 제기했다.

캐나다 4개 개인정보 당국, OpenAI 공동조사

이번 조사는 캐나다 연방 개인정보보호위원회, 퀘벡 정보접근위원회, 브리티시컬럼비아 개인정보보호위원회, 앨버타 개인정보보호위원회가 공동으로 진행했다. 목적은 OpenAI가 ChatGPT를 개발·운영하면서 캐나다인의 개인정보를 수집·이용·공개하는 방식이 연방 및 주 개인정보보호법을 준수했는지 확인하는 것이었다.

조사 초점은 ChatGPT의 초기 모델이었다. 당국은 OpenAI가 공개적으로 접근 가능한 웹 콘텐츠, 라이선스 데이터셋, 사용자 대화 등을 어떻게 수집하고 학습에 활용했는지 검토했다. 그 결과 당국은 OpenAI의 초기 ChatGPT 학습 방식이 개인정보보호 원칙, 특히 동의, 투명성, 정확성, 접근·정정·삭제권, 책임성 측면에서 문제가 있었다고 판단했다.

다만 규제 판단은 관할별로 조금 달랐다. 캐나다 연방 OPC는 민원이 “근거 있음”으로 판단됐지만, OpenAI의 개선 조치와 향후 약속을 고려해 조건부 해결로 분류했다. 반면 브리티시컬럼비아와 앨버타 당국은 각 주법상 동의 요건 위반 문제를 들어 “근거 있음, 미해결”로 판단했다. 퀘벡은 적절한 목적, 개인 권리, 책임성 문제는 조건부 해결로 봤지만, 동의 문제는 미해결로 남겼다.

과도한 개인정보 수집과 유효한 동의 부재

캐나다 당국이 가장 먼저 지적한 것은 개인정보의 과도한 수집이다. OpenAI가 방대한 양의 개인정보를 수집했지만, 그 정보가 모델 학습에 사용되지 않도록 막는 충분한 보호장치가 부족했다는 판단이다. 여기에는 건강 상태, 정치적 견해 같은 민감정보뿐 아니라 아동 관련 정보도 포함될 수 있다고 당국은 설명했다.

두 번째 쟁점은 유효한 동의와 투명성 부족이다. 많은 이용자는 자신의 데이터가 수집돼 ChatGPT 학습에 쓰였다는 사실을 알지 못했고, OpenAI는 공개적으로 접근 가능한 출처에서 수집한 개인정보가 소셜미디어, 토론 포럼, 기타 웹사이트 정보까지 포함할 수 있다는 점을 명확히 설명하지 않았다고 지적됐다.

이 대목은 생성형 AI의 가장 오래된 논쟁과 맞닿아 있다. 인터넷에 공개된 정보는 누구나 볼 수 있다. 그러나 누구나 볼 수 있다는 사실이 곧 대규모 AI 학습에 동의했다는 의미는 아니다. 캐나다 당국은 바로 이 지점을 문제 삼았다. 공개 접근 가능성과 개인정보 처리의 정당성은 별개의 문제라는 것이다.

할루시네이션도 개인정보 문제다

이번 조사에서 주목할 부분은 환각, 즉 할루시네이션도 개인정보보호 쟁점으로 다뤄졌다는 점이다.

캐나다 당국은 OpenAI가 ChatGPT 응답에 포함될 수 있는 부정확성에 대해 충분히 알리지 않았다고 봤다. 또한 최근까지 ChatGPT 응답에 포함된 개인정보의 정확성을 검증하기 위한 평가를 수행하지 않았다고 지적했다.

이는 매우 중요한 관점 전환이다. AI가 틀린 답을 하는 것은 단순 품질 문제가 아니다. 그 틀린 답이 특정 개인에 관한 것이라면 명예, 평판, 고용, 사회적 평가에 영향을 줄 수 있다. 예를 들어 어떤 사람에 대해 사실이 아닌 범죄 이력, 정치 성향, 건강 상태, 직업 정보가 생성된다면 이는 개인정보 침해이자 인격권 침해로 이어질 수 있다.

생성형 AI 시대의 개인정보 보호는 더 이상 “어떤 데이터를 수집했는가”에만 머물지 않는다. AI가 개인에 대해 무엇을 말하는가도 규제 대상이 된다.

접근·정정·삭제권의 한계도 드러났다

캐나다 당국은 OpenAI가 모든 개인에게 자신의 개인정보에 접근하고, 정정하고, 삭제할 수 있는 쉽고 효과적인 메커니즘을 제공하지 않았다고 판단했다.

이 문제는 생성형 AI의 구조적 난제다. 전통적 데이터베이스에서는 특정 개인의 정보를 찾아 수정하거나 삭제하는 것이 상대적으로 명확하다. 그러나 대규모 언어모델에서는 개인정보가 학습 데이터에 포함됐더라도 그것이 모델 내부에 어떤 방식으로 반영됐는지 추적하기 어렵다.

모델은 데이터를 그대로 저장하는 것이 아니라 통계적 패턴으로 학습한다. 하지만 그 결과로 특정 개인에 대한 정보가 출력될 수 있다면, 이용자는 자신의 정보가 어떻게 쓰였는지 알고 싶어 한다. 삭제를 요구할 수도 있다. 문제는 이 권리를 어떻게 기술적으로 구현할 것인가다.

이번 조사에서 캐나다 당국이 접근·정정·삭제권을 지적한 것은 생성형 AI 기업들이 앞으로 반드시 해결해야 할 규제 과제를 보여준다.

OpenAI의 대응: 초기 모델 폐기와 개인정보 필터링

OpenAI는 일부 문제를 해결하기 위한 조치를 이미 시행했다고 캐나다 당국은 설명했다. 가장 중요한 변화는 새 ChatGPT 모델 학습에 사용되는 개인정보와 민감정보의 사용을 크게 제한했다는 점이다. 또한 캐나다 당국은 OpenAI가 캐나다 개인정보 법률을 위반하는 방식으로 학습된 초기 ChatGPT 모델을 폐기했다고 밝혔다.

현재 ChatGPT를 구동하는 모델들은 새로운 보호장치를 적용해 개발·배포됐다고 설명된다. OpenAI는 공개 인터넷 데이터와 라이선스 데이터셋에서 이름, 전화번호 등 개인정보를 감지하고 마스킹하는 필터링 도구를 도입했다. 이 도구는 학습에 사용되는 사적·민감정보의 양을 크게 줄이는 역할을 한다.

또한 OpenAI는 웹 검색 기능을 통해 응답에 특정 출처를 제시하고, 사용자가 정보를 독립적으로 검증할 수 있게 했다고 설명했다. 접근 요청을 제출한 이용자에게 보내는 자동응답 이메일도 개선했고, 개인정보 접근 방식에 대한 설명도 보완했다.

향후 약속: 설명 강화, 아동 보호, 데이터 보관 정책

캐나다 당국 문서에 따르면 OpenAI는 추가 개선도 약속했다. 보고서 발행과 동시에 모델 학습에 사용되는 콘텐츠 출처 등 개인정보 처리 관행을 더 자세히 설명하기로 했다. 또한 보고서 발행 후 3개월 이내에는 로그인하지 않은 ChatGPT 웹 이용자가 첫 프롬프트를 입력하기 전에, 대화가 검토되거나 모델 학습에 사용될 수 있음을 알리고 민감정보를 공유하지 말라는 안내를 제공하기로 했다.

6개월 이내에는 개인정보 요청에 대한 데이터 내보내기를 더 이해하기 쉽게 만들고, 제공된 정보의 완전성·정확성·성격에 이의를 제기할 수 있는 방법을 더 명확히 설명하기로 했다. 또한 더 이상 활성 모델 개발에 쓰이지 않고 역사적 참고용으로만 보관되는 데이터셋에 대해 강한 보호조치를 적용했는지 확인하고, 보관 필요성을 정기적으로 검토하기로 했다.

아동 보호도 포함됐다. OpenAI는 공인이 아닌 공인의 미성년 가족 구성원에 대해 이름이나 생년월일 요청을 거부하도록 보호조치를 테스트하겠다고 약속했다. 이행 상황은 분기별 보고서를 통해 캐나다 OPC와 주 파트너들에게 제출된다.

‘공개 데이터’는 정말 공짜 원료인가

이번 사건의 본질은 공개 데이터의 법적·윤리적 지위다.

생성형 AI 기업들은 인터넷에 공개된 방대한 텍스트와 이미지를 학습해 모델을 만들었다. 기술적 관점에서는 공개 웹이 거대한 학습 자원이었다. 그러나 개인정보보호 관점에서는 이야기가 달라진다.

사람이 블로그, 커뮤니티, SNS, 포럼에 글을 썼다고 해서 그 글 속의 개인정보가 글로벌 AI 모델 학습에 쓰이는 데 동의했다고 보기 어렵다. 특히 그 정보가 민감정보이거나 아동 정보라면 문제는 더 커진다.

캐나다 당국의 판단은 생성형 AI 산업에 하나의 기준을 제시한다. 공개됐다는 사실만으로 충분하지 않다. 동의, 목적 제한, 최소 수집, 투명성, 정정·삭제권이 함께 검토되어야 한다.

AI 기업 입장에서는 부담이 커질 수밖에 없다. 모델 성능을 높이려면 많은 데이터가 필요하지만, 규제 환경은 데이터의 출처와 처리 절차를 더 엄격하게 요구하고 있다.

모델 성능보다 데이터 거버넌스가 중요해진다

지금까지 생성형 AI 경쟁은 주로 모델 성능 중심이었다. 더 긴 컨텍스트, 더 빠른 응답, 더 좋은 추론, 더 자연스러운 대화, 더 높은 벤치마크 점수가 핵심이었다.

그러나 이번 캐나다 조사 결과는 다른 축을 보여준다. 앞으로 AI 기업은 “얼마나 똑똑한 모델인가”뿐 아니라 “얼마나 정당하게 학습된 모델인가”를 설명해야 한다.

데이터 출처는 무엇인가. 개인정보는 어떻게 제거했는가. 민감정보와 아동 정보는 어떻게 보호했는가. 이용자는 자신의 정보가 쓰였는지 알 수 있는가. 잘못된 개인정보가 출력되면 어떻게 정정할 수 있는가. 삭제 요청은 어떤 방식으로 반영되는가.

이 질문에 답하지 못하는 AI 기업은 기술적으로 앞서더라도 규제 리스크를 피하기 어렵다.

이번 캐나다 판단은 한국에도 시사점이 크다.

한국 개인정보보호법도 개인정보 처리의 적법성, 목적 제한, 최소 수집, 투명성, 정보주체 권리 보장을 중요하게 본다. 생성형 AI 기업이 공개 웹 데이터나 사용자 대화 데이터를 학습에 활용할 경우, 국내에서도 유사한 쟁점이 제기될 수 있다.

특히 한국은 주민등록번호, 휴대전화번호, 민감한 온라인 커뮤니티 기록, 학력·직장 정보, 가족관계 정보 등 개인 식별성과 사회적 민감도가 높은 정보가 온라인에 흩어져 있다. 공개 웹에서 수집됐더라도 AI 학습에 사용될 때는 별도의 보호조치가 필요하다는 논의가 강화될 가능성이 높다.

기업들도 주의해야 한다. 캐나다 당국은 AI 제품과 서비스를 개발하거나 사용하는 조직이 국내외 개인정보 법률을 준수할 책임이 있다고 강조했다. 이는 AI를 직접 개발하는 기업뿐 아니라, 외부 AI 서비스를 도입하는 기업에도 적용될 수 있는 메시지다.

생성형 AI의 다음 경쟁력은 ‘합법적 데이터 체계’다

이번 사건을 메타X 관점에서 보면, 생성형 AI는 새로운 국면에 들어섰다. 초기에는 모델을 빨리 만들고 성능을 끌어올리는 것이 중요했다. 그러나 이제는 그 모델이 어떤 데이터 질서 위에 세워졌는지가 중요해지고 있다.

AI의 성능은 데이터에서 나온다. 하지만 AI의 신뢰도도 데이터에서 나온다.

출처를 설명할 수 없는 데이터, 동의 여부가 불분명한 데이터, 삭제할 수 없는 데이터, 틀린 개인정보를 만들어내는 모델은 장기적으로 신뢰를 얻기 어렵다.

앞으로 AI 산업의 경쟁력은 세 가지로 나뉠 가능성이 크다. 첫째, 고품질 데이터를 얼마나 확보했는가. 둘째, 그 데이터의 권리 관계와 개인정보 처리를 얼마나 명확히 했는가. 셋째, 모델 출력에서 발생하는 개인정보 오류를 얼마나 빠르게 정정하고 통제할 수 있는가.

캐나다 조사는 이 세 번째 경쟁의 시작을 알린다. AI 기업은 이제 성능뿐 아니라 데이터 거버넌스 기업이 되어야 한다.

캐나다 개인정보 당국의 이번 판단은 과거의 ChatGPT 초기 모델만을 겨냥한 사건처럼 보일 수 있다. 실제로 OpenAI는 초기 모델을 폐기했고, 현재 모델에는 개인정보 필터링과 보관 정책 등 새로운 보호장치가 적용됐다고 설명했다.

하지만 이 사건의 의미는 과거에 머물지 않는다. 오히려 생성형 AI의 미래 규제 방향을 보여준다.

공개 웹 데이터는 무한한 원료가 아니다. 개인정보는 모델 안에서도 권리의 대상이다. AI의 환각은 품질 문제가 아니라 개인정보 침해가 될 수 있다. 삭제권과 정정권은 데이터베이스를 넘어 모델 출력까지 확장된다.

AI 산업은 이제 더 어려운 질문 앞에 섰다. 더 많이 학습할 것인가, 더 정당하게 학습할 것인가. 더 똑똑한 모델을 만들 것인가, 더 신뢰할 수 있는 모델을 만들 것인가.

정답은 둘 중 하나가 아니다. 앞으로 살아남는 AI 기업은 두 가지를 동시에 증명해야 한다.

성능은 높아야 하고, 데이터는 정당해야 한다. 이번 캐나다 조사는 바로 그 시대가 시작됐음을 알리는 신호다.

캐나다 개인정보당국, ChatGPT 초기 학습 방식 위법 판단

WEEKLY HOT