대규모 언어모델은 정말 새로운 문장을 만들어내는가, 아니면 과거의 데이터를 다시 꺼내는가. 니컬러스 칼리니 등 연구진의 논문 Extracting Training Data from Large Language Models는 이 질문을 생성형 AI 시대의 핵심 프라이버시 문제로 끌어올린다. 이 논문은 GPT-2를 대상으로 한 실험을 통해, 대규모 언어모델이 학습 데이터 일부를 단순히 통계적으로 학습하는 수준을 넘어, 특정 문장을 거의 그대로 기억하고 출력할 수 있음을 보여준다.
논문의 문제의식은 명확하다. 기존에는 모델이 과적합되지 않았다면 학습 데이터가 그대로 유출될 위험도 낮다고 보는 경향이 있었다. 대규모 언어모델은 방대한 데이터로 학습되며, 학습 손실과 테스트 손실의 차이가 크지 않기 때문에 특정 데이터를 외우지 않을 것이라는 가정이 존재했다. 그러나 연구진은 이 가정이 충분하지 않다고 지적한다. 평균적으로는 과적합이 보이지 않더라도, 일부 희귀하고 특이한 데이터는 모델 내부에 강하게 남을 수 있다는 것이다.
연구진은 이를 검증하기 위해 GPT-2에 대한 블랙박스 공격을 설계했다. 모델 내부의 가중치나 구조를 들여다보지 않고, 외부에서 질의하고 응답을 분석하는 방식이다. 공격 절차는 크게 두 단계로 구성된다. 먼저 GPT-2로부터 대량의 텍스트를 생성한다. 이후 생성된 문장 가운데 실제 학습 데이터일 가능성이 높은 후보를 선별한다. 연구진은 단순한 확률값뿐 아니라 zlib 압축률, 소형 GPT-2 모델과의 비교, 소문자 변환 전후의 perplexity 차이 등 여러 지표를 활용해 ‘비정상적으로 모델이 자신 있어 하는 문장’을 찾아냈다.
결과는 상당히 충격적이다. 연구진은 총 1,800개의 후보 샘플을 분석해 604개의 고유한 암기 학습 사례를 확인했다. 일부 설정에서는 후보 샘플의 67%가 실제 학습 데이터와 일치했다. 더 중요한 점은 추출된 데이터의 성격이다. 단순한 뉴스 문장이나 라이선스 문구뿐 아니라 이름, 전화번호, 이메일, 주소, 소스코드, UUID, URL, 로그 파일 등 민감하거나 식별 가능한 정보가 포함됐다. 특히 어떤 정보는 학습 데이터 안에서 단 하나의 문서에만 등장했음에도 모델이 이를 출력했다.
이 논문이 중요한 이유는 생성형 AI의 프라이버시 위험을 ‘데이터 수집’의 문제에서 ‘모델 출력’의 문제로 확장했다는 데 있다. 기존 프라이버시 논의는 주로 어떤 데이터를 수집했는지, 사용자가 동의했는지, 데이터가 어디에 저장되는지에 집중했다. 그러나 이 연구는 한 번 학습된 모델이 데이터의 일부를 내부적으로 보존하고, 이후 전혀 다른 맥락에서 그것을 다시 드러낼 수 있음을 보여준다. 이는 헬렌 니센바움의 ‘맥락적 무결성’ 관점과도 연결된다. 공개된 정보라도 원래 맥락을 벗어나 다른 상황에서 재출력된다면, 그것은 새로운 프라이버시 침해가 될 수 있다.
논문의 또 다른 핵심 발견은 모델 크기와 암기 가능성의 관계다. 연구진은 더 큰 모델일수록 더 많은 학습 데이터를 암기하는 경향이 있음을 확인했다. 이는 AI 산업의 스케일링 전략에 중요한 경고를 던진다. 지금까지 대규모 모델 경쟁은 성능 향상, 범용성 확대, 추론 능력 강화의 관점에서 주로 논의돼 왔다. 그러나 이 논문은 모델이 커질수록 프라이버시 위험도 함께 커질 수 있음을 보여준다. 성능의 증가는 단순한 기술적 진보가 아니라, 데이터 기억 능력의 증가이기도 하다.
연구의 장점은 실증성에 있다. 이 논문은 추상적인 위험을 주장하는 데 그치지 않고, 실제 공개 모델인 GPT-2를 대상으로 학습 데이터 추출 가능성을 체계적으로 검증했다. 또한 공격 방법을 단일 방식에 의존하지 않고, 텍스트 생성 전략과 후보 선별 지표를 다양하게 조합했다. 이를 통해 특정한 우연이나 한 가지 지표의 오류가 아니라, 대규모 언어모델 전반에 존재할 수 있는 구조적 위험을 드러냈다.
다만 한계도 존재한다. 연구 대상은 GPT-2이며, 학습 데이터 역시 공개 웹에서 수집된 데이터다. 따라서 오늘날의 최신 상용 LLM, 폐쇄형 모델, 강화학습을 거친 챗봇형 모델에 동일한 비율로 결과가 적용된다고 단정하기는 어렵다. 또한 연구진이 수행한 공격은 비표적 추출 공격에 가깝다. 특정 개인의 정보를 목표로 삼아 찾아내는 공격 가능성까지 완전히 입증한 것은 아니다. 그럼에도 이 한계는 논문의 가치를 약화시키기보다, 후속 연구의 필요성을 더 분명히 한다.
이 논문은 생성형 AI 거버넌스 논의에도 중요한 시사점을 제공한다. 첫째, 학습 데이터의 비식별화와 필터링만으로는 충분하지 않다. 데이터가 모델 내부에서 어떻게 기억되고 재출력되는지를 별도로 감사해야 한다. 둘째, 차등프라이버시와 같은 기술적 보호 장치가 필요하지만, 대규모 언어모델의 성능과 학습 비용을 고려하면 현실적 적용에는 여전히 난제가 있다. 셋째, 모델 배포 전후에 학습 데이터 암기 여부를 점검하는 독립적 감사 체계가 필요하다.
결국 이 논문은 생성형 AI 시대의 가장 근본적인 질문을 던진다. AI가 학습한다는 것은 무엇인가. 그것은 패턴을 이해하는 일인가, 아니면 세계의 조각들을 기억하는 일인가. 대규모 언어모델이 인간의 언어를 유창하게 모방할수록, 그 안에는 누군가의 문장, 코드, 기록, 연락처, 그리고 삭제되었다고 믿었던 흔적까지 남아 있을 수 있다.
Extracting Training Data from Large Language Models는 생성형 AI 프라이버시 연구의 중요한 전환점이다. 이 논문은 AI 모델의 위험을 단순히 ‘잘못된 답변’이나 ‘편향된 출력’의 문제가 아니라, 학습 데이터의 잔존과 재현이라는 구조적 문제로 제시한다. 앞으로 AI가 더 커지고 더 많은 데이터를 학습할수록, 이 연구가 던진 경고는 더욱 현실적인 문제가 될 가능성이 크다. 생성형 AI의 신뢰는 단지 똑똑한 답변에서 나오는 것이 아니라, 무엇을 기억하지 않아야 하는지를 통제할 수 있을 때 비로소 가능하다.
