2025년 미국 메릴랜드대 연구진의 논문(‘Can AI-Generated Text be Reliably Detected?’, Vinu Sankar Sadasivan et al.)에 따르면, AI가 쓴 글을 판별하는 탐지기 대부분이 실제 공격(우회, 패러프레이징 등) 앞에서는 쉽게 무력화된다.
“AI가 쓴 글”이라는 낙인을 자동으로 찍는 현장에 신호탄을 던지는 결과다.
“AI 글 탐지, 패러프레이징 한 번이면 무너진다”
메릴랜드대 등 연구진이 실험한 결과, 대다수 AI 글 판별 탐지기는 반복적 패러프레이징(recursive paraphrasing)이라는 간단한 공격만으로 판별력이 크게 떨어진다.
워터마킹·뉴럴넷·제로샷·검색 기반 어떤 방식이든 AI가 생성한 글을 여러 번 의역·변형하면 탐지 성능이 급격히 하락했다.
예를 들어, 워터마킹 기반 탐지기의 탐지율은 99.8%에서 1회 패러프레이징 시 80%대, 2회 이상 반복 시 20% 이하로 추락했다.
딥러닝 기반(로버타 등) 탐지기 역시 100%에서 60%까지 떨어졌고, 검색 기반 탐지기는 5회 패러프레이징만 해도 탐지 신뢰도가 무의미해졌다.
제로샷(DetectGPT 등) 방식도 AUROC(탐지 신뢰도)가 96.5%에서 25%로 급락했다.
즉, AI로 쓴 글을 다시 AI로 바꾸고 또 바꾸는 것만으로 탐지기 대부분이 더 이상 효과적이지 않다는 것이다.
“글 품질은 거의 안 떨어진다”
연구팀은 품질 평가도 병행했다.
연구팀은 탐지기 우회 효과와 함께 실제 ‘글의 품질’이 얼마나 유지되는지도 꼼꼼하게 검증했다.
AI로 생성한 글을 여러 번 패러프레이징했을 때도 내용 보존성과 문법적 품질 모두 대부분 높은 점수를 받았다.
먼저, 연구팀은 DIPPER와 LLaMA-2-7B-Chat이라는 최신 AI 패러프레이저를 활용해 반복적 패러프레이징을 진행했다. 이후, MTurk 플랫폼을 통한 사람 평가(human evaluation)와 자동화 기준(perplexity, QA 벤치마크) 두 가지 방법으로 품질을 동시에 측정했다.
그 결과, DIPPER로 패러프레이징한 문장의 경우 의미 보존도는 70%가 ‘고품질’(Likert 4~5점)로 평가됐고, 문법과 텍스트 품질 역시 89%가 ‘고품질’로 판정됐다. 평균 점수는 ‘의미 보존’ 4.0점, ‘문법/텍스트 품질’ 4.14점(5점 만점)에 달했다.
LLaMA-2-7B-Chat을 쓴 경우도 전체의 83%가 ‘고품질’로 평가받았다. 즉, 여러 번 패러프레이징을 거쳐도 의미와 문장 구조 모두 자연스럽고 가독성이 유지된다는 의미다.
자동 평가(Perplexity, QA 벤치마크) 결과도 주목할 만하다.
5회 반복 패러프레이징 이후에도 DIPPER는 Perplexity가 5.5에서 8.7로, LLaMA-2-7B-Chat은 10.5까지 소폭 증가하는 수준에 그쳤다.
SQuAD-v2(질문-답변) 벤치마크로 내용을 평가한 결과, 패러프레이징된 문단에서도 97%의 정답률을 보이며, 정보 손실이 거의 없음을 확인했다.
요약하면, 연구팀의 실험은 “AI가 쓴 글을 반복적으로 변환해도 탐지기는 무력화되지만, 글의 품질은 대부분 원래 수준을 유지한다”는 결론을 내린 셈이다.
“AI처럼 보이게 만드는 스푸핑 공격도 가능”
연구진은 ‘스푸핑(Spoofing) 공격’도 시연했다. 사람이 쓴 글을 AI가 쓴 것처럼 보이게 하거나, 악의적 조작으로 ‘AI 판정’이 나오도록 하는 방식이다.
워터마킹 기반은 토큰 패턴(‘green list’)만 알면, 사람이 쓴 글도 AI가 쓴 글로 오탐할 수 있다.
검색(DB) 기반은 사람이 쓴 에세이를 AI로 한번 바꿔서 DB에 저장해두면, 원래 사람 글도 ‘AI 판정’이 나온다.
이런 방식은 실제 교육 현장·사회에서 ‘무고한 사람도 AI로 의심’하게 만들 우려를 내포한다.
“AI 탐지는 원리적으로 완벽할 수 없다”
논문은 “AI 글과 인간 글의 분포가 닮아갈수록, 어떤 탐지기도 근본적으로 성능이 떨어질 수밖에 없다”고 수학적으로 증명한다.
실제로 최신 LLM이 발전할수록 인간의 글과 구별이 어려워지고, 이 차이(TV distance)가 줄어들면서 판별 정확도(AUROC)도 하락한다.
탐지기의 오탐(Type I error)을 줄이면 진짜 AI 글을 놓치고, 탐지율을 올리면 무고한 사람도 잡게 되는 ‘트레이드오프’가 필연적임을 연구진은 강조했다.
“AI 탐지기의 절대성은 없다”
AI 탐지기는 구조적으로 완벽할 수 없다. “AI 탐지=증거”라는 신화는 위험하다.
교육·저널리즘 등 현장에서는 다층적 평가, 과정 중심 증거, 구술 등 다양한 방식이 병행되어야 한다.
기술적 한계가 명확히 드러난 만큼, 평가·징계의 기준을 탐지기에만 두는 것은 매우 위험하다고 연구진은 경고한다.
“AI 글 판별, 만능의 도구는 아니다”
“AI 탐지기는 앞으로도 점점 더 어려운 문제에 부딪히며, 기술적 신뢰만으로는 실제 교육·사회 현장에 절대적 근거를 제공할 수 없다.”
탐지기는 참고 도구일 뿐, 책임 있는 평가·교육적 신뢰 구조가 반드시 병행되어야 한다는 점을 다시 한 번 강조한다.
[저작권자ⓒ META-X. 무단전재-재배포 금지]