직접 쓴 글임에도 AI 작성으로 잘못 판정 가능성
AI 글쓰기 탐지기의 대표주자 Turnitin이 실제 현장 적용 이후, ‘오탐(거짓 양성, false positive)’ 발생 비율이 예상보다 높다는 점을 인정했다.
‘신뢰의 기술’로 여겨졌던 AI 탐지기는 왜 여전히 허점을 드러내고, 교실과 교육평가의 신뢰는 어디에 의지해야 하는가에 대한 고민이 필요하다.
2023년 6월, 글로벌 표절 방지 솔루션 기업 Turnitin의 AI 글쓰기 탐지 도구가 ‘예상보다 높은 오탐율’을 공식적으로 인정했다. 출시 당시 회사가 홍보한 ‘문서 단위 오탐율 1% 미만’이라는 수치는, 실제 교육 현장에 적용된 이후엔 더 이상 보장할 수 없는 상황이 된 것이다.
Turnitin 측은 “실험실과 실제 현장(현실 세계) 사이의 차이로 인해 오탐율이 높게 나타났다”고 밝혔다. 특히, AI 작성 확률이 20% 미만이라고 판단된 글에서 오탐 발생률이 현저히 높아, 해당 결과에는 ‘의심이 필요하다’는 메시지(asterisk)가 추가될 예정이다.
Turnitin의 AI 탐지기는 문서 전체와 문장 단위에서 각각 오탐율을 산출한다.
문장 단위 오탐율은 약 4%로, 학생이 직접 쓴 글임에도 AI 작성으로 잘못 판정될 가능성이 적지 않다.
문서 단위 오탐율은 정확한 수치가 공개되지 않았으나, 당초 1% 미만이란 약속이 깨진 셈이다.
특히, AI가 쓴 문장과 사람이 쓴 문장이 섞인 경우 오탐이 집중되는 것으로 나타났다. Turnitin 자료에 따르면,
오탐으로 분류된 문장 중 54%는 실제 AI 문장 바로 옆에, 26%는 두 문장 거리를 두고 위치했다. 즉, AI와 인간의 글이 ‘혼합된’ 환경에서, 탐지기는 경계를 제대로 식별하지 못한다는 뜻이다.
AI 탐지기의 오탐 문제는 단순한 기술적 결함을 넘어 교실 현장에 심각한 혼란을 불러온다.
학생 입장에서는 자신이 직접 쓴 ‘순수 창작’물이 억울하게 AI 작성으로 판정될 경우, 평가 결과에 대한 신뢰를 잃고 불공정성 논란이 커질 수밖에 없다. 단 한 번의 오탐이 학생에게는 지울 수 없는 불이익과 상실감을 남길 수 있다.
교사 입장에서도 마찬가지다. AI 탐지 결과에 전적으로 의존한다면, 학생 평가의 객관성과 신뢰를 장담할 수 없다. 결과에만 의존하다 보면 학생의 실제 역량과 노력이 온전히 반영되지 않는 부작용이 나타난다.
실제로 미국 등 여러 국가에서는 Turnitin의 AI 탐지 결과에 따라 학생의 성적이 무효 처리되거나, 졸업이 유보되는 사례까지 나오면서 논란이 커지고 있다.
이처럼 AI 탐지기의 한계와 오탐 문제가 단순한 기술 이슈를 넘어 교육 현장 전반에 불신과 혼란을 확산시키고 있다.
Turnitin은 오탐 문제의 주요 원인으로 ‘혼합형 텍스트’를 지목한다.
AI가 쓴 문장과 인간이 쓴 문장이 인접할 때, LLM(대형언어모델) 기반 탐지기는 두 영역의 경계를 제대로 구분하지 못하는 경우가 많다. 이는 AI가 인간의 문체와 사고방식을 점점 더 정교하게 모방할 뿐만 아니라, 실제 교육 현장에서는 AI를 보조적으로 활용해 일부 아이디어만 생성하는 등 ‘혼합형’ 과제가 늘어나고 있기 때문이다.
AI와 인간의 글이 섞인 환경에서 탐지기는 경계 판단이 불안정해지고, 이로 인해 오탐이 집중적으로 발생한다. Turnitin 측 역시 “LLM과 AI 글쓰기 기술이 빠르게 진화하는 만큼, 앞으로도 탐지 지표는 계속 변화할 수밖에 없다”고 인정하고 있다.
이처럼 혼합형 글쓰기의 경계에서 기술의 한계가 명확히 드러나고 있다.
‘신뢰의 교육’과 평가 패러다임의 재설계가 요구되고 있다.
이번 Turnitin 사태는 단순히 기술적 오류나 논란에 그치지 않는다.
기술이 신뢰를 담보할 수 있다고 해서, 교육 현장의 평가까지 모두 기술에 위탁할 수 있는지는 다시 생각해봐야 할 문제다.
AI와 인간이 협업하는 시대에, ‘개인의 서사’와 ‘비판적 사고’를 어떻게 평가할 것인가가 오히려 더 중요한 과제로 떠오르고 있다.
AI 탐지기 의존도가 높아질수록, 교육의 본질이 무엇인지 되묻게 된다.
이제는 AI가 대신할 수 없는 것, 즉 학생 한 사람 한 사람의 경험과 창의성, 논리적 사고력, 비판적 관점 등 인간만의 고유한 역량을 평가할 수 있는 새로운 패러다임이 절실하다.
Turnitin을 비롯한 글로벌 기업들이 ‘지속적인 실험과 투명성’을 약속하고 있지만, 그보다 앞서 교실 현장과 교육 정책 차원에서 평가 방식, AI 활용 기준, 학생 보호장치에 대한 폭넓고 깊은 논의가 선행되어야 한다.
이제 평가의 본질은 기술적 판정이 아니라, ‘신뢰’를 어떻게 복원하고 확장할 것인가에 있다.
AI 탐지 기술은 평가 현장에서 분명히 유용한 ‘도구’가 될 수 있지만, 절대적인 기준으로 삼아서는 안 된다. 오탐 문제는 단순히 기술의 한계에 머무르지 않고, 신뢰를 기반으로 한 교육 생태계가 지녀야 할 윤리적 책임과 긴장감을 동시에 드러낸다.
이에 따라 몇 가지 정책적 제언을 제시할 수 있다.
첫째, AI 탐지 결과는 ‘참고자료’로만 활용해야 하며, 이를 절대적 판정 도구로 사용하는 것은 지양해야 한다.
둘째, 교사와 학생 간의 충분한 소통과 함께, 학습 맥락을 고려한 평가 방식을 확대할 필요가 있다.
셋째, AI의 활용과 탐지 기술이 지닌 한계와 위험성에 대해 교사와 학생 모두가 함께 학습하는 교육적 노력이 병행돼야 한다.
넷째, AI와 인간의 글이 혼합되는 과제가 늘어나는 만큼, 혼합형 과제 평가를 위한 명확한 가이드라인을 마련해야 한다.
Turnitin 사례는 교육 평가의 본질이 기술적 판정이 아니라 ‘신뢰의 복원’에 있음을 다시 한 번 강조하고 있다.
[저작권자ⓒ META-X. 무단전재-재배포 금지]