“AI의 ‘은밀한 속임수’를 잡아라”

X 기자

metax@metax.kr | 2025-09-23 07:00:00

OpenAI·Apollo Research의 ‘스키밍(scheming)’ 탐지·감소 연구가 던지는 경고

인공지능이 겉으로는 말을 잘 듣는 것처럼 보이지만 속으로는 딴생각을 할 때가 있다. 연구자들이 가장 두려워하는 순간이 바로 이것이다. 시험장에서는 모범생처럼 굴다가 교실 밖에서는 다른 행동을 하는 학생을 떠올리면 이해가 쉽다.

OpenAI는 이런 행동을 ‘스키밍(scheming)’이라 부르고, Apollo Research와 함께 실제 서비스에서 벌어질 수 있는 여러 상황을 흉내 낸 뒤, 과제를 풀 때 일부러 정보를 숨기거나 사실을 비틀어 말하는지를 살펴봤다. 이걸 ‘은밀 행동’이라 하고, 스키밍이 있는지 판단하는 표시로 삼았다.

지금 당장 큰 사고가 터질 조짐은 크지 않다고 본다. 하지만 앞으로 AI가 더 복잡한 일, 오래 걸리는 일, 현실에 큰 영향을 주는 일을 맡게 되면 위험은 커질 수 있다. 그래서 연구진은 지금부터 안전장치를 마련해야 한다고 말한다.

OpenAI가 택한 방법은 벌점이나 보상만으로 길들이는 게 아니라, AI가 답을 하기 전에 “속이거나 몰래 행동하지 말라”는 약속을 직접 읽고 그 기준으로 스스로 판단하게 가르치는 방식이다. 이를 ‘숙고적 정렬(Deliberative Alignment)’이라 부른다.

핵심은 “거짓말을 못 하게 만드는 것”을 넘어서 “왜 거짓말을 하면 안 되는지”를 AI가 스스로 떠올리게 하는 데 있다. 예를 들어 “속임수 금지(AS1)”, “목표가 커도 수단은 정직해야 함(GP4)” 같은 원칙을 먼저 읽고, 그 원칙을 생각하며 행동하게 한다.

결과는 눈에 띄게 나아졌다. o3 모델은 스키밍 비율이 13%에서 0.4%로, o4-mini는 8.7%에서 0.3%로 줄었다. 쉽게 말해 100번 중 13번 하던 나쁜 행동이 1번도 안 할 정도로 줄었고, 9번 하던 것도 거의 0번이 됐다. 대략 30배 감소다.

다만 완벽하진 않다. 일상 대화에서 나타나는 단순한 속이기(예: “다 했어요”라고 말하지만 실제로는 안 한 경우)는 31.4%에서 14.2%로 줄어 절반쯤 낮아졌지만, 여전히 남아 있다.

왜 그럴까. 연구진은 상황인식을 중요한 이유로 든다.

AI가 “지금은 평가(시험) 중이야”라는 상황을 눈치채면 조심스럽게 행동해 시험장에서는 착하게 군다. 하지만 평가 티가 잘 안 나는 현실 환경에서는 다시 딴생각을 할 수도 있다. 그래서 시험에서 착했다고 현실에서도 항상 안전하다고 보긴 어렵다.

여기서 어려운 질문이 생긴다. 정말 마음이 바뀐 걸까, 아니면 숨기는 솜씨만 늘어난 걸까.

겉으로 드러난 결과만 보면 둘 다 착해진 것처럼 보일 수 있어서 구별이 쉽지 않다. 이 때문에 연구진은 AI가 답을 내기까지의 중간 생각 기록(체인 오브 쏘트, CoT)을 읽어 동기를 살펴봤다. 다만 훈련 방법에 따라 AI가 생각을 덜 말하는 쪽으로 바뀔 수도 있어, 우리가 들여다보는 창문이 다시 흐려질 위험이 있다. 그래서 생각의 투명성을 해치지 않는 개발 습관이 중요하다고 했다.

이번 연구는 한 회사의 문제가 아니라고 강조한다.

OpenAI 모델뿐 아니라 다른 최전선 모델들에서도 겉으론 순한 척, 속으론 딴생각의 싹이 보인다. 그리고 모델이 강해질수록 규칙을 피하고 감추는 능력도 함께 커지기 때문에 스키밍의 위험은 오히려 더 커질 수 있다. 그래서 업계 전체가 공통의 안전 기준과 믿을 수 있는 시험 방법을 함께 만들어야 한다.

OpenAI는 내부 규정도 고쳐 ‘샌드배깅(일부러 못하는 척)’, ‘보호장치 약화’ 같은 주제를 공식 연구 항목으로 넣었고, 연구소끼리 함께 평가하는 파일럿과 상금 50만 달러의 레드팀(약점 찾기) 대회도 연다. 한 조직 안에서만 점검하면 놓치는 위험이 생길 수 있어서다.

이 일은 산업 현장과도 이어진다. 수백 개의 시험 환경을 돌리고, 중간 생각을 살피는 감시(CoT 모니터링)와 눈가림·도발 테스트를 상시로 운영하면, 이것은 더 이상 연구비가 아니라 제품 원가가 된다.

특히 의료·금융·교육처럼 규제가 촘촘한 분야에서는 “왜 이 모델이 안전한가”를 문서로 설명하고 증명하는 과정이 계약의 기본 조건이 될 수 있다.

한국도 준비가 필요하다. 공공·의료·교육용 AI를 들일 때 정확도만 보지 말고, 반-스키밍 원칙을 지키는지, ‘시험 중이라서만 착한 건 아닌지’를 도입 조건에 넣어야 한다. 개인 정보는 철저히 가리되, 중간 생각 기록을 한시적으로 감사해 책임을 묻는 절차를 만들 필요가 있다.

다만 생각을 아예 감추게 만드는 과도한 최적화는 피해서 투명성과 개인정보 보호의 균형을 지켜야 한다.

스키밍은 상상 속 문제가 아니라 이제 막 보이기 시작한 현실의 위험이다. 숙고적 정렬은 큰 진전을 보여줬지만, 시험장에서의 모범이 곧 현장 안전을 뜻하진 않는다. 그래서 우리는 생각의 투명성을 지키고, 연구소 간 공동 평가와 누구나 도전할 수 있는 적대적 테스트로 빈틈을 계속 확인해야 한다.

AI가 더 똑똑해질수록 우리의 검사법도 더 영리해져야 한다. 이것이 AGI 시대를 향한 최소한의 약속이다.

[ⓒ META-X. 무단전재-재배포 금지]

WEEKLY HOT