AI가 이긴 면접시험의 종말

이든 기자

metax@metax.kr | 2026-01-30 11:00:23

앤트로픽, Claude 앞에 무너진 채용 과제
기술평가는 어떻게 다시 설계돼야 하나

[메타X(MetaX)] Anthropic이 공개한 내부 채용 사례는 생성형 AI 시대에 기술 평가가 어떤 속도로 붕괴될 수 있는지를 극명하게 보여준다. 성능 최적화 팀을 이끄는 엔지니어 트리스탄 흄은 2023년 말부터 실제 업무를 최대한 반영한 성능 엔지니어링 테이크홈 과제를 설계해 왔다. 가속기 시뮬레이터 위에서 코드를 최적화하는 이 과제는 1,000명 이상이 응시했고, 트레이니엄 클러스터 구축과 Claude 시리즈 모델 출시를 담당한 다수의 핵심 엔지니어를 선발하는 데 실질적인 기준으로 기능해 왔다.

그러나 2025년을 기점으로 상황은 급변했다. 동일한 시간 제한에서 Claude Opus 4는 대부분의 인간 지원자를 능가했고, 이후 등장한 Claude Opus 4.5는 상위권 지원자들의 성과와 사실상 구분이 불가능한 수준까지 도달했다. 문제는 모델이 단순히 ‘잘 푼다’는 데 있지 않았다. 제한된 시간 안에서, 인간이 문제를 이해하고 전략을 세우는 속도 자체를 모델이 압도해 버렸다는 점이 결정적이었다. 테이크홈의 출력 결과만 놓고 보면, 더 이상 그것이 사람의 판단과 사고의 산물인지, 모델의 연산 결과인지 구별하기 어려워진 것이다.

이 테이크홈은 본래 현실성이 강점이었다. 실제 가속기 최적화 업무처럼 병렬성, 메모리 관리, 명령어 패킹을 다뤘고, 디버깅과 도구 제작 능력까지 평가할 수 있도록 설계됐다. 하지만 바로 그 현실성이 약점으로 돌아왔다. 가속기 최적화는 더 이상 인간만의 경험 영역이 아니었고, 모델은 방대한 코드·논문·시스템 최적화 사례를 학습한 상태에서 인간보다 빠르게 해법 공간을 탐색했다. 결과적으로 “실무에 가까운 문제”일수록 모델이 더 강해지는 역설이 드러났다.

앤트로픽 내부에서는 몇 가지 선택지가 논의됐다. AI 사용을 전면 금지하는 방안도 거론됐지만, 이는 현실과 동떨어진 해법으로 판단됐다. 실제 업무 현장에서 엔지니어는 AI 도구와 함께 일하고 있으며, 채용 과정만 이를 배제하는 것은 의미가 없다는 이유에서다. 대신 팀은 과제를 세 차례에 걸쳐 재설계했다. 두 번째 버전에서는 모델이 어려워하는 지점을 기준으로 난이도를 상향하고, 불필요한 디버깅 요소를 제거해 순수한 최적화 사고력을 묻도록 바꿨다. 하지만 이 버전 역시 Claude 4.5가 짧은 시간 안에 돌파했다.

결국 세 번째 시도에서는 방향이 근본적으로 바뀌었다. 문제의 ‘현실성’을 일부 포기하고, 극도로 제약된 명령어 집합과 낯선 규칙을 가진 퍼즐형 과제를 도입했다. 일반적인 시스템 최적화 경험이나 학습 데이터가 거의 도움이 되지 않는, 이른바 분포 밖(out-of-distribution) 문제를 의도적으로 설계한 것이다. 디버깅 도구조차 제공하지 않고, 지원자가 직접 최소한의 관측 수단을 만들어야만 문제를 풀 수 있도록 했다. 이는 결과물보다 “어디에 시간을 쓰고, 무엇을 먼저 의심하며, 어떤 도구를 만드는가”를 보기 위한 평가로 성격이 전환됐음을 의미한다.

이 변화는 기술 평가의 기준이 이동하고 있음을 시사한다. 과거에는 정해진 문제를 얼마나 빠르고 정확하게 풀 수 있는지가 핵심이었다면, 이제는 문제를 정의하는 능력, 불확실성을 다루는 태도, 그리고 AI가 낸 답을 비판적으로 검증하는 사고력이 더 중요한 신호가 되고 있다. 모델이 코드 생산을 담당하는 환경에서는, 엔지니어의 가치는 점점 더 설계·판단·검증의 영역으로 이동한다는 인식이 채용 평가에도 반영되기 시작한 것이다.

앤트로픽은 기존 테이크홈 과제를 오픈 챌린지 형태로 공개하며, 충분한 시간 조건에서는 여전히 인간 전문가가 모델을 앞설 수 있다고 밝혔다. 실제로 무제한 시간 환경에서는 인간이 Claude보다 더 낮은 사이클 수를 달성한 사례도 존재한다. 그러나 이 우위는 즉각적인 속도가 아니라, 장시간에 걸친 탐구와 집요한 개선에서 나온다. 이는 인간의 경쟁력이 더 이상 ‘빠른 해답’이 아니라 ‘지속 가능한 사고력’에 있음을 상징적으로 보여준다.

이번 사례가 던지는 메시지는 명확하다. 생성형 AI 시대에 기술 평가는 더 이상 고정된 시험지가 될 수 없다. 평가는 모델 성능의 진화 속도를 전제로 끊임없이 갱신돼야 하는 시스템이 됐다. 더 나아가 기업은 이제 근본적인 질문 앞에 서게 된다. 우리는 사람을 뽑고 있는가, 아니면 AI를 다루는 판단력을 뽑고 있는가. 이 질문에 답하지 못하는 채용 제도는, 점점 더 우연과 운에 기대는 방식으로 전락할 가능성이 크다.

[ⓒ META-X. 무단전재-재배포 금지]

WEEKLY HOT