[메타X(MetaX)] 2026년 1월, Anthropic의 성능 최적화 팀 리드 Tristan Hume은 자사 기술 블로그에 다소 씁쓸한 고백을 남겼다. 그가 수년간 공들여 설계한 기술 면접 과제가, 자사가 만든 AI 모델 Claude에게 연이어 패배했다는 이야기였다.
이 고백이 유난히 묵직하게 다가오는 이유는 그 과제는 단순한 코딩 테스트가 아니었기 때문이다.
지난 2년간 Anthropic이 수십 명의 핵심 성능 엔지니어를 선발해 온 검증된 채용 도구였고, 내부에서는 “이 과제에서 잘하면 실무에서도 반드시 잘한다”는 신뢰까지 얻고 있었다.
그런데...
그 시험이, 더 이상 사람을 가려내지 못하게 된 것이다.
AI시대에 오늘의 변별력은, 내일의 무력함이 된다
기술 인재 채용에서 ‘과제형 평가(Take-home test)’는 오랫동안 가장 합리적인 방식으로 여겨져 왔다. 화이트보드 앞에서 즉흥적으로 푸는 퍼즐보다, 실제와 유사한 환경에서 어떻게 사고하고, 어디서 막히고, 무엇을 포기하는지를 볼 수 있기 때문이다.
Anthropic도 같은 이유로 2024년부터 독특한 과제를 도입했다.
지원자들은 가상의 가속기(Accelerator) 환경에서 주어진 코드를 최적화해야 했다. 멀티코어, SIMD, 메모리 병목, 명령어 패킹까지—실제 성능 엔지니어가 매일 씨름하는 문제들이었다. 이 시험을 거쳐 간 지원자만 1,000명 이상. 그중 다수가 지금도 Anthropic의 핵심 인력으로 일하고 있다.
그러나 AI가 고도화되면서 문제가 발생했다.
Claude 3.5 Sonnet: 평균적인 인간 지원자의 수준을 위협하기 시작했다.
Claude 4 Opus: 제한 시간 안에서 대부분의 인간 지원자를 압도했다.
Claude 4.5 Opus: 상위 5% 인간 지원자와 결과물만 놓고는 구분이 불가능해졌다.
결국 2시간이라는 제한 시간 안에서는, 지원자가 작성한 코드가 사람의 논리인지, 모델의 연산인지 판별할 수 없는 임계점에 도달한 것이다.
이쯤되면, 머릿속에 면접관이 코드를 들여다보며 잠시 멈칫하는 장면이 떠오른다.
“이거… 사람이 한 걸까?”
이 질문이 나오는 순간, 평가 도구는 이미 역할을 다한 셈이다.
세 번의 실패가 남긴 교훈은 이제 인간을 증명하는 것은 '낯섦'뿐이라는 것.
트리스탄 흄은 이 과제를 폐기하지 않았다.
대신 세 차례에 걸쳐 전면 수정하며, AI 시대의 ‘변별력’을 실험했다.
그 과정에서 얻은 결론은 기존 채용 상식을 정면으로 뒤집는다.
① 실제 업무와 닮을수록, AI에게 유리하다
초기 과제는 ‘좋은 문제’였다. 현실적이고, 깊이가 있고, 실무와 닮아 있었다. 문제는 바로 그 점이었다. 이런 문제는 이미 AI의 학습 데이터 속에 수도 없이 존재한다. 실무 지향성은 인간을 평가하는 기준이 아니라, AI를 학습시키는 재료가 되고 있었다.
② 난이도를 올리면, AI는 더 빨리 적응한다
병목을 늘리고, 제약을 추가하고, 사고 단계를 깊게 만들어 보았지만 결과는 같았다. 클로드는 인간보다 훨씬 빠르게 문제 구조를 파악했고, 인간이 도달하기 어려운 최적화 지점에 먼저 도착했다. ‘더 어려운 문제’는 해결책이 아니었다.
③ ‘의도적인 불친절’만이 사고력을 드러낸다
마지막 선택은 거의 반칙처럼 보였다.
- 극도로 제한된 명령어 집합, 표준 디버깅 도구 없음, 친절한 설명도 없음.
- 실무와 닮지 않은, 어딘가 기괴하고 불편한 환경.
여기서 흥미로운 일이 벌어졌다. AI는 멈칫했고, 인간은 각자의 방식으로 길을 만들기 시작했다.
로그를 찍는 방식, 문제를 재정의하는 시도, 작은 도구를 즉석에서 만들어내는 판단.
비로소 ‘사람의 사고 과정’이 보이기 시작했다.
이제 면접은 ‘현실 재현’이 아니라 ‘미지의 대응력’을 봐야 한다
AI는 이제 ‘세상에 알려진 지식 관련해서는 이미 세상’의 최강자다. 반면 인간의 강점은 한 번도 가보지 않은 상황에서 어떻게 판단하고, 포기하고, 우회하는가에 있다.
과거의 훌륭한 면접이 실무를 얼마나 정교하게 재현했는지가 기준이었다면, 이제는 기존 실무에서 알려진 문제는 그 어떤 인간보다 AI가 가장 먼저 정복하는 영역이 됐다.
Anthropic이 역설적으로 “현실과 닮지 않은 이상한 문제”를 택한 이유가 바로 여기에 있는 것이다.
흥미로운 대목도 있다. 시간 제한을 완전히 제거하면, 최고 수준의 인간 엔지니어는 여전히 클로드를 근소하게 앞선 것으로 나타났다.
시간제한을 두지 않는다는 조건 하에서만큼은 인간은 아직 AI에 완전히 패배하지 않았다. 다만 단기 결과물 중심의 평가 방식이 인간을 AI의 하위 호환처럼 보이게 만들고 있었을 뿐이다.
그렇다면, 인간다움은 어디에서 증명되는가
여기서 채용의 질문은 기술을 넘어선다. 이제 채용의 질문이 달라져야 한다. “AI가 못 푸는 문제를 내면 되는가?”가 아니라, “인간만이 보여줄 수 있는 사고의 흔적은 무엇인가?”라는 질문으로 말이다.
그 답은 의외로 기술 밖에 있다. 바로 글쓰기다. AI는 완성된 결과물을 빠르게 낸다. 그러나 인간은 왜 그 선택을 했는지, 어디에서 의심했고, 무엇을 버리고 무엇을 남겼는지를 설명할 수 있다.
그리고 그 설명은 대부분 글로 정리될 때 가장 선명해진다. 글쓰기는 단순한 표현 수단이 아니다. 사유의 경로를 기록하는 행위이고, 경험을 해석 가능한 지식으로 바꾸는 과정이며, 자신의 판단을 스스로 검증하는 가장 느리지만 정확한 도구다.
코드는 결과를 보여준다. 글은 사고의 과정을 보여준다.
AI 시대의 면접에서, 글쓰기는 ‘스펙’이 아니라 ‘증거’다
앞으로의 면접은 이렇게 바뀔 가능성이 높다.
- 무엇을 만들었는가? → AI도 답한다
- 왜 그렇게 생각했는가? → 글로 정리한 사람만 답한다
- 비슷한 상황에서 다시 선택한다면? → 경험을 사유한 사람만 말할 수 있다
면접 전에 자신의 경험을 글로 정리해 본 사람과, 그렇지 않은 사람의 차이는 분명하다. 전자는 “나는 이렇게 생각해 왔다”고 말할 수 있고, 후자는 “그때는 그냥 그렇게 했다”고 말할 수밖에 없다.
AI가 결과를 평준화하는 시대일수록, 사유의 깊이와 통찰의 맥락은 글로 남긴 사람만이 증명할 수 있는 차별화 요건이 된다.
인간을 구분하는 마지막 기준은 ‘어떻게 생각해 왔는가’다
Anthropic의 실험은 기술 채용의 실패담이 아니다. AI 시대에 사람을 어떻게 알아볼 것인가에 대한 가장 정직한 현장 보고서다.
시험은 더 이상 인간을 가려내지 못할지도 모른다. 하지만 자신의 경험을 해석하고, 판단의 이유를 언어로 정리하고, 그 사고의 궤적을 글로 남겨온 사람은 다르다.
AI가 면접을 프리패스하는 시대, 인간이 인간다움을 증명하는 마지막 무기는 더 어려운 문제도, 더 빠른 코드도 아니다.
사유하고, 통찰하고, 그 과정을 글로 남겨온 사람.
그 사람이 결국, 끝까지 구분된다.
그렇기 때문에 AI가 더 고도화되면 될수록 AI시대에 글쓰기 능력이 더욱 중요해진다. 그것이 바로 당신에게 'AI시대, 글쓰기공식3GO'가 필요한 이유다.
이 책이 2026년 글쓰기를 고민하는 모든 분들에게 하루의 루틴 시작이 '글쓰기란 즐거움'으로 바뀌는 작은 시작이 되길 바란다.
『AI시대 글쓰기 공식 3GO』는 ‘AI 시대, 나만의 문장을 만드는 비밀 코드’다.
매일의 문장 속에서, 당신만의 언어를 발견하시길. 그리고 그 언어가 당신의 세계를 조금 더 단단하게 만들어주길.
당신의 글쓰기 여정에 행운이 함께하길 빈다. ✨
- 광화문덕 드림
[저작권자ⓒ META-X. 무단전재-재배포 금지]


































