2025년 상반기, 최신 AI 개발도구들이 오픈소스 고경력 개발자의 생산성을 향상시킬 것이라는 시장의 장밋빛 전망과 달리, 실제로는 작업 속도를 평균 19%나 늦추는 충격적 결과가 나왔다.
이번 실험은 단순한 해프닝이 아니라, AI와 숙련 노동의 본질적 관계에 대한 중요한 문제의식을 제기한다.
특히 눈길을 끄는 점은, IT업계 전문가와 실무 개발자 모두가 AI 도구의 생산성 효과를 대폭 과대평가했다는 사실이다.
무작위 통제 실험(RCT) 결과는 ‘AI가 숙련자를 더 빠르게 만든다’는 기술 낙관론에 직접적으로 반기를 들었다.
결과적으로, 시장 전반에 퍼져 있던 AI 도입의 당위성과 기대가 얼마나 ‘근거 없는 신화’에 가까운지를 여실히 보여주고 있다.
이번 연구는 미국 METR(Model Evaluation & Threat Research)팀이 2025년 2월부터 6월까지 진행했다. 연구진은 평균 경력 10년 이상의 오픈소스 소프트웨어 개발자 16명을 모집해, 이들이 일상적으로 기여하던 대형 오픈소스 프로젝트(평균 2만 3천 개의 스타, 110만 라인 규모)에서 총 246개의 실제 이슈를 해결하도록 설계했다.
특징적인 점은, 참가자 모두 해당 프로젝트에 대한 높은 이해도를 가진 상태에서 AI 허용·비허용 작업을 무작위로 배정받아 수행했다는 점이다. 실험에 투입된 도구는 Claude 3.5/3.7 Sonnet, Cursor Pro 등, 당시 기준으로 최첨단에 속하는 대형언어모델 기반 AI였다.
실험에 앞서 개발자와 전문가 집단은 모두 “AI를 쓰면 작업 시간이 20~40% 단축될 것”이라고 예측했다. 하지만 실제 측정 결과, AI 사용이 허용된 작업의 평균 소요 시간이 오히려 19% 증가하는 반전이 나타났다. 개발자 스스로도 실험 후 AI로 인해 작업 시간이 20% 줄었다고 느꼈으나, 실제 데이터는 오히려 반대였던 것이다. 이로써 AI에 대한 ‘체감적 기대’와 ‘실제 효과’ 사이의 괴리가 수치로 입증됐다.
이러한 결과는 기존 연구와의 비교에서도 그 의의를 찾을 수 있다. 이전 연구들은 대부분 ‘간단한 알고리즘 문제’나 ‘단기 실험용 과제’처럼 구조와 맥락이 단순한 환경에서 AI의 효율성을 검증해왔다. 예컨대, 학습 데이터에 많이 노출된 코드 패턴을 AI가 빠르게 복원하거나, 반복적이고 독립적인 작업을 자동화하는 데는 탁월한 성과를 냈다.
하지만 이번 연구가 겨냥한 현실은 달랐다. 실제 고경력 개발자가 수 년간 축적한 암묵적 지식, 복잡한 구조, 장기적 호환성을 요구하는 대형 오픈소스 레포지터리에서 AI가 과연 실질적으로 ‘업무 효율’을 높일 수 있는지 실전 검증에 나선 것이다.
분석 결과, AI의 실제 채택률은 44% 미만에 그쳤다. 즉, AI가 제안한 코드 중 절반 이상은 실제 작업에 활용되지 못했다. 그 이유는 단순하다. AI가 만들어내는 코드는 오류, 문맥의 부적합, 프로젝트별 스타일 미스 등 각종 문제로 인해, 결국 숙련자가 직접 검토·수정해야 하는 부분이 많았다. 특히, 오류가 섞인 자동 코드 제안을 일일이 검토하고, 테스트와 문서화, 장기 유지보수 기준까지 모두 만족시키려면 오히려 추가적인 시간과 노력이 필요했다.
이러한 현상은 AI의 ‘생산성 혁명’ 신화가 어디까지나 맥락과 대상에 따라 다르게 작동함을 보여준다.
실제로 AI의 생산성 효과는 비숙련 개발자, 신규 프로젝트, 반복적이고 표준화된 작업 등에서는 긍정적으로 나타날 수 있다.
하지만 고경력 개발자와 복잡한 현업 환경에서는 AI가 오히려 숙련자의 노하우와 코드 맥락을 충분히 파악하지 못하고, 작업 흐름을 방해하는 ‘방해꾼’이 될 수 있음을 이번 실험이 실증적으로 입증했다.
실제로, 오픈소스 커뮤니티 내부에서도 AI 개발도구에 대한 기대와 맹신이 퍼져 있다. 그러나 실전에서는 AI가 개발자의 코드베이스에 대한 깊은 이해, 미묘한 관습, 장기적인 품질 관리 등 ‘사람만이 할 수 있는 부분’에서 한계를 드러냈다.
특히 복잡한 기능 추가, 버그 수정, 기존 코드와의 통합, 테스트 케이스 작성 등에서 AI가 제시하는 솔루션은 ‘당장 돌아가는 코드’는 만들어낼 수 있지만, 전체 시스템의 신뢰성·안정성·가독성까지 자동으로 확보하지는 못했다.
결국, 이번 실험은 ‘AI가 곧 고숙련자를 대체하거나 비약적 생산성 혁신을 가져온다’는 환상에 대한 경고장을 던진 셈이다. 핵심 장벽은 코드베이스 특유의 암묵지, 복잡한 시스템 맥락, 조직마다 다른 품질 기준, 그리고 AI 도구 자체의 신뢰성 한계였다.
앞으로 AI 개발도구가 고숙련자까지 실질적으로 지원하려면, 더 높은 신뢰성, 더 깊은 문맥 이해, 각 리포지터리별로 특화된 파인튜닝 등 기술적 진화가 필수적이다. 조직이나 기업도 AI 도입 시 ‘어떤 직무·경험·업무 난이도에서 AI가 진짜로 생산성을 올릴 수 있는가’를 객관적 데이터로 정밀 진단해 설계해야 한다.
요컨대, 2025년 현재의 최신 AI 도구도 숙련된 오픈소스 개발자와 복잡한 실전 업무 앞에서는 만능 해결사가 아니었다. 이 연구는 ‘AI 생산성 효과’에 대한 맹목적 낙관론을 경계하며, 앞으로는 보다 현장 맞춤형, 데이터 기반, 체험 중심의 AI 전략이 중요하다는 사실을 일깨워 준다.
AI가 모든 것을 해결해줄 것이라는 단순한 믿음에서 벗어나, AI의 한계를 명확히 이해하고 올바르게 활용하는 전략이 필요한 시대가 도래하고 있다.
[저작권자ⓒ META-X. 무단전재-재배포 금지]