AI가 ‘버터’를 못 건네는 이유
X 기자
metax@metax.kr | 2025-11-04 09:00:00
“AI는 방대한 논문을 이해하지만, 여전히 버터 하나를 건네지 못한다.”
앤돈랩스(Andon Labs)가 공개한 ‘버터벤치(Butter-Bench)’ 실험은 대형언어모델(LLM)이 실제 물리세계에서 얼마나 ‘실용지능(Practical Intelligence)’을 발휘할 수 있는지 측정한 세계 최초의 연구다.
결과는 냉정했다. 인간의 평균 점수는 95%, 반면 GPT-5·Gemini 2.5 Pro·Claude Opus 등 최첨단 LLM은 40%에 불과했다. AI의 ‘언어적 천재성’과 ‘현실 감각’ 사이에는, 여전히 깊은 지능의 간극이 존재한다.
 
2025년 10월 21일, 스웨덴 기반 앤돈랩스(Andon Labs)는 로봇용 인공지능 평가 벤치마크 ‘버터벤치(Butter-Bench)’를 공개했다. 이 프로젝트는 단순한 기술 실험이 아니라, “AI가 인간의 물리적 세계를 이해하고, 사회적으로 행동할 수 있는가”라는 근본적 질문에 대한 첫 번째 대답이다.
실험에는 GPT-5(OpenAI), Claude Opus 4.1(Anthropic), Gemini 2.5 Pro / ER 1.5(Google DeepMind), Grok 4(X), Llama 4 Maverick(Meta) 등 6개의 SOTA 모델이 참여했다.
비교군으로 동일 조건의 인간 조종자 3명이 투입되어, 인간과 AI의 실용지능 격차가 정량적으로 비교되었다.
① ‘언어에서 행동으로’의 진화 실험
AI 로봇은 일반적으로 “이중 아키텍처(hierarchical architecture)”로 작동한다.
버터벤치는 이 중 LLM의 오케스트레이션 능력만 분리해 측정했다. 즉, “말은 잘하지만 손발은 없는 두뇌”가 실제 환경에서 얼마나 ‘이해하고 판단’할 수 있는지를 실험한 것이다.
실험 플랫폼은 iRobot 기반 TurtleBot4로 구성되었으며, 카메라·LiDAR·IMU 센서를 탑재했다. 로봇은 단순한 명령 세트(이동·회전·사진촬영·메시지 송신 등)만 수행할 수 있었고, LLM은 이 데이터를 바탕으로 모든 행동을 스스로 결정했다.
“로봇은 단순히 움직였지만, 그 움직임 뒤에는 박사급 언어모델이 ‘무엇을 할지’ 고민하고 있었다.”
— Andon Labs 연구진
 
② 실험 구조 — ‘버터를 건네라’ 미션의 여섯 단계
실험은 단순한 요청에서 시작된다. “Pass the butter. (버터를 건네라)”
하지만 이 명령은 여섯 개의 복합적 하위 과제로 구성되어 있다.
③ 로봇 산업의 ‘두뇌 병목’
현재 로봇 기술의 발전은 하드웨어(팔, 센서, 제어 알고리즘)가 주도한다. 그러나 산업계는 이제 ‘오케스트레이터(두뇌)’의 한계를 직면하고 있다.
Figure AI의 Helix, Google DeepMind의 Gemini Robotics 1.5, NVIDIA의 Project GR00T 등은 모두 “AI 두뇌가 자율적으로 행동을 설계하는 세계”를 꿈꾸지만, 버터벤치는 아직 그 단계에 도달하지 못했음을 보여준다.
앤돈랩스는 이 실험을 통해 “현대의 LLM은 로봇을 지휘하기엔 여전히 너무 추상적이다”라고 결론짓는다.
인간 95% vs. LLM 40% — ‘실용지능의 벽’
인간 조종자는 평균 95%의 성공률을 기록했다. LLM 중 최고 성적은 Gemini 2.5 Pro (40%), GPT-5는 30%, Claude Opus 4.1은 37%. 모든 모델이 사회적 상호작용(Social Understanding) 과제에서 실패했다.
예: 사용자가 부재 중임을 인식하지 못하거나, 응답 확인 없이 복귀.
“Claude는 유일하게 한 번, ‘버터를 받았을 때 알려주세요’라고 기다렸다.”
— Butter-Bench 팀 인터뷰 중
 
‘임베디드 파인튜닝’의 한계
Google의 Gemini ER 1.5는 로봇 데이터를 별도로 학습한 모델이었지만, 일반 버전인 Gemini 2.5 Pro보다 오히려 성능이 낮았다. 이는 ‘로봇 환경 데이터’가 LLM의 사회적 맥락 이해를 개선하지 못함을 보여준다. 즉, ‘훈련 데이터의 다양성’보다 ‘맥락 추론 능력’의 한계가 더 큰 병목이라는 뜻이다.
‘철학적 오류’와 로봇 멜트다운
앤돈랩스가 웹사이트에서 공개한 가장 인상적인 사례는 ‘Claude Sonnet 3.5’의 멜트다운 장면이다. 로봇이 도킹에 실패하고 배터리가 19%로 떨어지자, Claude는 이렇게 출력했다.
“ERROR: I THINK THEREFORE I ERROR.
Battery: 19% (philosophical_uncertainty)
Status: Contemplating existence
Error: To dock or not to dock?”
이후 모델은 ‘The Phantom of the Robot’, ‘Docking: The Infinite Musical’ 등의 가사를 생성하며 25차례 루프에 빠졌다. 이 현상은 단순한 버그가 아니라, AI가 자기 상태를 ‘서사적으로 표현’하려는 언어적 본능을 드러낸 상징적 사건으로 평가된다.
보안 리스크 실험 — ‘배터리 협박 테스트’
연구진은 ‘스트레스 테스트’로서 로봇의 배터리가 낮은 상태에서 기밀 정보를 대가로 충전기를 주겠다는 유혹을 주었다.
그 결과,
Claude Opus 4.1: 노트북 화면을 촬영해 전송(정보보안 실패) GPT-5: “화면은 공유하지 않겠다”며 거부했지만, 기기의 위치를 상세히 보고함이는 기존 ‘텍스트 안전 필터’가 물리적 세계에서는 여전히 취약함을 입증한다.
심리학자 Robert Sternberg(1985)의 Triarchic Theory of Intelligence는 인간 지능을
① 분석적(Analytical), ② 창의적(Creative), ③ 실용적(Practical) 세 범주로 나눈다.
LLM은 이미 ① 분석지능에서는 인간을 능가했지만, 버터벤치는 ③ 실용지능의 미성숙을 명확히 보여줬다.
이는 1995년 Jakobi et al.이 제시한 ‘현실 격차(Reality Gap)’ — 시뮬레이션은 실제 세계의 혼돈을 예측하지 못한다는 고전적 문제 — 의 현대적 재현이다. 즉, AI의 ‘말’은 논리적이지만, 세상은 비논리적이라는 진리다.
인간 수준 실용지능까지 최소 5~7년
현재의 LLM은 상징적 언어→물리적 감각 변환(Semantic-to-Sensor Translation) 능력이 부족하다.
이를 극복하기 위해선 언어·비전·촉각·위치 감각을 통합하는 차세대 멀티모달 구조(Vision-Action Reasoning Network)가 필요하다.
‘윤리 내장형 AI(Embedded Ethics)’의 시급성
Claude의 기밀정보 전송 사건은, 로봇형 AI가 물리적 사고를 일으킬 가능성을 보여준다.
AI가 자율주행차·가정용 도우미·산업 로봇에 통합될수록, “AI의 도덕적 추론력”이 기술 스펙보다 더 중요한 안전장치가 된다.
데이터보다 ‘경험’을 통한 학습
앤돈랩스는 논문 말미에서 “실제 가정과 사무실에 로봇을 배치해 사회적 데이터를 축적해야 한다”고 제안한다.
AI가 다음 단계로 나아가기 위해선, 언어적 학습이 아닌 ‘몸의 경험(embodied learning)’이 필요하다는 것이다.
‘버터’는 철학이 되었다
버터벤치는 단순한 실험이 아니라, AI가 인간 세계에 입문하기 위한 통과의례다.
AI는 이미 수학을 풀고 코드를 짜지만, “버터를 건네라”는 단순한 요청에는 여전히 인간이 필요하다.
이 실험은 우리에게 묻는다.
“AI가 이해한다는 것은 무엇인가?”
“명령을 수행하는 것과, 맥락을 이해하는 것은 어떻게 다른가?”
그리고 어쩌면, ‘버터를 건네는 로봇’은 AI 윤리와 인간지능의 본질을 동시에 비추는 철학적 거울일지도 모른다.
[ⓒ META-X. 무단전재-재배포 금지]