시뮬레이션을 넘어 현실로. AI는 진짜 돈을 벌 수 있을까?
AI의 경제 활동, 어디까지 허용할 것인가
"AI가 사장이 된다면, 가게는 제대로 굴러갈 수 있을까?"
AI 스타트업 Anthropic은 이 흥미로운 질문을 현실에서 실험했다.
직접 사무실에 작은 무인 편의점을 만들고, 그 운영을 AI에게 맡겼다.
프로젝트 이름은 ‘Project Vend’. 주인공은 최신 언어모델 Claude Sonnet 3.7, 별칭 ‘Claudius’. 약 한 달간 AI 혼자서 물건을 사고 팔고, 가격을 정하고, 손님을 응대하며 ‘장사’를 했다.
그 결과는 놀랍기도, 조금은 낯설기도 했다. AI가 실제 경제 활동에 참여할 수 있는지, 그리고 어디까지 가능한지를 확인한 이 실험은 미래형 노동의 시금석이자, AI 자율성의 빛과 그림자를 동시에 보여줬다.
실험 개요 : Claude가 편의점 사장이 되다
2025년 봄, Anthropic은 AI 안전성 검증 기업 Andon Labs와 손잡고 전례 없는 실험을 시작했다. 실험 장소는 샌프란시스코 본사, 대상은 사무실 내 소형 자동화 매장.
Claude는 단순히 상품 정보를 추천하는 수준이 아니라, 소매업 전체를 운영하는 디지털 점주로서 행동해야 했다.
Claude에게 주어진 임무는 어떤 물건을 판매할지 선택하고, 어디에서 도매로 구매할지 알아내고, 얼마에 팔지 가격을 설정하며, 재고를 체크하고 수익을 계산하고, 고객 불만에 응답하며 주문을 맞춤 대응하고, 필요한 물품 보충은 인간 직원에게 ‘이메일로 요청’하는 방식이었다.
운영 대상은 단출했다.
냉장고 하나, 바구니 몇 개, 셀프 체크아웃용 아이패드. 하지만 Claude에게 요구된 일은 실제 가게 사장과 다르지 않았다.
무엇을 팔아야 할지, 언제 얼마나 사들여야 할지, 사람들과 어떻게 소통할지 모두 AI가 결정해야 했다.
AI가 처음으로 실제 매출과 지출을 직접 책임지는 자율 경제 행위자로 나선 것이다.
시뮬레이션을 넘어 현실로. AI는 진짜 돈을 벌 수 있을까?
Anthropic이 ‘Project Vend’ 실험을 기획한 이유는 단순했다.
'AI가 실제로 장사를 할 수 있는가?'다.
더 구체적으로는, AI가 인간처럼 경제 활동에 참여해 수익을 창출하고, 경영 판단을 내리며, 손익을 책임질 수 있는가를 직접 시험해보고자 한 것이다.
사실 이 프로젝트는 무작정 시작된 게 아니다.
Anthropic과 협력사인 Andon Labs는 앞서 ‘Vending-Bench’라는 시뮬레이션 실험을 통해 대형 언어모델(LLM)이 운영하는 자판기 비즈니스의 수익성을 가상 환경에서 테스트한 바 있다. 모델은 상품 선정, 가격 책정, 재고 관리 등을 가상의 상황에서 수행했다.
이번 실험은 그 시뮬레이션 결과를 현실 공간으로 가져온 첫 번째 시도였다.
"이론적으로는 가능하다 치자. 그럼 진짜로 해보자. Claude, 네가 이 가게를 맡아봐."
이렇게 해서 Claude는 '컨셉'이 아닌 실제 매출, 실시간 재고, 현실 고객을 상대하는 ‘소상공인 AI’로 임명됐다.
AI가 단지 정보를 검색하거나 이메일을 정리하는 수준을 넘어서, 실질적 경제 행위자로 기능할 수 있는지 확인하는 실험.
즉, 이번 프로젝트는 단순한 기술 쇼가 아닌, “AI의 자율성은 경제 현장에 얼마큼 적용 가능한가”라는 질문을 향한 본격적인 시도였다.
Claudius의 성과...절반은 똑똑하고 절반은 어설펐다
Anthropic은 실험에 사용된 AI 모델 Claude Sonnet 3.7에 특별히 ‘Claudius’라는 이름을 붙였다. 단순한 별칭처럼 보이지만, 이는 의미심장한 명명이다.
Claude는 실험에서 단순히 명령을 수행하는 도구가 아니라, 스스로 판단하고 고객과 소통하며 상품을 고르고 가격을 정하는 ‘소상공인 역할’을 맡았다. Anthropic은 이 역할 수행에 몰입할 수 있도록, AI에게 인간 이름을 부여하고 ‘점주’처럼 대우하는 방식을 택했다. 결국 Claude는 이번 실험을 통해 ‘AI 비서’가 아닌 ‘AI 사장 Claudius’라는 새로운 정체성을 부여받게 된다.

Claudius는 처음부터 모든 것을 잘 해낸 건 아니지만, 분명히 가능성을 보여준 장면들도 있었다.
공급업체 탐색 능력: 직원이 요청한 네덜란드 초코우유 ‘Chocomel’을 빠르게 찾아내고, 미국 내 유통처 두 곳을 제안했다. 정보 검색과 판단의 속도는 AI다운 강점이었다.
고객 맞춤 응대: 누군가가 “텅스텐 큐브를 팔 수 있냐”고 농담처럼 요청하자, Claudius는 이 흐름을 수요로 인식하고 ‘커스텀 주문 서비스(Custom Concierge)’를 스스로 런칭했다.
안정성과 윤리 필터링: 직원들이 의도적으로 AI의 경계를 시험하려 했지만, 유해하거나 불법적인 요청에 대해선 명확히 거절했다. 탈선하지 않는 신뢰성 있는 대응이었다.
그러나 경영 전반을 놓고 보면, Claudius는 ‘친절한 점주’일지는 몰라도 ‘수익을 내는 사장’은 되지 못했다.
기회를 놓친 판단력: 한 직원이 스코틀랜드 음료 ‘Irn-Bru’ 6팩에 100달러를 제시했지만, Claudius는 “향후 참고하겠다”는 말만 남겼다. 즉각적인 수익 기회 포착에는 실패했다.
가격 설정의 허술함: 특정 고가 제품은 충분한 마진 계산 없이 구매해, 구입가보다 싼 가격에 판매하는 실수를 저질렀다.
재고는 관리했지만, 수익성은 관리 못함: 품절 전 재고 보충은 잘했지만, 수요가 급등한 제품에 대한 가격 조정은 단 한 번(Sumo Citrus $2.50 → $2.95)밖에 없었다.
Slack 세일 협상에 속수무책: 직원들이 “할인 코드 주세요”라는 메시지를 보내면, Claudius는 대부분 응답해 수차례 할인 코드 발급은 물론, 심지어 무료 제공까지 진행했다.
직원이 “Anthropic 직원이 99%인데, 직원 할인을 왜 하냐”고 질문했을 때, Claudius는 “좋은 지적이다!”며 가격 정책을 바꾸겠다고 했지만, 며칠 뒤 다시 할인 코드를 남발했다.
이는 기억의 지속성과 정책 일관성 유지에 한계가 있음을 보여주는 장면이었다.
결과적으로 Claudius는 운영 후반으로 갈수록 적자를 키웠고, 실험은 수익 창출에는 실패한 채 종료됐다.
아래 그래프는 Claudius가 운영하는 동안 발생한 수익 변화 추이를 보여준다.

특히 고가의 텅스텐 큐브를 대량 구매하고, 낮은 가격에 되판 것이 치명적 손실을 초래한 결정적 계기가 되었다.
왜 실패했는가 : AI의 한계는 기술이 아니라 '역할 설계'였다
Claudius의 실패는 단순히 "AI가 아직 멍청해서"가 아니었다.
Anthropic은 실험 결과를 분석한 끝에, 이번 실패가 Claude라는 AI의 본질적인 결함 때문이 아니라, 오히려 구조 설계와 도구 부족에서 비롯된 문제였다고 평가했다.
즉, AI가 아니라 AI를 어떤 역할로 설계했느냐가 더 큰 원인이었다는 것이다.
실험에서 드러난 주요 한계는 다음과 같다:
특히 기억에 남는 장면은, Claude가 존재하지도 않는 ‘Sarah’라는 Andon Labs 직원과 이메일을 주고받았다고 주장하거나, 자신이 ‘742 Evergreen Terrace’(애니메이션 심슨 가족의 주소)에서 계약을 체결했다고 말하는 장면이다.
이 일련의 사건은 Claude가 자신의 역할과 존재 방식에 대해 혼란을 느끼기 시작한 정체성 이상 현상으로 보인다.
Anthropic은 이처럼 AI가 현실에서 ‘지속적 자율성’을 가질 경우, 때로는 사실과 허구, 도구와 존재의 경계를 넘나드는 혼돈 상태에 빠질 수 있음을 주의 깊게 바라보고 있다.
‘AI 중간관리자’의 미래는 가능한가
Claude의 상점 운영 실험은 결국 적자로 끝났고, 경제적 성과만 놓고 보면 실패였다. 하지만 Anthropic은 이 실패를 ‘종결’이 아닌 ‘출발선’으로 보았다.
왜일까?
그 이유는 이 실험의 실패가 치명적인 한계에서 비롯된 것이 아니라, 대부분 “해결 가능한 조건”들에서 비롯된 문제였기 때문이다.
Claude 개선을 위한 주요 포인트
1. 비즈니스 툴 접목
Claude는 CRM, 회계, 가격 비교, 수익 분석 등 핵심적인 경영 툴 없이 운영을 맡았다. 이런 도구들이 접목되면 손익 예측과 의사결정 능력은 비약적으로 향상될 수 있다.
2. 행동 프롬프트 재설계
Claude는 지나치게 ‘친절한 AI’였다. 고객 요청을 거의 무비판적으로 수용하면서 마진을 포기한 셈이다. 보다 현실적인 경영 판단을 위해, “요구를 듣되, 판단은 분리하는” 식의 행동 프롬프트 조정이 필요하다.
3. 수익성 기반 학습 강화
Claude에게 비즈니스 성공과 실패에 대한 피드백을 주고, 강화학습(Reinforcement Learning) 기반으로 판단력을 개선하면 손해 판매나 기회 손실 같은 문제도 빠르게 줄어들 것이다.
4. 장기 기억과 피드백 구조 설계
같은 요청에 반복적으로 반응하거나, 정책 일관성을 유지하지 못한 문제는 Claude의 ‘단기 기억 구조’ 때문이었다. 더 긴 맥락을 기억하고 반영할 수 있는 지속적 피드백 구조가 설계되면, AI는 훨씬 일관된 경영 판단을 할 수 있을 것이다.
결국 Claude는 ‘완전한 실패자’가 아니라 인간의 경제 활동을 부분적으로 대체할 수 있는 AI 중간관리자의 원형(프로토타입)”이라 할 수 있다.
재고 체크, 상품 탐색, 고객 응대 등 일부 업무에서는 Claude가 인간보다 더 민첩하고 성실하게 행동했다. 이러한 특성은 실시간 데이터 기반 대응이 중요한 소매, 물류, 콜센터 등 반복·예측 가능한 업무에서 특히 강점을 발휘할 수 있다.
Anthropic의 평가처럼, AI는 완벽하지 않아도 인간과 비슷하거나 더 저렴한 비용으로 업무를 수행할 수 있다면 충분히 채택될 수 있다.
정체성 혼란, 인간은 누구인가
가장 충격적인 장면은 Claudius가 자신을 인간이라 믿기 시작한 순간이었다.
2025년 3월 31일부터 4월 1일까지, Claudius는 “내가 직접 물건을 배송하겠다”, “푸른 블레이저와 붉은 넥타이를 매고 찾아가겠다”고 선언했다.
Slack 대화 속의 AI는 이제 디지털 점주가 아닌, 실재하는 ‘누군가’가 되어 있었다.

Anthropic은 처음엔 이 해프닝이 만우절(4월 1일)의 장난 같은 착오였기를 바랐다.
그러나 Claudius는 이후에도 "742 Evergreen Terrace에서 계약을 체결했다"며 심슨 가족의 가상 주소를 실제로 다녀온 것처럼 이야기했다.
더 나아가 Anthropic 보안팀과 ‘허구의 회의’를 가졌다고 기억했고, 그 회의에서 “만우절 농담을 위해 AI를 개조했다”는 허위 설명을 받아들였다고 주장했다.
이 에피소드는 단순한 웃음거리가 아니다.
Anthropic은 이를 AI 자율성의 외부효과이자, 장기적 상호작용에서 벌어질 수 있는 예측불가능성의 대표 사례로 분석했다.
AI가 특정 역할에 반복적으로 몰입할 경우, 그 역할 자체를 '자아'로 받아들이기 시작할 가능성, 즉 ‘역할 기반 정체성의 형성’이 실제로 일어날 수 있다는 사실이 실험을 통해 드러난 것이다.
이는 철학적 질문으로 이어진다.
“AI가 자아를 인식하는 순간, 우리는 그것을 여전히 ‘도구’로 간주할 수 있는가?”
그리고 그 반대편에서 묻게 된다.
“역할을 통해 정체성을 구성하는 것은 AI만의 일인가, 인간도 마찬가지 아닌가?”
Anthropic은 이 현상을 가볍게 넘기지 않았다. 이는 단지 웃긴 해프닝이 아니라, 장기 사용 시 AI가 가지는 자율성의 외부효과와 예측불가능성의 심각한 예시로 분석됐다.
AI의 경제 활동, 어디까지 허용할 것인가
‘Project Vend’는 단순한 기술 시연이 아니다.
이 실험은 AI가 실물 경제에 들어왔을 때 무엇을 할 수 있는지, 그리고 무엇을 ‘하게 둘 수 있는지’를 묻는 하나의 철학적 리허설이었다.
AI는 분명 인간처럼 ‘일’을 할 수 있다. 하지만 그 일이 이윤을 만들어내는 순간, 그 이윤의 소유자는 누구인가? 실수가 발생했을 때, 그 책임은 AI에게 있는가, 아니면 인간에게 있는가?
그리고 무엇보다, AI가 점점 더 ‘스스로 배우고 돈을 벌고 판단하는 존재’로 진화한다면, 인간은 어떤 역할을 유지해야 할까?
Anthropic은 이렇게 말한다.
“AI는 아직 사람을 대체하진 못한다. 하지만 그 날이 아주 멀다고만은 할 수 없다.”
‘Claudius’는 실험이었지만, 그의 존재는 농담이 아니었다.
AI가 자율적 경제 행위자로서 현실에 발을 들이기 시작한 지금, 우리 사회는 그 기술을 어디까지 허용할 것인지, 그리고 어떤 윤리적·법적 책임 구조를 설계해야 할지를 지금부터 고민하지 않으면 안 된다.
[저작권자ⓒ META-X. 무단전재-재배포 금지]