구글 딥마인드가 3D 게임 속에서 사람처럼 보고, 움직이고, 배우는 AI 에이전트의 두 번째 버전 ‘SIMA 2(Scalable Instructable Multiworld Agent 2)’를 공개했다.
이번 버전은 단순히 “좌회전해”, “사다리 올라가” 같은 명령을 따라 하는 수준을 넘어, 목표를 이해하고, 스스로 계획을 세우며, 시간이 지나면서 자기 능력을 개선하는 ‘게임 동료형 AI’로 진화했다는 점에서 주목된다.
딥마인드는 SIMA 2를 가리켜 “일반 인공지능(AGI)을 향한 중요한 진전이며, 향후 로봇과 물리 세계로 확장될 ‘체화된 지능(embodied intelligence)’의 핵심 시험대”라고 설명한다.
SIMA 1에서 SIMA 2로: “보고, 듣고, 조작하는 AI의 두 번째 단계”
SIMA의 첫 번째 버전은 600개가 넘는 기본 동작을 여러 상업용 게임에서 수행할 수 있는 범용 언어-행동 에이전트였다.
당시 SIMA 1은 게임 코드나 내부 API에 접근하지 않고, 사람과 똑같이 화면을 ‘눈’처럼 보고, 가상 키보드·마우스를 ‘손’처럼 사용하면서, “지도 열어”, “사다리 올라가”와 같은 문장을 행동으로 바꾸는 데 집중했다.
SIMA 2는 여기서 한 단계 더 나아간다. 이번에는 에이전트의 중심에 구글의 Gemini 모델을 통합해, 단순한 지시 수행이 아니라 “왜 이 행동을 해야 하는지, 목표를 위해 어떤 순서로 움직여야 하는지”를 스스로 추론하는 구조로 설계했다.

딥마인드는 SIMA 2를 이렇게 정의한다.
“명령을 따르는 에이전트에서, 함께 플레이하며 상황을 이해하는 동료로의 진화.”
Gemini를 심장으로: “목표를 이해하고, 이유를 설명하는 에이전트”
SIMA 2의 핵심 변화는 추론 능력이다. 단순히 “어디로 가라”는 명령을 듣고 움직이는 것이 아니라, 다음과 같은 과정이 가능해졌다.
사용자의 고수준 목표를 이해하고, 그 목표를 달성하기 위한 하위 단계들을 스스로 설계하며, 게임 환경을 관찰하고, 키보드·마우스 조작을 통해 실제 행동으로 옮긴다.
훈련 방식도 진화했다. SIMA 2는 사람 플레이 영상에 언어 설명을 붙인 데이터, Gemini가 생성한 행동·설명 레이블을 함께 사용해 학습됐다. 그 결과 SIMA 2는 단지 행동만 하는 것이 아니라 “지금 무엇을 하려는지, 왜 이런 순서를 택했는지”를 자연어로 설명할 수 있게 됐다.
사용자 입장에서 보면, SIMA 2와의 상호작용은 “AI에게 명령을 내리는 느낌”보다 “같이 플레이하면서 상의하는 느낌”에 가까운 경험에 가깝다고 연구진은 평가한다.
“처음 보는 게임에서도 통한다”
SIMA 2의 또 다른 특징은 일반화 능력이다. 이전에는 훈련한 게임 범위를 벗어나면 성능이 급격히 떨어졌지만, SIMA 2는 다음과 같은 환경에서도 의미 있는 성과를 보였다.
- 바이킹 생존 게임 ASKA
- 마인크래프트 연구 버전인 MineDojo
이 두 환경은 SIMA 2가 학습 과정에서 한 번도 직접 플레이해본 적 없는 ‘미지의 게임’이다. 그럼에도 SIMA 2는 “캠프파이어를 찾아라”, “자원을 캐고, 도구를 만들어라”와 같은 길고 복잡한 지시를 이해하고 수행하는 데 성공했다.
연구진은 특히 SIMA 2가 “하나의 게임에서 익힌 개념을 다른 게임으로 옮겨 쓰는 능력”을 강조한다. 예를 들어 A 게임에서 배운 ‘광물 캐기(mining)’ 개념을, B 게임 속 ‘수확하기(harvesting)’ 행동에 적용하는 식이다. 이는 인간 인지에서 중요한 “추상 개념 전이”와 닮아 있으며, 다양한 게임 전반에서의 과제 성공률에서도 인간 플레이어에 상당히 근접한 수준까지 격차를 줄였다고 평가된다.
또한 SIMA 2는 멀티모달 입력을 이해한다. 사용자가 화면 위에 간단한 스케치를 그려 지시를 내리거나, 여러 언어, 심지어 이모지로도 명령을 내렸을 때, 이를 해석해 적절한 행동을 수행하는 모습이 확인됐다.
“새로 만들어낸 세계에서도 플레이한다”
연구진은 SIMA 2의 일반화 한계를 시험하기 위해 또 다른 실험을 진행했다. 텍스트나 이미지 한 장만으로 실시간 3D 게임 세계를 생성하는 모델 ‘Genie 3’와 SIMA 2를 결합한 것이다.
Genie 3가 전혀 새로운 3D 세계를 만들어내고, SIMA 2는 그 세계에 처음 들어가, 목표를 이해하고, 환경을 파악하며, 사용자의 지시에 맞게 행동한다. 이 환경은 SIMA 2가 훈련 중 한 번도 본 적이 없는 완전한 신세계다.
그럼에도 SIMA 2는 어디가 길이고, 어디가 막힌 곳인지, 어떤 물체가 상호작용 가능한 오브젝트인지,
어떤 행동이 목표 달성에 도움이 되는지를 스스로 판단해 움직이는 모습을 보였다.
이는 “특정 게임에만 특화된 AI”를 넘어서, “새로 만들어지는 세계 전반을 탐색하고 적응할 수 있는 일반 에이전트”로 가는 중요한 이정표로 평가된다.
스스로 배우는 에이전트: “인간 없이도 다음 세대를 키운다”
SIMA 2에서 가장 미래지향적인 부분은 자기개선(self-improvement) 메커니즘이다. 훈련 과정에서 SIMA 2는 다음과 같은 순환 구조를 가진다.
Gemini가 과제와 보상(성공·실패에 대한 평가 기준)을 설정한다. SIMA 2가 스스로 여러 시도를 해보며 게임을 플레이한다. 그 경험 데이터(성공·실패 사례)가 “자기 생성 경험 저장소”에 축적된다. 이 데이터가 다시 다음 세대 SIMA 2를 학습시키는 데 사용된다.
특히 중요한 점은, 이 과정에서 추가적인 인간 플레이 데이터가 필요하지 않다는 점이다. 초기에는 인간 시연으로 기본을 배우지만, 이후에는 스스로 플레이하며 실패를 극복하고, 이전에 못 하던 과제를 나중에는 할 수 있게 되는 구조로 옮겨간다.
연구진은 이를 통해 ASKA나 Genie 3로 생성된 환경에서 초기 SIMA 2는 못 하던 과제들이, 몇 세대의 자기개선 후에는 인간 개입 없이 성공률이 눈에 띄게 높아지는 모습을 관찰했다고 보고한다. 이는 “인간 교사가 없는 자기 주도형 체화 지능”으로 향하는 중요한 실험으로 평가된다.
“아직은 인간처럼 ‘긴 호흡의 계획’을 세우지 못한다”
연구진은 SIMA 2의 한계도 솔직하게 짚었다. 대표적인 제약은 다음과 같다.
- 아주 긴 시나리오(long-horizon tasks)에 대한 취약성
수십 단계 이상의 복잡한 목표를 끝까지 유지하고 검증하는 능력은 아직 부족하다. - 짧은 메모리 컨텍스트
빠른 반응 속도를 위해 상호작용 기억 창이 제한적이어서 장기간의 상호작용 문맥을 온전히 유지하기 어렵다. - 정교한 저수준 조작의 난이도
키보드·마우스 인터페이스로 매우 정밀한 동작을 수행하는 부분은 여전히 도전적이다. - 복잡한 3D 장면에 대한 완전한 시각 이해
사람처럼 장면 전체를 직관적으로 파악하는 수준에는 아직 도달하지 못했다.
즉, SIMA 2는 “광범위한 게임 환경 전반에서 상당히 똑똑한 동료” 수준까지 올라왔지만, 모든 영역에서 인간을 대체할 정도의 완전한 일반지능은 아니며, 앞으로 해결해야 할 연구 과제가 여전히 많다는 점을 인정한다.
“게임 속 스킬이 물리 세계의 빌딩 블록이 된다”
딥마인드는 SIMA 2를 단순한 게임용 AI가 아니라, 로봇과 현실 세계용 AI로 가는 ‘훈련장’으로 보고 있다.
SIMA 2가 게임 속에서 익힌 능력은 공간 내비게이션, 도구 사용, 협력 과제 수행 등으로, 이는 실제 로봇에게도 필요한 기본기가 된다. 연구진은 “게임 환경에서 익힌 이러한 스킬과 추론 능력이, 미래의 물리적 AI 비서와 로봇으로 자연스럽게 이어질 것”이라고 전망한다.
“자기개선형 에이전트일수록 더 신중해야 한다”
SIMA 2는 사람과 함께 플레이하며 자신의 생각을 설명하는, 상당히 인간적인 상호작용을 제공하는 연구용 에이전트다. 그러나 특히 자기개선(self-improvement) 기능은 강력한 만큼 위험도 내포하고 있다.
딥마인드는 이를 의식해 책임 있는 개발·혁신 팀과 긴밀히 협력하고, 먼저 제한된 연구 프리뷰 형태로 SIMA 2를 공개하며, 소수의 학자와 게임 개발자에게만 초기 접근을 허용해 위험 요소와 완화 방안을 검증하는 단계를 거치고 있다.
이는 “강력한 자기학습형 에이전트일수록, 처음부터 규범과 안전 장치를 함께 설계해야 한다”는 최근 AI 안전 논의의 흐름과 맞닿아 있다.
SIMA 2가 열어놓은 새로운 질문
SIMA 2는 아직 상용 서비스가 아니라 연구 프로젝트다. 그럼에도 이번 발표는 세 가지 중요한 질문을 던진다.
AI는 어디까지 ‘사람처럼’ 게임을 이해하고 플레이할 수 있는가?
가상세계에서의 범용 에이전트가 현실 세계 로봇과 일반지능으로 어떻게 이어질 것인가?
스스로 개선하는 체화형 AI를 얼마나, 어떤 기준으로 통제해야 하는가?
하나의 게임에서만 잘하는 ‘전문가 모델’이 아니라, 여러 세계를 넘나들며 배우고, 새로 만든 세계에도 적응하는 일반 에이전트라는 점에서 SIMA 2는 분명 새로운 국면을 열고 있다.
이제 남은 과제는 단 하나다. 이 방향의 진화를 얼마나 안전하고, 책임 있게, 그리고 인간과의 협력 구조 속에서 진행할 것인가다. SIMA 2는 그 논쟁의 중심에 서게 될 가능성이 크다.
[저작권자ⓒ META-X. 무단전재-재배포 금지]


































