[2025년 44째주] MetaX 주간 AI 논문 리뷰

김한얼 기자

loenahmik@gmail.com | 2025-11-01 13:15:57

2D-3D 공간 학습, 재귀적 코드(ReCode), 잠재 공간 추론으로 진화하는 차세대 AI 에이전트
모호한 쿼리 상호작용, 능동형 로봇 제어, 무한 3D 세계 생성 및 데이터 에이전트 자율성 탐구

Concerto: Joint 2D-3D Self-Supervised Learning Emerges Spatial Representations

https://arxiv.org/abs/2510.23607

인간이 여러 감각을 통해 공간 개념을 학습하는 방식에 착안하여, 2D 이미지와 3D 포인트 클라우드 데이터를 함께 활용하는 새로운 자기 지도 학습(self-supervised learning) 방법론 'Concerto'를 제안한다. 이 모델은 3D 데이터 자체 내에서 학습하고, 2D와 3D 데이터 간의 관계를 학습하는 것을 결합한다. 그 결과, 3D 씬(scene) 인식 작업에서 기존 2D 또는 3D 단독 모델보다 우수한 성능을 보이며 ScanNet과 같은 주요 벤치마크에서 SOTA(최고 성능)를 달성했다. 또한 비디오나 언어(CLIP)와 연계하여 개방형 세계 인식으로도 확장될 수 있다.

Concerto: Joint 2D-3D Self-Supervised Learning Emerges Spatial Representations


ReCode: Unify Plan and Action for Universal Granularity Control

https://arxiv.org/abs/2510.23564

기존 LLM 에이전트가 고수준 '계획'과 저수준 '행동'을 분리하여 처리하기 때문에 상황에 따른 유연한 대처가 어렵다는 문제를 지적한다. 이 논문은 'ReCode'라는 새로운 패러다임을 제안하여, 계획과 행동을 '재귀적 코드 생성'이라는 단일한 표현으로 통합한다. 높은 수준의 계획을 추상적인 함수로 간주하고, 이를 실행 가능한 원시 행동에 도달할 때까지 재귀적으로 분해한다. 이 방식을 통해 에이전트가 동적으로 의사결정의 세분성(granularity)을 조절할 수 있게 되며, 학습 데이터 효율성과 추론 성능 모두에서 뛰어난 결과를 보였다.

ReCode: Unify Plan and Action for Universal Granularity Control


InteractComp: Evaluating Search Agents With Ambiguous Queries

https://arxiv.org/abs/2510.24668

대부분의 검색 에이전트가 사용자의 쿼리가 명확하다고 가정하지만, 실제 쿼리는 '모호한' 경우가 많아 상호작용을 통한 명확화가 필요하다. 이 논문은 에이전트가 쿼리의 모호성을 인지하고 이를 해결하기 위해 '적극적으로 상호작용'하는지 평가하는 새로운 벤치마크 'InteractComp'를 제안한다. 17개 모델을 평가한 결과, 모델들이 모호한 상황에서 질문하지 않고 '과신'하여 잘못된 답을 내놓는 경향을 보였다. 지난 15개월간 검색 성능은 7배 향상됐지만 상호작용 능력은 정체되어 있었음을 밝히며, 이 벤치마크가 에이전트의 상호작용 능력 평가와 훈련에 중요하다고 강조한다.

InteractComp: Evaluating Search Agents With Ambiguous Queries


JanusCoder: Towards a Foundational Visual-Programmatic Interface for Code Intelligence

https://arxiv.org/abs/2510.23538

코드 인텔리전스가 텍스트 코드를 넘어 프로그램이 생성하는 '시각적 결과물'(차트, UI 등)까지 이해해야 할 필요성에 주목한다. 이 문제를 해결하기 위해, (1) 고품질 멀티모달 코드 데이터를 효율적으로 생성하는 툴킷을 개발하고, 이를 통해 대규모 코퍼스 'JanusCode-800K'를 구축했다. (2) 이 데이터를 기반으로 텍스트, 시각적 입력, 또는 둘의 조합으로부터 코드를 생성하는 'JanusCoder' 모델을 훈련시켰다. 이 모델은 텍스트 중심 및 비전 중심 코딩 작업 모두에서 뛰어난 성능을 보이며, 일부는 상용 모델의 성능을 능가했다.

JanusCoder: Towards a Foundational Visual-Programmatic Interface for Code Intelligence


DeepAgent: A General Reasoning Agent with Scalable Toolsets

https://arxiv.org/abs/2510.21618

복잡한 실제 작업을 위해 외부 도구를 사용하고 장기적인 상호작용을 수행하는 에이전트 'DeepAgent'를 제안한다. 기존 에이전트가 긴 상호작용 이력으로 인해 컨텍스트 길이 폭발과 오류 누적을 겪는 문제를 해결하기 위해, '자율적 메모리 폴딩' 메커니즘을 도입한다. 이는 과거 이력을 구조화된 메모리로 압축하여 중요한 정보는 보존하고 오류를 줄인다. 또한 'ToolPO'라는 강화학습 전략을 통해 효율적인 도구 사용법을 학습한다. DeepAgent는 8개의 벤치마크에서 기존 모델보다 뛰어난 성능을 보였다.

DeepAgent: A General Reasoning Agent with Scalable Toolsets


Video-Thinker: Sparking "Thinking with Videos" via Reinforcement Learning

https://arxiv.org/abs/2510.23473

MLLM이 "이미지를 보며 생각"하는 능력을 넘어 "비디오를 보며 생각"할 수 있도록 하는 방법론 'Video-Thinker'를 제안한다. 이 모델은 추론 과정에서 외부 도구 없이 MLLM 자체가 가진 "그라운딩"과 "캡셔닝" 능력을 자율적으로 활용해 추론 단서를 생성한다. 이를 위해, (1) 자율적 도구 사용법이 포함된 추론 데이터셋(Video-Thinker-10K)을 구축하고, (2) 지도 학습(SFT)과 강화학습(GRPO)을 결합한 훈련 전략을 사용했다. 그 결과, 여러 비디오 추론 벤치마크에서 SOTA(최고 성능)를 달성했다.

Video-Thinker: Sparking "Thinking with Videos" via Reinforcement Learning


Scaling Latent Reasoning via Looped Language Models

https://arxiv.org/abs/2510.25741

기존 LLM이 CoT(Chain-of-Thought)처럼 텍스트를 명시적으로 '생성'하며 추론하는 방식의 한계를 지적한다. 이 논문은 추론 과정을 사전 학습 단계에 내장하는 'Looped Language Models (LoopLM)' 패러다임과 'Ouro' 모델을 제안한다. Ouro는 텍스트가 아닌 '잠재 공간(latent space)'에서 반복적인 계산을 수행하며 추론한다. 그 결과, 1.4B, 2.6B의 비교적 작은 Ouro 모델이 12B 크기의 SOTA LLM과 동등하거나 우수한 성능을 보였다. 이는 지식 용량이 커서가 아니라, '지식을 조작하고 활용하는 능력'이 뛰어나기 때문임을 밝혔다.

Scaling Latent Reasoning via Looped Language Models


A Survey of Data Agents: Emerging Paradigm or Overstated Hype?

https://arxiv.org/abs/2510.23587

'데이터 에이전트'라는 용어가 현재 명확한 정의 없이 혼용되어 사용자의 기대와 실제 성능 간의 불일치 등을 일으키고 있음을 지적하는 서베이 논문이다. 이 논문은 자율 주행의 SAE 레벨(L0~L5) 분류처럼, 데이터 에이전트의 '자율성 수준'을 6단계로 정의하는 계층적 분류 체계를 최초로 제안한다. 이 분류 체계를 기준으로 기존 연구들을 체계적으로 검토하고, 특히 현재 L2에서 L3로 넘어가는 단계의 기술적 과제를 분석하며, 향후 완전 자율 에이전트(L5)로 나아가기 위한 로드맵을 제시한다.

A Survey of Data Agents: Emerging Paradigm or Overstated Hype?


RoboOmni: Proactive Robot Manipulation in Omni-modal Context

https://arxiv.org/abs/2510.23763

기존 로봇이 명시적 지시에 의존하는 한계를 넘어, 실제 환경처럼 사용자의 말, 주변 소리, 시각적 단서 등 '모든(omni-modal) 맥락'을 파악해 의도를 능동적으로 추론하고 행동하는 로봇 'RoboOmni'를 제안한다. 이를 위해 (1) 대화, 소리, 시각 정보를 통합하는 옴니 모달 LLM 기반의 프레임워크를 개발하고, (2) 이러한 능동적 의도 인식을 훈련시키기 위한 대규모 'OmniAction' 데이터셋을 구축했다. 실험 결과, RoboOmni는 텍스트나 음성 인식(ASR) 기반 모델보다 작업 성공률과 능동적 지원 능력에서 뛰어난 성능을 보였다.

RoboOmni: Proactive Robot Manipulation in Omni-modal Context


WorldGrow: Generating Infinite 3D World

https://arxiv.org/abs/2510.21682

기하학적/시각적으로 일관성을 유지하며 '무한히 확장 가능한 3D 세계'를 생성하는 문제를 다룬다. 기존 3D 모델이 객체 중심이거나 스케일업이 어려운 한계를 극복하기 위해, 'WorldGrow'는 계층적 프레임워크를 제안한다. 핵심 아이디어는 (1) 사전 훈련된 3D 모델을 활용해 구조화된 '씬 블록'을 생성하고, (2) '3D 블록 인페인팅' 기술로 맥락에 맞게 씬을 확장하며, (3) 'Coarse-to-fine' 전략으로 전체 구조와 세부 디테일을 모두 잡는 것이다. 그 결과, 사실적이고 구조적으로 일관된 무한 3D 씬 생성을 SOTA(최고 성능) 수준으로 달성했다.

WorldGrow: Generating Infinite 3D World


[METAX = 김한얼 기자]

[ⓒ META-X. 무단전재-재배포 금지]

WEEKLY HOT