[2025년 51째주] MetaX 주간 AI 논문 리뷰

김한얼 기자

loenahmik@gmail.com | 2025-12-20 11:38:29

시각적 지능과 논리적 추론의 결합을 통한 차세대 멀티모달 에이전트 및 세계 모델의 진화
장기 기억 체계와 실시간 상호작용 최적화를 통한 고도화된 생성형 AI 기술의 실현

Step-GUI Technical Report

https://arxiv.org/abs/2512.15431

[메타X(MetaX)] 이 논문은 AI가 스마트폰이나 PC의 화면(GUI)을 스스로 조작할 수 있게 돕는 Step-GUI 모델과 효율적인 학습 체계를 제안한다. 기존에는 AI에게 화면 조작을 가르치기 위해 사람이 일일이 데이터를 만들어야 해서 비용이 많이 들었으나, 연구진은 AI가 생성한 조작 경로를 스스로 평가하고 보정하는 '보정 단계 보상 시스템'을 통해 비용을 100배 이상 절감하면서도 90% 이상의 높은 정확도를 확보했다. 또한, 사용자의 개인정보 보호를 위해 민감한 데이터는 기기 내부에서 처리하고 복잡한 명령만 모델이 수행하는 GUI-MCP 프로토콜과 실제 모바일 사용 환경을 반영한 AndroidDaily 벤치마크를 함께 공개하여 실용적인 GUI 에이전트의 가능성을 제시했다.

Step-GUI Technical Report


MMGR: Multi-Modal Generative Reasoning

https://arxiv.org/abs/2512.14691

MMGR은 비디오 생성 AI가 단순히 보기에만 그럴듯한 영상을 만드는 것을 넘어, 물리 법칙이나 논리적 인과관계를 제대로 이해하고 있는지 평가하기 위한 새로운 벤치마크이다. 연구진은 물리, 논리, 3D/2D 공간, 시간이라는 5가지 핵심 추론 능력을 기준으로 Sora-2나 GPT-4o 같은 최신 모델들을 테스트했으며, 그 결과 대부분의 모델이 시각적 품질은 뛰어나지만 복잡한 논리 구조나 장기적인 공간 계획이 필요한 과제에서는 성능이 크게 떨어진다는 점을 발견했다. 이 연구는 생성 모델이 진정한 '세계 시뮬레이터'로 거듭나기 위해서는 단순한 시각적 모방을 넘어 인과관계와 물리적 상식을 반영하는 학습 방향이 필요함을 강조한다.

MMGR: Multi-Modal Generative Reasoning


Kling-Omni Technical Report

https://arxiv.org/abs/2512.16776

Kling-Omni는 텍스트, 이미지, 비디오 등 다양한 입력을 동시에 이해하고 이를 바탕으로 영화 같은 고품질 영상을 만들어내는 통합 생성 프레임워크이다. 기존 시스템들이 영상 생성, 편집, 추론을 각각 별도의 모델로 처리했던 것과 달리, 이 모델은 모든 과정을 하나의 시스템 안에서 유기적으로 연결하여 사용자의 복잡한 지시사항을 정확하게 반영한 결과물을 내놓는다. 연구진은 대규모 데이터 시스템과 효율적인 학습 인프라를 구축하여 모델이 단순한 콘텐츠 제작 도구를 넘어, 주변 환경을 인식하고 상호작용할 수 있는 '멀티모달 세계 시뮬레이터'로서의 잠재력을 갖추도록 설계했다.

Kling-Omni Technical Report


QwenLong-L1.5: Post-Training Recipe for Long-Context Reasoning and Memory Management

https://arxiv.org/abs/2512.12967

이 논문은 방대한 양의 정보를 한꺼번에 처리하고 추론할 수 있는 QwenLong-L1.5 모델의 개발 방법론을 다룬다. 연구진은 수많은 문서 속에 흩어진 정보를 연결해 복잡한 질문에 답하는 능력을 키우기 위해 특수한 데이터 합성 파이프라인을 구축했으며, 긴 문맥 학습 시 발생하는 불안정성을 해결하기 위해 '적응형 엔트로피 제어 정책 최적화(AEPO)'라는 새로운 강화학습 기법을 도입했다. 특히 메모리 관리 기능을 강화하여 최대 400만 토큰 이상의 초장문 데이터에서도 막힘없이 추론이 가능하게 설계되었으며, 이는 과학적 추론이나 긴 대화 기록 관리 등 실제 복잡한 업무 환경에서 뛰어난 성능을 발휘한다.

QwenLong-L1.5: Post-Training Recipe for Long-Context Reasoning and Memory Management


EgoX: Egocentric Video Generation from a Single Exocentric Video

https://arxiv.org/abs/2512.08269

EgoX는 제3자가 촬영한 일반적인 영상(타인칭 시점)을 바탕으로, 해당 상황 속 주인공이 직접 보는 듯한 1인칭 시점(Ego-centric) 영상을 생성하는 혁신적인 기술이다. 카메라의 각도가 완전히 다르고 보이지 않는 영역까지 그려내야 하는 어려운 작업이지만, 연구진은 비디오 확산 모델의 지식과 '기하학 가이드 자기 주의 집중' 메커니즘을 결합해 시각적 왜곡 없이 자연스러운 영상을 만들어냈다. 이 기술을 활용하면 평범한 일상 영상을 가상현실(VR)이나 몰입형 콘텐츠로 손쉽게 변환할 수 있어 인간의 경험을 보다 생생하게 공유하고 이해하는 데 큰 도움을 줄 수 있다.

EgoX: Egocentric Video Generation from a Single Exocentric Video


Memory in the Age of AI Agents

https://arxiv.org/pdf/2512.13564

이 논문은 AI 에이전트의 핵심 능력인 '기억(Memory)' 시스템의 현주소를 정리하고 미래 방향을 제시하는 종합 보고서이다. 연구진은 기존의 단순한 정보 검색(RAG)이나 문맥 입력 방식과 차별화되는 에이전트만의 기억 시스템을 정의하고, 이를 형태(토큰, 파라미터 등), 기능(사실적, 경험적, 작업 기억), 동역학(형성, 진화, 인출)의 세 가지 관점에서 체계적으로 분류했다. 또한 현재 사용되는 다양한 기억 평가 기준과 프레임워크를 정리함과 동시에, 앞으로 AI가 스스로 기억을 관리하고 강화학습과 결합하여 더 지능적으로 발전하기 위해 필요한 과제들을 제시하며 학계의 이정표 역할을 한다.

Memory in the Age of AI Agents


Towards Scalable Pre-training of Visual Tokenizers for Generation

https://arxiv.org/abs/2512.13687

생성 AI의 성능을 결정짓는 핵심 요소인 비주얼 토크나이저(VAE 등)의 학습 방식을 근본적으로 개선한 VTP 프레임워크에 관한 연구이다. 기존 방식은 이미지를 픽셀 단위로 정확하게 복원하는 데만 치중하여 정작 고차원적인 의미 파악에는 소홀했는데, VTP는 이미지와 텍스트의 대조 학습 및 자기지도 학습을 결합해 모델이 사물의 의미를 더 잘 이해하도록 설계되었다. 그 결과, 학습 속도는 기존보다 4배 이상 빨라졌으며 데이터와 연산량을 늘릴수록 생성 품질이 비례해서 향상되는 '확장성(Scalability)' 문제를 해결하여 차세대 이미지 및 비디오 생성 모델을 위한 강력한 기초를 마련했다.

Towards Scalable Pre-training of Visual Tokenizers for Generation


ReFusion: A Diffusion Large Language Model with Parallel Autoregressive Decoding

https://arxiv.org/abs/2512.13586

ReFusion은 기존 대규모 언어 모델(LLM)의 느린 생성 속도와 비효율성을 해결하기 위해 확산 모델(Diffusion)의 병렬 처리 방식을 접목한 새로운 모델이다. '계획 후 채우기(Plan-and-infill)' 방식을 도입하여, 먼저 전체적인 문장의 흐름을 계획한 뒤 여러 단어 묶음을 동시에 생성함으로써 기존 모델보다 평균 2.3배 이상 빠른 속도를 구현했다. 특히 과거의 정보를 저장하는 KV 캐시를 효율적으로 재사용하도록 설계되어 연산 비용을 획기적으로 낮추었으며, 속도가 빠르면서도 기존의 강력한 언어 모델들에 뒤처지지 않는 높은 성능을 보여준다.

ReFusion: A Diffusion Large Language Model with Parallel Autoregressive Decoding


LongVie 2: Multimodal Controllable Ultra-Long Video World Model

https://arxiv.org/abs/2512.13604

이 논문은 최대 5분 길이에 달하는 고품질 영상을 일관성 있게 생성할 수 있는 LongVie 2 모델을 소개한다. 연구진은 영상의 조작 가능성, 장기적인 시각적 품질, 시간적 일관성이라는 세 가지 목표를 달성하기 위해 3단계 학습 과정을 거쳤으며, 특히 이전 장면의 맥락을 다음 장면에 정확하게 전달하는 '이력 문맥 가이드' 기술을 통해 긴 시간 동안 영상이 깨지지 않게 유지했다. 더불어 실제와 가상 환경을 아우르는 1분 이상의 고해상도 영상 벤치마크인 LongVGenBench를 구축하여 장기 영상 생성 분야의 새로운 표준을 세웠다.

LongVie 2: Multimodal Controllable Ultra-Long Video World Model


Video Reality Test: Can AI-Generated ASMR Videos fool VLMs and Humans?

https://arxiv.org/abs/2512.13281

Video Reality Test는 시각과 청각이 아주 세밀하게 결합된 ASMR 영상을 활용해 AI가 만든 영상이 얼마나 진짜 같은지를 판별하는 흥미로운 연구이다. 연구진은 물체를 만지거나 두드리는 미세한 동작과 소리가 일치해야 하는 ASMR의 특성을 이용해 인간과 AI 모델(VLM)이 진짜와 가짜 영상을 구분할 수 있는지 실험했다. 실험 결과, 최신 생성 모델인 Veo3.1은 인간 전문가조차 속일 정도로 정교한 영상을 만들어냈으며, 최강의 분석 모델인 Gemini 2.5-Pro조차 구분 정확도가 56%에 그쳐 AI 생성 영상의 탐지가 점점 더 어려워지고 있음을 시사했다.

Video Reality Test: Can AI-Generated ASMR Videos fool VLMs and Humans?


WorldPlay: Towards Long-Term Geometric Consistency for Real-Time Interactive World Modeling

https://arxiv.org/abs/2512.14614

WorldPlay는 사용자의 키보드나 마우스 입력에 따라 실시간으로 720p 해상도의 영상을 생성하며 반응하는 실시간 대화형 세계 시뮬레이터이다. 기존의 실시간 영상 생성 모델들은 시간이 지날수록 공간 구조가 뒤틀리는 문제가 있었으나, 이 모델은 '재구성된 문맥 메모리' 기술을 통해 아주 오래전 장면의 기하학적 정보까지 기억하여 일관성을 유지한다. 또한 '문맥 강제(Context Forcing)'라는 지식 증류 기법을 적용해 성능 저하 없이도 초당 24프레임(FPS)의 빠른 속도를 확보함으로써, 게임이나 시뮬레이션 환경에서 실시간으로 상호작용 가능한 가상 세계를 구현하는 데 성공했다.

WorldPlay: Towards Long-Term Geometric Consistency for Real-Time Interactive World Modeling


[METAX = 김한얼 기자]

[ⓒ META-X. 무단전재-재배포 금지]

WEEKLY HOT