[2025년 47째주] MetaX 주간 AI 논문 리뷰

김한얼 기자

loenahmik@gmail.com | 2025-11-22 10:17:03

옴니모달 MoE와 병렬 확산(Diffusion) 모델을 통한 고해상도 비디오·3D 생성 및 구조적 이해의 통합
강화 학습(RL), 모델 수핑(Souping), 상호작용 스케일링을 통한 과학적 논리 및 연산 효율성 극대화

Kandinsky 5.0: A Family of Foundation Models for Image and Video Generation

https://arxiv.org/abs/2511.14993

[메타X(MetaX)] Kandinsky 5.0은 고해상도 이미지와 10초 분량의 비디오 합성을 위한 최신 파운데이션 모델 제품군으로, 6B 파라미터의 Image Lite, 빠르고 가벼운 2B 파라미터의 Video Lite, 그리고 뛰어난 비디오 생성 품질을 자랑하는 19B 파라미터의 Video Pro 등 세 가지 핵심 모델로 구성된다. 이 연구는 데이터 수집부터 필터링, 클러스터링에 이르는 전체 데이터 큐레이션 과정을 포괄적으로 검토하고, 자기 지도 미세 조정(SFT) 및 강화 학습(RL) 기반 사후 학습과 같은 품질 향상 기술을 적용한 다단계 훈련 파이프라인을 소개한다. 또한 새로운 아키텍처와 추론 최적화를 통해 높은 생성 속도와 성능을 달성했음을 입증하며, 연구 커뮤니티의 발전을 위해 코드와 훈련 체크포인트를 오픈 소스로 공개하여 광범위한 생성형 애플리케이션에 활용될 수 있도록 지원한다.

Kandinsky 5.0: A Family of Foundation Models for Image and Video Generation

MiroThinker: Pushing the Performance Boundaries of Open-Source Research Agents via Model, Context, and Interactive Scaling

https://arxiv.org/abs/2511.11793

MiroThinker v1.0은 도구 활용 추론과 정보 탐색 능력을 향상시키기 위해 설계된 오픈 소스 연구 에이전트로, 기존 모델들이 모델 크기나 컨텍스트 길이 확장에만 집중했던 것과 달리 에이전트와 환경 간의 상호작용 확장을 세 번째 성능 향상 차원으로 제시한다. 이 모델은 강화 학습을 통해 환경 피드백과 외부 정보 획득을 활용하여 오류를 수정하고 경로를 개선하는 '상호작용 스케일링'을 구현했으며, 256K 컨텍스트 윈도우 내에서 최대 600회의 도구 호출을 수행하여 복잡한 실제 연구 워크플로우를 처리할 수 있다. GAIA 등 4개 벤치마크에서 GPT-5-high와 같은 상용 모델에 근접하는 성능을 보여주며, 모델 용량과 컨텍스트 길이를 보완하는 상호작용의 깊이가 차세대 연구 에이전트 구축의 핵심 요소임을 입증한다.

MiroThinker: Pushing the Performance Boundaries of Open-Source Research Agents via Model, Context, and Interactive Scaling

P1: Mastering Physics Olympiads with Reinforcement Learning

https://arxiv.org/abs/2511.13612

P1은 퍼즐 풀이 수준을 넘어 과학적 추론 능력을 갖춘 대규모 언어 모델(LLM)을 목표로 개발되었으며, 오직 강화 학습(RL)만을 통해 훈련된 오픈 소스 물리 추론 모델 제품군이다. 특히 P1-235B-A22B 모델은 2025년 국제 물리 올림피아드(IPhO)에서 금메달 수준의 성능을 기록한 최초의 오픈 소스 모델이며, PhysicsMinions라는 에이전트 프레임워크와 결합하여 전체 1위를 차지하는 등 압도적인 성과를 거두었다. 이러한 P1 모델들은 물리뿐만 아니라 수학이나 코딩 같은 다른 추론 작업에서도 뛰어난 일반화 성능을 보여주며, 기호와 현실을 연결하는 고도화된 물리 문제 해결 능력을 통해 AI의 과학 연구 가능성을 크게 확장한다.

P1: Mastering Physics Olympiads with Reinforcement Learning

Souper-Model: How Simple Arithmetic Unlocks State-of-the-Art LLM Performance

https://arxiv.org/abs/2511.13254

Souper-Model 연구는 동일한 아키텍처를 가진 여러 모델의 가중치를 평균화하는 '모델 수핑(Model Souping)' 기법을 개선하여, 재학습 없이도 LLM 성능을 높이는 SoCE(Soup Of Category Experts)라는 새로운 접근 방식을 제안한다. 기존의 단순 균일 평균 방식과 달리, 벤치마크 카테고리 간의 상관관계를 분석하여 각 분야의 '전문가' 모델을 식별하고 최적화된 비균일 가중치로 결합함으로써 성능을 극대화한다. 이 방법은 다국어 능력, 도구 호출, 수학 등 다양한 도메인에서 견고한 성능 향상을 입증했으며, 특히 버클리 함수 호출 리더보드에서 최고 수준의 결과를 달성하여 단순한 산술적 결합만으로도 모델 성능을 획기적으로 개선할 수 있음을 보여준다.

Souper-Model: How Simple Arithmetic Unlocks State-of-the-Art LLM Performance

VIDEOP2R: Video Understanding from Perception to Reasoning

https://arxiv.org/abs/2511.11113

VideoP2R은 대규모 비디오 언어 모델(LVLM)의 추론 능력을 향상시키기 위해 '인식'과 '추론'을 별개의 과정으로 모델링하는 새로운 프로세스 인지형 강화 미세 조정(RFT) 프레임워크다. 연구진은 감독 미세 조정(SFT) 단계에서 고품질의 인식 및 추론 연쇄 사고(CoT) 데이터셋을 구축하고, 강화 학습(RL) 단계에서는 인식과 추론에 대해 개별적인 보상을 제공하는 PA-GRPO 알고리즘을 도입했다. 이를 통해 7개의 비디오 추론 벤치마크 중 6개에서 최고 성능(SotA)을 달성했으며, 모델의 인식 출력이 다운스트림 추론에 충분한 정보를 제공함을 입증하여 비디오 이해 분야에서 프로세스 분리 접근법의 유효성을 확인시켜 준다.

VIDEOP2R: Video Understanding from Perception to Reasoning

Uni-MoE-2.0-Omni: Scaling Language-Centric Omnimodal Large Model with Advanced MoE, Training and Data

https://arxiv.org/abs/2511.12609

Uni-MoE 2.0은 언어 중심의 다중 모달 이해, 추론 및 생성을 위한 완전 오픈 소스 옴니모달 대규모 모델(OLM)로, 동적 용량의 전문가 혼합(MoE) 설계와 점진적 학습 전략을 통해 구축되었다. 이 모델은 텍스트, 이미지, 음성을 아우르는 옴니모달 이해 능력뿐만 아니라 이미지와 음성 생성 기능까지 갖추고 있으며, 10가지 교차 모달 입력에 대해 계산 효율성과 성능의 균형을 맞춘 새로운 아키텍처를 적용했다. 85개 벤치마크에서의 광범위한 평가 결과, 비디오 이해와 시청각 추론 등에서 기존 선도 모델인 Qwen2.5-Omni를 능가하는 성능을 기록하여 오픈 소스 멀티모달 모델의 새로운 기준을 제시한다.

Uni-MoE-2.0-Omni: Scaling Language-Centric Omnimodal Large Model with Advanced MoE, Training and Data

Think-at-Hard: Selective Latent Iterations to Improve Reasoning Language Models

https://arxiv.org/abs/2511.08577

Think-at-Hard(TaH)는 LLM의 추론 능력을 높이기 위해 모든 토큰에 대해 추가 연산을 수행하는 대신, 어렵다고 판단되는 토큰에서만 잠재적 반복(latent iteration)을 깊게 수행하는 동적 사고 방식이다. 연구진은 쉬운 토큰을 과도하게 수정하다가 오히려 오류가 발생하는 '잠재적 과잉 사고' 현상을 발견하고, 경량 신경망 결정기를 통해 추가 연산이 필요한 시점을 선별적으로 결정하도록 설계했다. 이 방식은 LoRA 모듈과 이중 인과 주의(duo-causal attention) 메커니즘을 활용하여 94%의 토큰에 대해서는 추가 연산을 생략하면서도 추론 정확도를 8~12% 향상시켜, 파라미터 증가를 최소화하면서 효율적으로 모델 성능을 최적화한다.

Think-at-Hard: Selective Latent Iterations to Improve Reasoning Language Models

DoPE: Denoising Rotary Position Embedding

https://arxiv.org/abs/2511.09146

DoPE(Denoising Rotary Position Embedding)는 트랜스포머 모델의 위치 임베딩(RoPE)이 가진 길이 확장성의 한계를 극복하기 위해 제안된 훈련이 필요 없는 방법론이다. 연구진은 위치 인코딩이 적용된 어텐션 맵을 노이즈가 있는 특징 맵으로 재해석하고, 절단된 행렬 엔트로피를 기반으로 이상 주파수 대역을 제거(denoising)하여 '어텐션 싱크' 현상을 완화했다. 이를 통해 최대 64K 토큰까지 문맥 길이가 확장된 상황에서도 검색 정확도와 추론 안정성을 크게 향상시켰으며, 위치 임베딩의 노이즈 제거가 모델의 길이 일반화 성능을 높이는 간단하면서도 강력한 해결책임을 보여준다.

DoPE: Denoising Rotary Position Embedding

Reasoning via Video: The First Evaluation of Video Models' Reasoning Abilities through Maze-Solving Tasks

https://arxiv.org/abs/2511.15065

이 연구는 비디오 생성 모델이 텍스트 모델처럼 추론 능력을 가질 수 있는지 탐구하며, 이를 체계적으로 평가하기 위해 미로 찾기 작업에 기반한 VR-Bench를 소개한다. 7,920개의 절차적으로 생성된 비디오로 구성된 이 벤치마크를 통해, 연구진은 비디오 모델이 감독 미세 조정(SFT)을 거치면 공간적 계획과 다단계 추론이 필요한 작업에서 뛰어난 공간 지각 능력을 발휘함을 확인했다. 특히 추론 시 다양한 샘플링을 수행하는 테스트 시간 스케일링(test-time scaling)이 추론 신뢰도를 10~20% 향상시킨다는 사실을 발견하여, 비디오 생성을 통한 공간 추론의 확장성과 잠재력을 입증한다.

[2025년 47째주] MetaX 주간 AI 논문 리뷰

WEEKLY HOT