[2025년 39째주] MetaX 주간 AI 논문 리뷰
김한얼 기자
loenahmik@gmail.com | 2025-09-27 15:32:01
비전, 3D, 코드 생성을 포괄하는 차세대 멀티모달·교차학문 파운데이션 모델의 구현
RPG: A Repository Planning Graph for Unified and Scalable Codebase Generation
https://arxiv.org/abs/2509.16198
대규모 언어 모델이 전체 소프트웨어 리포지토리를 생성하는 데 어려움을 겪는 문제를 해결하기 위해, 본 연구는 자연어의 모호함을 제거한 명시적 청사진인 리포지토리 계획 그래프(RPG)를 제안한다. RPG를 기반으로 하는 ZeroRepo 프레임워크는 제안, 구체화, 생성의 3단계 과정을 통해 코드를 체계적으로 구축하며, 실험 결과 기존 최고 성능 모델보다 3.9배 더 큰 코드베이스를 생성하고 월등히 높은 테스트 통과율을 달성함으로써 구조화된 계획이 대규모 코드 생성의 효율성과 정확성을 획기적으로 향상시킴을 입증했다.
https://arxiv.org/abs/2509.17765
텍스트, 이미지, 오디오, 비디오를 모두 다루면서도 각 분야의 성능 저하가 없는 통합 멀티모달 모델을 목표로 개발된 Qwen3-Omni는 Thinker-Talker MoE 아키텍처를 통해 여러 양식의 인식과 생성을 하나로 묶는다. 특히 이 모델은 실시간에 가까운 빠른 음성 합성 능력을 갖추고 있으며, 다수의 오디오 및 시청각 벤치마크에서 기존 비공개 모델을 능가하는 최고 수준(SOTA)의 성능을 달성함으로써, 단일 모델이 여러 양식에 걸쳐 전문화된 모델만큼의 성능을 낼 수 있음을 최초로 증명했다.
https://arxiv.org/abs/2509.19803
기존 강화학습이 LLM의 수학 추론 능력을 향상시킬 때 문제의 난이도를 고려하지 않는다는 한계를 극복하기 위해, 본 연구는 VCRL(분산 기반 커리큘럼 강화학습) 프레임워크를 제안한다. 이 방법은 한 문제에 대한 여러 풀이 시도의 보상 분산(variance)을 난이도의 지표로 삼아, LLM에게 학습 효과가 가장 높은 적당히 어려운 문제들을 동적으로 선별하여 훈련시키는 커리큘럼을 제공한다. 실험 결과 VCRL은 여러 수학 벤치마크에서 기존 강화학습 방법들을 크게 능가하는 성능을 보이며, 인간의 학습 과정처럼 난이도를 조절하는 것이 LLM의 학습 효율을 높이는 데 효과적임을 보여주었다.
https://arxiv.org/abs/2509.17567
AI 에이전트의 자율적 행동 능력인 에이전시가 데이터의 양이 아닌 질에 의해 결정된다는 가설을 증명하기 위해, 본 연구는 LIMI(Less Is More for Intelligent Agency)를 제시한다. LIMI는 수만 개의 데이터 대신 전략적으로 설계된 단 78개의 고품질 시연 데이터만을 사용하여 훈련되었으며, 그 결과 훨씬 더 많은 데이터로 학습한 기존 최고 성능 모델들을 압도적인 차이로 능가했다. 이 연구는 기계의 자율성이 데이터의 양이 아닌 전략적 큐레이션에서 비롯된다는 에이전시 효율성 원칙을 확립하며 AI 에이전트 훈련의 새로운 패러다임을 열었다.
https://arxiv.org/abs/2509.21320
다양한 과학 분야의 텍스트, 화학식, DNA 서열 등 이질적인 데이터를 통합적으로 이해하고 추론하는 AI 기반 모델의 필요성에 부응하여 SciReasoner가 개발되었다. 이 모델은 2060억 토큰 규모의 방대한 과학 데이터로 사전 훈련된 후, 상세한 사고 과정(chain-of-thought)을 유도하고 강화학습을 통해 신중한 추론 능력을 주입하는 다단계 정렬 과정을 거친다. 그 결과 SciReasoner는 특정 분야에 특화된 모델을 능가하는 범용성과 일반화 성능을 확보했으며, 여러 학문 분야를 아우르는 학습 방식이 과학 AI의 지식 전이 능력과 신뢰도를 높인다는 것을 입증했다.
https://arxiv.org/abs/2509.21268
멀티모달 추론 모델의 발전을 저해하는 고품질 데이터 부족과 불안정한 강화학습(RL) 문제를 해결하기 위해 MMR1 프로젝트는 새로운 데이터 샘플링 전략과 대규모 공개 리소스를 함께 제공한다. 이 프로젝트는 RL 훈련을 안정시키기 위해 보상 분산을 극대화하는 데이터를 선택하는 분산 인식 샘플링(VAS) 기법을 제안하고, 약 160만 개의 긴 사고 과정(CoT) 데이터를 포함한 고품질 데이터셋과 재현 가능한 코드를 공개한다. 실험을 통해 데이터와 VAS 전략의 효과성을 입증했으며, 코드, 데이터, 모델을 모두 공개함으로써 커뮤니티의 연구 발전에 크게 기여했다.
https://arxiv.org/abs/2509.20328
생성형 비디오 모델이 언어 분야의 LLM처럼 범용 시각 지능으로 발전할 수 있는지를 탐구한 이 연구는, 구글의 Veo 3 모델이 명시적으로 훈련받지 않은 다양한 작업을 수행하는 제로샷(zero-shot) 능력을 가지고 있음을 보여준다. Veo 3는 객체 분할이나 이미지 편집과 같은 기본적인 시각 과제부터 미로 풀기와 같은 시각적 추론에 이르기까지 광범위한 능력을 발휘했다. 이는 대규모 비디오 모델이 단순히 영상을 생성하는 것을 넘어, 시각 세계를 이해하고 조작하는 근본적인 능력을 학습하고 있으며, 궁극적으로는 통합된 범용 비전 파운데이션 모델로 진화하고 있다는 강력한 증거를 제시한다.
https://arxiv.org/abs/2509.21240
여러 단계로 구성된 에이전트 작업에서 최종 결과에만 보상이 주어지는 희소한 감독 문제로 인해 강화학습의 효율이 저하되는 것을 해결하기 위해, 본 연구는 트리 기반 그룹 상대 정책 최적화(Tree-GRPO)를 제안한다. 이 방법은 에이전트의 행동 경로를 선형이 아닌 트리 구조로 모델링하여 샘플링 효율을 높이고, 서로 다른 분기(branch)를 비교함으로써 최종 보상만으로도 중간 과정의 좋고 나쁨을 추론할 수 있게 한다. 실험 결과, 이 트리 기반 강화학습 방식은 기존의 선형 방식보다 월등한 성능을 보여, 복잡한 과제를 수행하는 LLM 에이전트를 더 효과적으로 훈련시키는 새로운 길을 열었다.
https://arxiv.org/abs/2509.17627
기존 비디오 삽입 기술이 마스크 지정의 번거로움, 삽입 대상의 일관성 부족, 훈련 데이터 부재라는 한계를 가지는 문제를 해결하기 위해, 본 연구는 OmniInsert라는 마스크 없는 비디오 삽입 프레임워크를 개발했다. OmniInsert는 자체 데이터 생성 파이프라인(InsertPipe)을 통해 데이터 부족을 해결하고, 대상과 배경의 균형을 맞추는 독자적인 훈련 전략과 인간의 선호도를 모방한 최적화 기법을 통해 삽입 결과물의 조화로움을 극대화한다. 자체 구축한 InsertBench 평가에서 최신 상용 솔루션을 능가하는 성능을 보이며, 고품질 비디오 삽입을 위한 포괄적인 해결책을 제시했다.
https://arxiv.org/abs/2509.21245
텍스트나 이미지 입력에 주로 의존하는 기존 3D 생성 모델들이 기하학적 구조나 포즈에 대한 세밀한 제어 능력이 부족하다는 문제를 해결하고자 Hunyuan3D-Omni가 개발되었다. 이 프레임워크는 단일 통합 아키텍처 내에서 포인트 클라우드, 복셀, 골격 포즈 등 다양한 형태의 제어 신호를 수용하며, 훈련 시 더 어려운 제어 신호를 우선적으로 학습하는 난이도 인식 샘플링 전략을 사용한다. 그 결과, 생성물의 정확도와 제어 가능성이 크게 향상되었으며, 이는 3D 에셋 생성을 게임, 영화 등 실제 산업 현장에서 더욱 실용적으로 활용할 수 있게 만들었다.
https://arxiv.org/abs/2509.14981
고품질 3D 실내 장면을 자동으로 생성하는 데 있어 가장 큰 병목이었던 대규모 맞춤형 데이터셋의 부재를 해결하기 위해, 본 연구는 방대한 합성 데이터셋을 직접 구축하고 이를 활용하는 생성 모델 SpatialGen을 선보인다. SpatialGen은 3D 레이아웃과 참조 이미지를 입력받아 특정 시점에서 바라본 장면의 외형(색상), 기하학(좌표), 의미(분할) 정보를 모두 생성하며, 모든 시점과 출력 정보에 걸쳐 공간적 일관성을 완벽하게 유지한다. 실험에서 기존 방법들을 능가하는 우수한 결과를 보였으며, 직접 구축한 데이터셋과 모델을 모두 공개하여 관련 분야의 연구 발전에 크게 기여했다.
https://arxiv.org/abs/2509.19301
인간의 시연에 의존하는 행동 복제(BC)와 실제 로봇에 적용하기 어려운 강화학습(RL)의 장점을 결합하기 위해, 본 연구는 잔차 오프-폴리시 강화학습이라는 새로운 접근법을 제시한다. 이 방법은 미리 훈련된 BC 정책을 기반으로, RL이 전체 행동을 처음부터 배우는 대신 BC 정책의 행동에 매 순간 작은 수정값(잔차)을 더하는 법만을 학습하게 한다. 그 결과, 정교한 손을 가진 실제 휴머노이드 로봇에 강화학습을 성공적으로 적용한 최초의 사례를 만들어냈으며, 복잡한 실제 시스템에 RL을 효율적으로 배포할 수 있는 실용적인 경로를 열었다.
https://arxiv.org/abs/2509.21114
독특한 기하학적 구조를 가진 애니메이션 헤어스타일을 기존 방식으로 모델링하기 어렵고, 관련 데이터셋이 부족하다는 문제를 해결하기 위해 CHARM이 제안되었다. CHARM은 헤어 덩어리를 소수의 제어점으로 간결하게 표현하는 새로운 방식을 도입하고, 직접 구축한 대규모 AnimeHair 데이터셋을 바탕으로 헤어 언어를 학습하는 자기회귀 트랜스포머 모델을 개발했다. 이를 통해 이미지나 포인트 클라우드만으로 고품질의 3D 애니메이션 헤어스타일을 생성할 수 있으며, 복원과 생성 양쪽에서 최고 수준의 성능을 달성하며 해당 분야를 위한 확장 가능한 해결책을 제시했다.
[METAX = 김한얼 기자]
[ⓒ META-X. 무단전재-재배포 금지]