[2025년 45째주] MetaX 주간 AI 논문 리뷰
김한얼 기자
loenahmik@gmail.com | 2025-11-08 17:19:02
고희소성 MoE, 하드웨어 양자화 혁신을 통한 AI 효율성 및 안전성 확보
Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm
https://arxiv.org/abs/2511.04570
'Thinking with Video'는 텍스트와 이미지 기반 추론의 정적인 한계를 극복하기 위해 Sora-2와 같은 비디오 생성 모델을 활용하는 새로운 패러다임을 제안한다. 이 접근법은 동적인 프로세스와 연속적인 변화를 통일된 시간적 프레임워크 안에서 통합적으로 다루며, 이를 검증하기 위해 VideoThinkBench라는 벤치마크를 개발했다. 이 벤치마크에서 Sora-2는 비전 및 텍스트 중심 작업 모두에서 강력한 추론 능력을 입증하며, 비디오 생성 모델이 텍스트와 비전을 아우르는 통합 멀티모달 추론기로서의 잠재력을 지니고 있음을 보여준다.
https://arxiv.org/abs/2511.02778
VCode는 기존 AI 연구가 소홀히 다룬 '시각 중심 코딩' 문제를 해결하기 위해, 이미지를 해석 가능하고 실행 가능한 SVG 코드로 변환하는 새로운 벤치마크를 제시한다. 이 논문은 생성된 SVG가 원본의 상징적 의미를 얼마나 잘 보존하는지 평가하는 CodeVQA 프로토콜을 함께 제안하며, 기존 VLM의 SVG 생성 한계를 극복하기 위해 반복적인 '수정(Revision)'과 '시각적 도구(Visual Tools)'를 활용하는 에이전트 프레임워크 VCoder를 개발해 우수한 성능을 달성한다.
https://arxiv.org/abs/2510.25616
'Don't Blind Your VLA'는 VLM(시각-언어 모델)을 행동(Action) 데이터로 미세 조정해 VLA(시각-언어-행동) 모델을 만들 때, VLM이 원래 가지고 있던 강력한 시각-언어 표현력이 저하되는 문제를 체계적으로 규명한다. 이러한 표현력 저하는 특히 학습되지 않은 새로운 환경(OOD)에서의 일반화 성능을 심각하게 떨어뜨리며, 이 연구는 내부 표현 분석을 통해 이를 입증하고 행동 학습 중에도 기존 VLM의 지식을 보존하도록 시각적 표현을 정렬하는 효과적인 완화 전략을 제안한다.
[ⓒ META-X. 무단전재-재배포 금지]