[2025년 23째주] MetaX 주간 AI 논문 리뷰
김한얼 기자
loenahmik@gmail.com | 2025-06-07 13:00:00
고정된 데이터셋을 넘어, 모델의 성장을 돕는 역동적인 학습 환경까지 구축하며 발전 가속
TL;DR
LLM 추론 능력 강화 및 최적화 분야에서는 스스로 실패 원인을 분석하고 재도전하여 학습하거나(Reflect, Retry, Reward), 장시간의 강화 학습을 통해 기존에 없던 새로운 추론 능력을 만들어내고(ProRL), 추론 과정에 결정적인 소수의 토큰만 집중 학습하여 효율을 극대화하며(Beyond the 80/20 Rule), 필요할 때만 깊게 생각하는 방식으로 성능과 효율을 모두 잡는(AlphaOne) 등 강화 학습을 활용해 LLM의 추론 능력을 한 단계 끌어올리는 연구들이 소개되었다.
시각과 언어가 통합된 멀티모달 AI 분야에서는 최신 비디오 모델이 시간의 흐름에 따른 변화는 인지하지 못하는 '시간맹' 상태임을 지적하거나(Time Blindness), 하나의 모델로 이미지 이해, 생성, 편집까지 모두 처리하는 프레임워크를 제안하고(UniWorld), 작고 효율적인 모델로 누구나 고성능 로봇 제어를 연구할 수 있도록 문턱을 낮추며(SmolVLA), 방대한 데이터와 강화학습으로 기존 모델들을 압도하는 초고성능 비전-언어 모델을 공개하는(MiMo-VL) 등 시각과 언어를 통합하는 멀티모달 분야의 발전이 다뤄졌다.
데이터셋 생태계 구축 분야에서는 기존의 고정된 데이터셋에서 벗어나, 모델의 수준에 맞춰 무한에 가까운 추론 문제를 생성하여 체계적인 학습과 평가를 가능하게 하는 새로운 학습 환경(REASONING GYM)이 제안되었다.
https://arxiv.org/abs/2505.24726
이 논문은 대규모 언어 모델이 주어진 과제에 실패했을 때, 스스로 실패 원인을 분석하는 '성찰' 텍스트를 생성하고 이를 바탕으로 재도전하여 성공하면 강화 학습으로 보상하는 2단계 프레임워크를 제안한다. 이 '성찰, 재시도, 보상'의 순환 구조를 통해 모델은 외부의 복잡한 피드백 없이 오직 성공/실패라는 이진 정보만으로도 스스로 학습하며, 수학 문제 풀이나 함수 호출과 같은 복잡한 작업에서 10배 이상 큰 모델을 능가하는 등 상당한 성능 향상을 이룰 수 있음을 보여준다.
https://arxiv.org/abs/2505.24864
이 논문은 강화 학습이 단순히 모델에 내재된 능력을 증폭시키는 것을 넘어 실제로 새로운 추론 능력을 만들어낼 수 있는지 탐구하며, 'ProRL(장기 강화 학습)'이라는 방법론을 제시한다. 다양한 과제와 정교한 제어 기법을 동원해 모델을 오랜 시간 학습시킨 결과, 기존 모델이 수많은 시도에도 풀지 못했던 문제에 대한 새로운 해결책을 발견하는 등 추론의 경계 자체가 확장되는 것을 확인했으며, 이는 충분한 시간과 연산을 투입한 강화 학습이 언어 모델의 근본적인 추론 한계를 넘어설 수 있다는 가능성을 시사한다.
https://arxiv.org/abs/2506.01939
이 연구는 강화 학습이 언어 모델의 추론 능력을 향상시키는 원리를 '토큰 엔트로피' 관점에서 분석하여, 추론 과정의 방향을 결정하는 소수의 결정적인 '고엔트로피 토큰'이 존재함을 밝혀냈다. 실험을 통해 전체 토큰이 아닌, 이처럼 중요한 분기점 역할을 하는 20%의 소수 토큰에만 학습을 집중시켰을 때 전체를 학습시킨 것보다 오히려 더 높은 성능을 달성할 수 있음을 증명했으며, 이는 강화 학습의 효율성이 핵심적인 소수 토큰을 최적화하는 데서 비롯된다는 새로운 사실을 입증한다.
https://arxiv.org/abs/2505.24863
이 연구는 모델이 추론을 수행하는 테스트 시점에서 '느린 사고'와 '빠른 사고'를 유연하게 조절하는 범용 프레임워크 'AlphaOne'을 제안한다. 이 프레임워크는 '알파 모멘트'라는 개념을 통해 깊이 있는 사고가 필요한 구간에서는 추론 토큰을 동적으로 삽입해 신중하게 생각하게 하고, 이후 단계에서는 신속하게 정답을 생성하도록 전환함으로써, 다양한 추론 벤치마크에서 기존 방식들보다 뛰어난 성능과 효율성을 동시에 달성하는 새로운 접근법을 보여준다.
https://arxiv.org/abs/2505.24867
이 연구는 최신 비디오-언어 모델들이 프레임 속 공간 정보에는 뛰어나지만, 오직 시간의 흐름 속에만 인코딩된 정보는 전혀 인식하지 못하는 '시간맹(Time Blindness)'이라는 근본적인 한계를 지적한다. 연구진이 직접 개발한 'SpookyBench' 벤치마크를 통해 인간은 98% 이상 인식하는 시간적 패턴을 최첨단 모델들은 0%의 정확도로 전혀 감지하지 못함을 보여주었으며, 이는 현재 모델들이 공간적 특징과 시간적 처리를 분리하지 못하는 심각한 약점을 가지고 있음을 명확히 드러낸다.
[ⓒ META-X. 무단전재-재배포 금지]