[2025년 36째주] MetaX 주간 AI 논문 리뷰
김한얼 기자
loenahmik@gmail.com | 2025-09-07 13:26:30
코드 보안, 로봇 제어부터 3D 생성까지, 현실 문제 해결을 위한 최신 연구 동향
The Landscape of Agentic Reinforcement Learning for LLMs: A Survey
https://arxiv.org/abs/2509.02547
이 논문은 대규모 언어 모델(LLM)을 활용하는 새로운 패러다임인 '에이전틱 강화학습(Agentic RL)'에 대한 포괄적인 서베이 논문이다. 이 연구는 기존 강화학습이 LLM을 수동적인 텍스트 생성기로 간주했던 것과 달리, 에이전틱 RL은 LLM을 복잡한 환경에서 스스로 의사결정하는 자율적 에이전트로 바라보는 개념적 전환을 제시한다. 논문은 에이전트의 핵심 능력과 응용 분야를 기준으로 체계적인 분류법을 제안하며, 강화학습이 이러한 능력들을 실제 에이전트의 행동으로 전환하는 핵심 메커니즘임을 주장한다. 500편 이상의 최신 연구를 종합하여 빠르게 발전하는 AI 에이전트 분야의 전체적인 지형도를 그리고 향후 연구 방향을 제시하는 로드맵을 제공한다.
https://arxiv.org/abs/2508.18106
A.S.E는 AI가 생성한 코드의 보안성을 보다 현실적으로 평가하기 위한 새로운 벤치마크 A.S.E를 제안한다. 기존 벤치마크들이 단편적인 코드 조각만 보거나 재현성이 떨어지는 한계를 가졌던 문제를 해결하기 위해, 이 벤치마크는 실제 보안 취약점(CVE)이 있었던 전체 코드 저장소(repository)를 기반으로 하여 프로젝트의 완전한 맥락 속에서 평가를 수행한다. 컨테이너 기술을 통해 안정적이고 재현 가능한 평가 환경을 구축했으며, 실험 결과 종합 성능은 Claude-3.7-Sonnet이 가장 뛰어났고 보안 패치 작업에는 복잡한 추론보다 간결하고 빠른 방식이 더 효과적이라는 사실을 발견했다.
https://arxiv.org/abs/2508.21148
이 논문은 과학 연구 분야에 특화된 LLM, 즉 Sci-LLM의 발전을 데이터 중심적 관점에서 종합적으로 분석한 서베이 논문이다. 이 연구는 Sci-LLM의 발전이 다중 모드, 다중 스케일 등 고유한 복잡성을 지닌 과학 데이터와의 상호 진화 과정이라고 주장한다. 논문은 270개 이상의 데이터셋과 190개 이상의 벤치마크를 체계적으로 분석하며, 미래에는 Sci-LLM 기반의 자율 에이전트가 직접 실험하고 지식을 검증하는 '폐쇄 루프(closed-loop)' 시스템으로 발전하여 과학적 발견의 진정한 파트너가 될 것이라는 전망을 제시한다.
https://arxiv.org/abs/2508.21113
R-4B는 멀티모달 LLM(MLLM)이 문제의 난이도에 따라 생각 과정의 활성화 여부를 스스로 결정하도록 만드는 효율적인 모델이다. 복잡한 문제 해결에 효과적인 단계별 사고 방식이 간단한 문제에는 불필요한 계산 낭비라는 점에 착안하여, '생각하는 모드'와 '생각하지 않는 모드'를 모두 학습시킨다. 이후 강화학습을 통해 문제에 맞춰 적절한 모드를 선택하는 능력을 최적화함으로써, 더 적은 계산 비용으로도 훨씬 큰 모델과 필적하는 높은 추론 성능을 달성했다.
https://arxiv.org/abs/2509.03867
Drivel-ology는 "깊이가 있는 헛소리"라는 독특한 언어 현상을 소개하고, 현재의 LLM이 이를 이해하는 데 한계가 있음을 밝히는 연구이다. Drivelology는 문법적으로 완벽하지만 숨겨진 역설이나 감정, 수사적 의도를 담고 있는 표현을 의미한다. 연구진은 여러 언어로 구성된 벤치마크를 구축하여 LLM을 평가했으며, 그 결과 모델들이 이러한 표현을 단순한 넌센스로 오해하거나 숨은 의미를 파악하지 못함을 발견했다. 이는 LLM의 통계적 유창함이 인지적 이해와는 다르다는 점을 보여준다.
https://arxiv.org/abs/2509.02544
이 논문은 그래픽 사용자 인터페이스(GUI)를 자율적으로 조작하는 에이전트 모델 UI-TARS-2의 개발 과정과 성과를 상세히 기술한 보고서이다. 이 모델은 데이터 확장성, 안정적인 다중 턴 강화학습, GUI 외부 환경과의 연동 등 기존 GUI 에이전트의 주요 난제들을 체계적인 훈련 방법론으로 해결했다. 그 결과 Mind2Web, OSWorld 등 주요 벤치마크에서 기존의 강력한 모델들을 능가하는 최고 수준의 성능을 달성했으며, 게임 및 소프트웨어 엔지니어링 등 다양한 작업에서도 뛰어난 일반화 능력을 입증했다.
https://arxiv.org/abs/2509.02479
SimpleTIR은 LLM이 여러 턴에 걸쳐 외부 도구를 사용하는 추론을 강화학습으로 안정적으로 훈련시키는 알고리즘이다. 다중 턴 도구 사용 훈련 시, 유효한 결과를 내지 못하는 '무효 턴(void turns)'이 학습 불안정성과 성능 붕괴를 일으키는 핵심 원인임을 발견했다. SimpleTIR은 이러한 문제가 있는 턴이 포함된 학습 데이터를 정책 업데이트에서 제외하는 간단한 방식으로 해로운 그래디언트 폭발을 막고 학습을 안정화시키며, 이를 통해 수학 추론 벤치마크에서 모델의 성능을 전례 없는 수준으로 끌어올렸다.
https://arxiv.org/abs/2509.00676
LLaVA-Critic-R1은 응답을 평가하는 '비평가(Critic) 모델'과 생성하는 '정책(Policy) 모델'을 분리하던 기존 관행에 도전하는 연구이다. 연구진은 비평가 모델 학습용 데이터를 활용해 생성 모델에 직접 강화학습을 적용하여, 비평과 생성을 모두 수행하는 통합 모델 LLaVA-Critic-R1을 만들었다. 놀랍게도 이 모델은 뛰어난 비평가일 뿐만 아니라, 전문적인 생성 모델들과 대등하거나 더 나은 성능을 보였으며, 추론 시 '자가 비평'을 통해 추가 학습 없이도 성능을 크게 향상시킬 수 있음을 증명했다.
https://arxiv.org/abs/2508.21112
EmbodiedOneVision은 인간처럼 멀티모달 추론과 물리적 상호작용을 유연하게 수행하는 범용 로봇 제어 모델 EO-1을 제안한다. 이 모델의 핵심은 이미지, 텍스트, 행동 등 다양한 데이터를 차별 없이 처리하는 통합 아키텍처와, 150만 개 이상의 방대한 시각-텍스트-행동 데이터를 담은 EO-Data1.5M 데이터셋이다. 이 데이터셋을 기반으로 한 학습을 통해 EO-1은 여러 종류의 로봇을 이용한 길고 복잡한 조작 작업에서 현실 세계에 대한 깊은 이해와 뛰어난 일반화 능력을 성공적으로 보여주었다.
https://arxiv.org/abs/2508.20470
Droplet3D는 3D 데이터 부족 문제를 해결하기 위해 인터넷에 풍부한 동영상에서 상식적 사전 지식(commonsense priors)을 추출하여 3D 콘텐츠 생성을 돕는 접근법을 제시한다. 동영상에는 사물의 여러 시점을 통해 공간적 일관성을 제공하고, 풍부한 맥락을 통해 의미적 정보를 전달하는 두 가지 유용한 단서가 존재한다. 연구진은 이를 활용하기 위해 세계 최초의 대규모 다중 시점 비디오 데이터셋 Droplet3D-4M을 구축하고 이를 학습한 생성 모델을 공개했으며, 그 결과 공간적으로 일관되고 의미적으로 타당한 고품질 3D 콘텐츠를 생성하는 데 성공했다.
[METAX = 김한얼 기자]
[ⓒ META-X. 무단전재-재배포 금지]