[2025년 35째주] MetaX 주간 AI 논문 리뷰

김한얼 기자

loenahmik@gmail.com | 2025-08-30 09:05:31

강화학습과 자기-보상 기반의 성능 혁신, 추론 능력과 효율의 극대화
에이전트와 로보틱스를 넘어선 응용 확장, 전문 과학 분야 난제 해결로의 도약

InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency

https://arxiv.org/abs/2508.18265

InternVL 3.5는 다재다능함, 추론 능력, 효율성을 크게 향상시킨 차세대 오픈소스 멀티모달 모델이다. 추론 능력 강화를 위한 캐스케이드 강화학습(Cascade RL)과 효율성을 위한 시각 해상도 라우터(ViR) 등 혁신 기술을 통해 이전 버전 대비 추론 성능과 속도를 대폭 개선했다. 이를 통해 GUI 상호작용과 같은 새로운 기능을 지원하며, 최상위 상용 모델과의 성능 격차를 성공적으로 좁혔다.

InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency


Beyond Pass@1: Self-Play with Variational Problem Synthesis Sustains RLVR

https://arxiv.org/abs/2508.14029

Beyond Pass@1 논문은 검증 가능한 보상 기반 강화학습(RLVR)의 고질적 문제인 생성 다양성 감소를 해결하기 위해 변형 문제 합성을 통한 자기-대국(SvS) 전략을 제안한다. 이 방법은 모델이 스스로 생성한 정답을 활용하여 정답은 같지만 형태가 다른 새로운 문제를 온라인으로 합성하여 훈련에 사용한다. 결과적으로, 모델이 단일 정답 경로에 과적합되는 것을 방지하고 생성 다양성을 유지하여 여러 답을 탐색하는 능력(Pass@k)을 크게 향상시키는 데 성공했다.

Beyond Pass@1: Self-Play with Variational Problem Synthesis Sustains RLVR


AgentFly: Fine-tuning LLM Agents without Fine-tuning LLMs

https://arxiv.org/abs/2508.16153

AgentFly는 LLM 자체를 파인튜닝하는 막대한 비용 없이도 LLM 에이전트가 지속적으로 학습하고 적응할 수 있는 새로운 패러다임을 제시한다. 이 모델은 과거 경험을 저장하는 외부 메모리와 이를 활용하는 사례 선택 정책을 통해 학습하며, 환경 피드백에 따라 LLM의 가중치가 아닌 메모리를 수정하는 방식을 사용한다. 이 접근법은 계산적으로 매우 효율적이면서도 뛰어난 성능을 보이며, 특히 분포를 벗어난 새로운 작업에 대한 강한 적응력을 입증했다.

AgentFly: Fine-tuning LLM Agents without Fine-tuning LLMs


VibeVoice Technical Report

https://arxiv.org/abs/2508.19205

VibeVoice는 여러 화자가 참여하는 장시간의 대화 음성을 자연스럽게 합성하는 것을 목표로 하는 새로운 모델이다. 이 모델은 연속적인 데이터를 생성하는 데 효과적인 넥스트-토큰 확산(next-token diffusion) 방식과, 기존보다 데이터 압축률을 80배 향상시킨 혁신적인 음성 토크나이저를 결합했다. 이를 통해 최대 90분 길이의 다중 화자 음성을 실제 대화와 같은 분위기로 생성할 수 있으며, 기존 모델들을 능가하는 성능을 달성했다.

VibeVoice Technical Report


Beyond Transcription: Mechanistic Interpretability in ASR

https://arxiv.org/abs/2508.15882

Beyond Transcription 논문은 LLM 분야에서 활발히 연구되는 해석 가능성(interpretability) 방법론을 자동 음성 인식(ASR) 시스템에 적용하여 모델의 내부 작동 원리를 규명한다. 로짓 렌즈, 활성화 패칭과 같은 기법을 통해 ASR 모델의 계층별 정보 처리 과정을 분석한 결과, 반복적인 오류를 유발하는 특정 인코더-디코더 상호작용을 찾아내고 음향 정보 내에 숨겨진 의미적 편향을 발견했다. 이 연구는 ASR 모델의 투명성과 신뢰성을 높이는 중요한 첫걸음이다.

Beyond Transcription: Mechanistic Interpretability in ASR


TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling

https://arxiv.org/abs/2508.17445

TreePO는 강화학습 기반의 LLM 정렬 과정에서 발생하는 높은 계산 비용과 비효율적인 탐색 문제를 해결하기 위한 새로운 알고리즘이다. 이 방법은 텍스트 생성을 트리 구조 탐색으로 간주하고, 세그먼트 단위로 생성하며 불확실성이 높은 지점에서 동적으로 분기하여 다양한 경로를 탐색한다. 불필요한 계산을 줄이고 가치 없는 경로를 조기에 제거함으로써 훈련에 필요한 GPU 시간을 최대 43% 절약하고 추론 효율성까지 높이는 성과를 거두었다.

TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling


Self-Rewarding Vision-Language Model via Reasoning Decomposition

https://arxiv.org/abs/2508.19652

Self-Rewarding Vision-Language Model은 VLM의 고질적인 시각적 환각 및 언어적 지름길 문제를 해결하기 위한 자기-보상(self-rewarding) 프레임워크인 Vision-SR1을 제안한다. 이 모델은 추론 과정을 '시각적 인식'과 '언어적 추론'의 두 단계로 분해하여, 먼저 이미지로부터 텍스트 설명을 생성한 뒤 오직 그 설명만을 이용해 질문에 답하도록 한다. 이 과정의 성공 여부를 내부적인 보상 신호로 활용함으로써, 외부 데이터 없이도 모델의 시각적 인식 능력을 효과적으로 강화시킨다.

Self-Rewarding Vision-Language Model via Reasoning Decomposition


Pref-GRPO: Pairwise Preference Reward-based GRPO for Stable Text-to-Image Reinforcement Learning

https://arxiv.org/abs/2508.20751

Pref-GRPO는 텍스트-이미지 생성 모델의 강화학습 과정에서 발생하는 보상 해킹 문제를 해결하기 위해 쌍별 선호도(pairwise preference) 기반의 보상 체계를 도입한다. 개별 이미지에 절대 점수를 매기는 대신, 두 이미지를 비교하여 어느 쪽이 더 선호되는지를 학습 신호로 사용함으로써 모델이 미세한 점수 차이에 과적합되는 것을 방지한다. 이 접근법은 훈련 과정을 안정시키고, 함께 제안된 UniGenBench 벤치마크를 통해 그 효과를 입증했다.

Pref-GRPO: Pairwise Preference Reward-based GRPO for Stable Text-to-Image Reinforcement Learning


CMPhysBench: A Benchmark for Evaluating Large Language Models in Condensed Matter Physics

https://arxiv.org/abs/2508.18124

CMPhysBench는 응집물질물리학이라는 고도로 전문화된 과학 분야에서 LLM의 문제 해결 능력을 정밀하게 평가하기 위해 설계된 새로운 벤치마크이다. 520개 이상의 대학원 수준 계산 문제로 구성되어 있으며, 정답 여부만 판단하는 대신 풀이 과정의 수식 유사도까지 측정하는 SEED 점수 체계를 도입하여 세밀한 평가가 가능하다. 실험 결과, 현존 최고 성능의 모델조차 매우 낮은 점수를 기록하여, 전문 과학 분야에 대한 LLM의 능력에 아직 상당한 한계가 있음을 명확히 보여주었다.

CMPhysBench: A Benchmark for Evaluating Large Language Models in Condensed Matter Physics


ODYSSEY: Open-World Quadrupeds Exploration and Manipulation for Long-Horizon Tasks

https://arxiv.org/abs/2508.08240

ODYSSEY는 조작기가 달린 4족 보행 로봇이 언어 명령에 따라 복잡하고 장기적인 임무를 수행할 수 있도록 하는 통합 모바일 조작 프레임워크이다. 이 시스템은 VLM 기반의 계층적 플래너를 통해 높은 수준의 작업을 계획하고, 이를 견고한 전신 제어 정책으로 실행하여 민첩한 이동과 정밀한 조작을 동시에 달성한다. 성공적인 시뮬레이션-실제 환경 전이를 통해 비정형 환경에서의 실용성을 입증했으며, 범용 로봇 비서의 실현 가능성을 한 단계 앞당겼다.

ODYSSEY: Open-World Quadrupeds Exploration and Manipulation for Long-Horizon Tasks


[METAX = 김한얼 기자]

[ⓒ META-X. 무단전재-재배포 금지]

WEEKLY HOT