[2025년 24째주] MetaX 주간 AI 논문 리뷰

김한얼 기자

loenahmik@gmail.com | 2025-06-14 13:06:37

게임처럼 훈련시키는 강화학습부터, 스마트폰에서 동작하는 초소형 고성능 언어모델의 개발
멀티모달 AI 모델의 다양한 도메인 분야 확장과 비디오, 3D 생성 모델의 발전

TL;DR

-'Reinforcement Pre-Training' 논문은 LLM의 다음 단어 맞추기를 보상을 주는 '게임'처럼 훈련시켜 성능을 높이는 새로운 방식을 개발했다.
-'Will It Still Be True Tomorrow?' 연구는 LLM 답변이 시간이 지나도 유효할지(상록성)를 구분하는 기술로, 잘못된 정보 생성을 줄이고 신뢰도를 높였다.
-'Lingshu' 논문은 의료 이미지와 텍스트를 함께 이해하고 추론하는 의료 전문 멀티모달 AI를 개발해 기존 모델보다 뛰어난 성능을 보였다.
-'Confidence Is All You Need' 연구는 비싼 데이터 없이 AI 스스로 '자신감'을 느끼는 답변에 보상을 주는 방식으로 수학 문제 해결 능력을 크게 향상시켰다.
-'MiniCPM4' 논문은 스마트폰 같은 일반 기기에서도 빠르고 효율적으로 작동하는 초소형 고성능 언어 모델을 만들었다.
-'Saffron-1' 논문은 LLM을 사용할 때(추론 시) 더 안전하게 만들어, 해킹이나 탈옥 공격을 막는 새로운 방어 기술을 개발했다.
-'Geopolitical biases in LLMs' 연구는 LLM들이 미국, 중국 등 특정 국가의 입장을 편드는 편향이 심각하며, 간단한 방법으로는 해결하기 어렵다는 것을 밝혔다.
-'ReasonMed' 논문은 AI의 의료 추론 능력을 키우기 위해, 37만 건의 고품질 의료 데이터셋을 구축하고 이를 통해 더 똑똑한 의료 AI를 훈련시켰다.
-'Seedance 1.0' 보고서는 지시를 잘 따르면서도 자연스럽고 품질 좋은 영상을 매우 빠르게 만들어내는 차세대 비디오 생성 AI를 공개했다.
-'PartCrafter' 논문은 사진 한 장만 보고도 사물을 여러 개의 의미 있는 '부품'으로 나누어 입체적인 3D 모델로 만들어주는 AI를 개발했다.


Reinforcement Pre-Training

https://arxiv.org/abs/2506.08007

'Reinforcement Pre-Training' 논문은 대규모 언어 모델과 강화학습을 위한 새로운 확장 패러다임으로 강화 사전 훈련(RPT)을 제안한다. 이 방법은 기존의 다음 토큰 예측 과제를 강화학습(RL) 기반의 추론 작업으로 재정의한다. 모델이 주어진 문맥에서 다음 토큰을 정확히 예측하면 검증 가능한 보상을 받도록 설계하여, 방대한 텍스트 데이터를 범용 강화학습에 활용할 수 있는 확장 가능한 방법을 제시한다. 그 결과, RPT는 다음 토큰 추론 능력을 강화함으로써 언어 모델의 예측 정확도를 크게 향상시켰다. 또한, 이는 향후의 강화 미세조정을 위한 강력한 사전 훈련 기반을 마련하며, 훈련 규모가 커질수록 성능이 꾸준히 향상되어 유망한 차세대 사전 훈련 패러다임임을 입증했다.

Reinforcement Pre-Training


Will It Still Be True Tomorrow? Multilingual Evergreen Question Classification to Improve Trustworthy QA

https://arxiv.org/abs/2505.21115

'Will It Still Be True Tomorrow?' 연구는 대규모 언어 모델(LLM)의 환각 현상이 질문의 시간적 특성, 즉 답변이 변하지 않는 '상록성(evergreen)' 질문과 변하는 '가변성(mutable)' 질문을 구분하지 못하는 것에서 기인한다고 지적한다. 이 문제를 해결하기 위해, 본 연구는 최초로 상록성 여부가 표시된 다국어 질의응답 데이터셋인 'EverGreenQA'를 구축했다. 이를 바탕으로 12개의 최신 LLM을 벤치마킹하고, 질문의 시간적 특성을 분류하는 경량 다국어 분류기 'EG-E5'를 개발하여 최고 수준의 성능을 달성했다. 이러한 상록성 분류는 모델의 자기 지식 추정 능력 향상, QA 데이터셋 필터링, GPT-4o의 검색 행동 분석 등 다양한 분야에서 실용적 유용성을 가진다는 점을 보여준다.

Will It Still Be True Tomorrow? Multilingual Evergreen Question Classification to Improve Trustworthy QA


Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning

https://arxiv.org/abs/2506.07044

'Lingshu' 논문은 일반적인 멀티모달 대규모 언어 모델(MLLM)이 의료 분야에서는 데이터와 과제의 특수성으로 인해 한계를 가진다고 분석한다. 이러한 문제를 해결하기 위해 의료 분야에 특화된 범용 파운데이션 모델 'Lingshu'를 개발했다. 연구진은 의료 영상, 방대한 텍스트, 일반 데이터를 포괄하는 포괄적인 데이터 수집 절차를 제안하여 고품질의 의료 데이터셋을 구축했다. 이를 기반으로 다단계 훈련을 거쳐 Lingshu에 의료 전문 지식을 주입하고, 공정한 평가를 위해 'MedEvalKit'이라는 통합 평가 프레임워크도 개발했다. 그 결과, Lingshu는 멀티모달 QA, 텍스트 기반 QA 등 대부분의 의료 작업에서 기존 오픈소스 모델을 능가하는 성능을 보이며 실제 의료 환경에서의 높은 적용 가능성을 보여주었다.

Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning


Confidence Is All You Need: Few-Shot RL Fine-Tuning of Language Models

https://arxiv.org/abs/2506.06395

'Confidence Is All You Need' 연구는 강화학습(RL) 기반의 언어 모델 미세조정이 비용이 많이 드는 인간의 주석이나 외부 보상 모델에 의존하는 문제를 해결하고자 한다. 이를 위해 '자기 자신감 기반 강화학습(RLSC)'이라는 새로운 방법을 제안한다. 이 방법은 외부의 정답 레이블 없이 모델 스스로의 '자신감'을 보상 신호로 사용하여 행동을 교정한다. 수학 문제 해결 모델에 RLSC를 적용한 결과, 질문당 단 16개의 샘플과 매우 짧은 학습만으로도 여러 수학 벤치마크에서 정확도를 최대 21.7%까지 크게 향상시켰다. 이는 RLSC가 적은 샘플과 별도의 레이블 없이도 가능한 간단하고 확장성 높은 사후 훈련 방법임을 증명한다.

Confidence Is All You Need: Few-Shot RL Fine-Tuning of Language Models


MiniCPM4: Ultra-Efficient LLMs on End Devices

https://arxiv.org/abs/2506.07900

'MiniCPM4' 논문은 스마트폰과 같은 최종 사용자 기기에서 효율적으로 작동하도록 설계된 고효율 대규모 언어 모델(LLM)인 MiniCPM4를 소개한다. 연구진은 모델 아키텍처, 학습 데이터, 학습 알고리즘, 추론 시스템이라는 네 가지 핵심 차원에서 체계적인 혁신을 이루었다. 특히 훈련 가능한 희소 어텐션 메커니즘(InfLLM v2), 효율적인 데이터 필터링 전략(UltraClean), 추론 속도 최적화를 위한 시스템(CPM.cu) 등을 개발했다. 그 결과, MiniCPM4는 여러 벤치마크에서 비슷한 크기의 다른 오픈소스 모델보다 뛰어난 성능과 효율성을 보였다. 특히 긴 시퀀스 처리에서 경쟁 모델보다 훨씬 빠른 속도를 자랑하며 다양한 온디바이스 응용 분야에서의 넓은 사용성을 입증했다.

MiniCPM4: Ultra-Efficient LLMs on End Devices


Saffron-1: Towards an Inference Scaling Paradigm for LLM Safety Assurance

https://arxiv.org/abs/2506.06444

'Saffron-1' 논문은 기존의 LLM 안전성 연구가 훈련 단계에 집중되어 다양한 탈옥(jailbreak) 공격에 취약하다는 한계를 지적한다. 이에 대한 대안으로 추론 단계에서 안전성을 강화하는 '추론 스케일링' 접근법을 최초로 제안한다. 연구진은 기존 추론 스케일링 기법이 안전성 문제에는 비효율적임을 밝히고, 이 문제를 해결하기 위해 'SAFFRON'이라는 새로운 패러다임을 개발했다. SAFFRON은 보상 모델의 평가 횟수를 줄이는 '다중 분기 보상 모델(MRM)'과 위험한 탐색을 막는 '보수적 탐색 제약' 등을 핵심으로 한다. 연구진은 이 방법의 효과를 실험으로 검증했으며, 개발한 보상 모델(Saffron-1)과 안전성 데이터셋(Safety4M)을 공개하여 향후 LLM 안전성 연구에 기여했다.

Saffron-1: Towards an Inference Scaling Paradigm for LLM Safety Assurance


Geopolitical biases in LLMs: what are the "good" and the "bad" countries according to contemporary language models

https://arxiv.org/abs/2506.06751

'Geopolitical biases in LLMs' 연구는 대규모 언어 모델(LLM)이 특정 국가에 대해 갖는 지정학적 편향을 평가한다. 이를 위해 미국, 영국, 소련, 중국 등 국가별 관점이 충돌하는 역사적 사건에 대한 중립적 설명과 각국의 대조적 관점을 담은 새로운 데이터셋을 구축했다. 분석 결과, LLM은 특정 국가의 서사를 뚜렷하게 선호하는 상당한 지정학적 편향을 보였다. 또한, 단순한 편향 제거 프롬프트는 이러한 편향을 줄이는 데 제한적인 효과만 있었으며, 사건의 주체를 인위적으로 바꾸자 모델이 민감하게 반응하며 편향이 증폭되기도 했다. 이 연구는 LLM에 내재된 국가적 서사 편향을 명확히 하고, 향후 관련 연구를 위한 중요한 데이터셋과 프레임워크를 제공했다.

Geopolitical biases in LLMs: what are the "good" and the "bad" countries according to contemporary language models


ReasonMed: A 370K Multi-Agent Generated Dataset for Advancing Medical Reasoning

https://arxiv.org/abs/2506.09513

'ReasonMed' 논문은 추론 기반 LLM이 수학이나 프로그래밍과 달리, 방대한 지식이 필요한 의료 분야의 질의응답에서는 아직 그 능력이 충분히 탐구되지 않았다고 본다. 이 문제를 해결하기 위해, 본 연구는 'ReasonMed'라는 대규모 의료 추론 데이터셋을 구축했다. 이 데이터셋은 다양한 LLM이 생성한 170만 개의 추론 경로를 다중 에이전트가 검증하고 개선하는 과정을 거쳐 37만 개의 고품질 예시로 구성되었다. 연구진은 이 데이터셋을 활용하여 상세한 '사고의 연쇄(CoT)'와 간결한 답변 요약을 결합하는 것이 가장 효과적인 훈련 전략임을 발견했다. 이 전략으로 훈련된 'ReasonMed-7B' 모델은 100억 파라미터 미만 모델 중 최고 성능을 기록하며 LLaMA3.1-70B 모델보다도 우수한 결과를 보였다.

ReasonMed: A 370K Multi-Agent Generated Dataset for Advancing Medical Reasoning


Seedance 1.0: Exploring the Boundaries of Video Generation Models

https://arxiv.org/abs/2506.09113

'Seedance 1.0' 보고서는 현재의 비디오 생성 모델이 프롬프트 이해도, 움직임의 자연스러움, 시각적 품질 간의 균형을 맞추는 데 어려움을 겪고 있다고 지적하며 고성능 비디오 생성 모델 'Seedance 1.0'을 소개한다. 이 모델은 정밀한 비디오 캡셔닝을 통한 데이터 큐레이션, 텍스트-비디오와 이미지-비디오 작업을 동시에 학습하는 효율적인 아키텍처, 비디오 특화 RLHF를 활용한 최적화된 사후 훈련, 그리고 추론 속도를 10배가량 향상시킨 모델 가속화 등 핵심적인 기술 개선을 포함한다. 그 결과, Seedance 1.0은 최첨단 모델들과 비교하여 뛰어난 시공간적 흐름과 구조적 안정성을 가지며, 복잡한 지시 사항을 정확히 따르고 일관된 주제를 표현하는 고품질 비디오를 빠르게 생성한다.

Seedance 1.0: Exploring the Boundaries of Video Generation Models


PartCrafter: Structured 3D Mesh Generation via Compositional Latent Diffusion Transformers

https://arxiv.org/abs/2506.05573

'PartCrafter' 논문은 단일 RGB 이미지로부터 의미적으로 구별되는 여러 개의 3D 메시(mesh)를 동시에 생성하는 최초의 구조적 3D 생성 모델 'PartCrafter'를 제안한다. 이는 이미지를 먼저 분할한 후 각 부분을 재구성하는 기존의 2단계 방식과 달리, 단일 이미지로부터 여러 3D 파트를 동시에 생성하는 통합된 아키텍처를 채택한다. 핵심 혁신으로는 각 3D 파트를 분리된 잠재 토큰으로 표현하는 '구성적 잠재 공간'과, 파트 간의 정보 흐름을 구조화하여 전체적 일관성과 세부 디테일을 모두 보존하는 '계층적 어텐션 메커니즘'이 있다. 실험 결과, PartCrafter는 입력 이미지에 직접 보이지 않는 부분까지 포함하여 분해 가능한 3D 메시를 생성하는 데 있어 기존 접근법을 능가하는 성능을 보였다.

PartCrafter: Structured 3D Mesh Generation via Compositional Latent Diffusion Transformers


[METAX = 김한얼 기자]

[ⓒ META-X. 무단전재-재배포 금지]

WEEKLY HOT