[2025년 16째주] MetaX 주간 AI 논문 리뷰

김한얼 기자

loenahmik@gmail.com | 2025-04-20 14:56:51

혁신적 아키텍처·학습 기법으로 차세대 AI 모델 성능·효율 대폭 향상
분산 추론·도구 연동·지식 보호 기술과 검증 플랫폼으로 실전 활용도·신뢰성 강화

2025년 16주차에 공개된 주목할만한 AI 분야의 논문들을 소개합니다.

TL;DR

'차세대 AI 모델 개발 및 훈련' 분야에서는 근본적인 모델 아키텍처와 학습 방식의 혁신에 집중하고 있습니다. 대표적으로 텍스트와 시각 정보를 통합하여 처음부터 함께 사전 훈련하는 InternVL3 모델, 적은 컴퓨팅 자원으로도 경쟁력 있는 비디오 생성이 가능한 Seaweed-7B의 비용 효율적 훈련 전략, 이미지 생성을 위해 수십억 파라미터 규모로 시각 토크나이저를 확장하며 성능을 개선한 GigaTok, LLM 사전 훈련 시 최적의 데이터 혼합 비율을 자동으로 찾아주는 CLIMB 프레임워크, 외부의 정답 없이 LLM 스스로 추론 능력을 강화하는 Genius의 비지도 자가 학습 기법, 그리고 연산 효율을 극대화한 1비트 아키텍처를 20억 파라미터 규모로 구현한 BitNet b1.58 2B4T이 발표되었습니다.

'AI 모델 활용 및 효율화' 분야는 개발된 모델을 실제 환경에서 효과적으로 사용하고 최적화하는 데 중점을 둡니다. 여기에는 일반 가정용 PC 클러스터 같은 저사양 환경에서도 대규모 LLM을 실행할 수 있게 하는 분산 추론 시스템 PRIMA.CPP, 강화 학습을 통해 LLM이 코드 실행과 같은 외부 도구를 상황에 맞게 전략적으로 사용하는 방법을 학습시키는 ReTool, 모델의 핵심 지식이 쉽게 복제되거나 유출되는 증류 현상을 방지하여 지적 재산을 보호하는 Antidistillation Sampling 기법이 발표되었습니다.

'AI 모델 평가 및 분석' 분야에서는 나날이 발전하는 AI 모델들의 실제 능력과 한계를 정확히 파악하기 위한 노력이 이루어지고 있습니다. 복잡한 추론 과정을 거친 LLM 답변의 정오를 효과적으로 판별하는 검증기 xVerify, 시각-언어 모델이 색상을 얼마나 잘 인식하고 추론하는지를 체계적으로 측정하는 ColorBench 벤치마크 개발, 그리고 특정 최신 모델인 GPT-4o를 대상으로 지식 기반 이미지 생성 및 편집 능력의 강점과 약점을 심층적으로 분석한 GPT-4o Study가 발표되었습니다.


1. 차세대 AI 모델 개발 및 훈련 분야 InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models

https://arxiv.org/abs/2504.10479

그림1. InternVL3

InternVL3는 텍스트 전용 LLM을 나중에 시각 기능에 맞게 조정하는 기존 방식의 복잡성을 해결하기 위해, 처음부터 텍스트와 멀티모달 데이터를 함께 학습하는 '네이티브 멀티모달 사전훈련' 패러다임을 도입한 모델입니다. 이 모델은 더 긴 컨텍스트 처리를 위한 V2PE, 성능 향상을 위한 SFT 및 MPO 같은 고급 후처리 기법, 테스트 시점 스케일링 전략 등을 활용하여 MMMU 벤치마크에서 오픈소스 모델 중 최고 성능을 달성했으며, 주요 상용 모델과 경쟁하면서도 뛰어난 언어 능력을 유지하고 연구 활성화를 위해 데이터와 모델을 공개할 예정입니다.


Seaweed-7B: Cost-Effective Training of Video Generation Foundation Model

https://arxiv.org/abs/2504.08685

그림2. Seaweed-7B

이 연구는 비교적 적은 66만 5천 H100 GPU 시간의 컴퓨팅 자원을 사용하여 처음부터 훈련된 70억 파라미터 규모의 동영상 생성 파운데이션 모델 'Seaweed-7B'를 통해, 비용 효율적인 동영상 모델 훈련 전략을 제시합니다. 자원 제약 환경에서의 신중한 설계를 통해, Seaweed-7B는 훨씬 더 많은 자원으로 훈련된 대형 모델들과 경쟁력 있는 성능을 보여주며, 뛰어난 일반화 능력으로 다양한 응용 분야에 쉽게 적용될 수 있음을 입증했습니다.


GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation

https://arxiv.org/abs/2504.08736

그림3. GigaTok

자기회귀 이미지 생성 시 시각 토크나이저를 확장하면 복원 품질은 좋아지지만 생성 품질은 나빠지는 딜레마를 해결하기 위해 'GigaTok' 접근법이 개발되었습니다. GigaTok은 잠재 공간 복잡성 증가를 문제의 원인으로 보고, 토크나이저 특징을 사전 훈련된 인코더 특징과 정렬시키는 '의미론적 정규화'를 제안하여 이 문제를 완화했으며, 1D 토크나이저 사용 등 효율적인 확장 기법을 통해 30억 파라미터 규모에서 복원, 생성, 표현 학습 모두에서 최첨단 성능을 달성했습니다.


CLIMB: CLustering-based Iterative Data Mixture Bootstrapping for Language Model Pre-training

https://arxiv.org/abs/2504.13161

그림4. CLIMB

사전훈련 데이터셋에서 최적의 데이터 혼합 비율을 찾는 것이 어렵다는 문제를 해결하기 위해, 이 연구는 데이터셋을 의미론적으로 클러스터링하고 반복적으로 최적의 혼합 비율을 탐색하는 자동화된 프레임워크 'CLIMB'를 제안합니다. CLIMB을 통해 얻은 데이터 혼합으로 훈련된 1B 모델은 기존 최고 모델보다 뛰어난 성능을 보였으며, 특정 도메인 최적화 시 더 큰 성능 향상을 확인했고, 연구 커뮤니티를 위해 대규모 클러스터링된 데이터셋(ClimbLab)과 효율적인 사전훈련용 데이터셋(ClimbMix)을 공개했습니다.


Genius: A Generalizable and Purely Unsupervised Self-Training Framework For Advanced Reasoning

https://arxiv.org/abs/2504.08672

그림5. Genius

LLM 추론 능력 향상을 위한 기존의 지도 학습 방식이 가진 확장성 및 비용 문제를 해결하기 위해, 'Genius'라는 일반화 가능하고 순수한 비지도 자가 학습 프레임워크가 제안되었습니다. Genius는 외부 감독 없이 단계별 예측 리샘플링과 이점 보정 최적화(ACO) 손실 함수 등을 통해 최적의 응답을 탐색하고 스스로 성능을 개선하며, 이를 통해 방대한 일반 질의를 활용하여 LLM 추론 능력 확장의 새로운 가능성을 제시합니다.


BitNet b1.58 2B4T Technical Report

https://arxiv.org/abs/2504.12285

그림6. BitNet b1.58 2B4T

이 기술 보고서는 4조 개의 토큰으로 훈련된 20억 파라미터 규모의 최초 오픈소스 네이티브 1비트 LLM인 'BitNet b1.58 2B4T'를 소개합니다. 다양한 벤치마크 평가 결과, 이 모델은 비슷한 크기의 기존 완전 정밀도 LLM과 동등한 성능을 달성하면서도 메모리 사용량, 에너지 소비, 디코딩 속도 측면에서 훨씬 뛰어난 계산 효율성을 제공하며, 연구 촉진을 위해 모델 가중치와 GPU/CPU 추론 코드를 공개했습니다.


2. AI 모델 활용 및 효율화 분야 PRIMA.CPP: Speeding Up 70B-Scale LLM Inference on Low-Resource Everyday Home Clusters

https://arxiv.org/abs/2504.08791

그림7. Prima.cpp

고성능 LLM을 일반 가정용 기기에서 실행하기 어렵다는 문제를 해결하기 위해, 이 논문은 CPU/GPU 혼합, 낮은 메모리, Wi-Fi 환경 등 저사양 가정용 클러스터에서도 70B 규모 모델의 분산 추론을 가능하게 하는 시스템 'prima.cpp'를 제안합니다. 이 시스템은 mmap을 이용한 가중치 관리, 파이프-링 병렬 처리 및 선행 로딩 기법, 그리고 기기별 이질성을 고려한 최적 레이어 할당 알고리즘(Halda)을 통해 기존 시스템들보다 우수한 성능을 보이면서 메모리 사용률을 낮춰, 최첨단 LLM의 개인적 접근성을 크게 향상시킵니다.


ReTool: Reinforcement Learning for Strategic Tool Use in LLMs

https://arxiv.org/abs/2504.11536

그림8. ReTool

강화 학습으로 훈련된 LLM이 텍스트 추론에는 강하지만 계산 도구 활용이 필요한 구조적 문제 해결에는 약하다는 점을 해결하기 위해, 'ReTool' 프레임워크가 제안되었습니다. ReTool은 자연어 추론 과정에 실시간 코드 실행을 동적으로 통합하고, 결과 기반의 자동화된 강화 학습을 통해 모델이 언제 어떻게 도구를 사용할지 스스로 학습하도록 합니다. MATH AIME 벤치마크에서 ReTool은 기존 방식보다 훨씬 효율적으로 높은 정확도를 달성하고 코드 자가 수정과 같은 발전된 능력을 보여주며, 복잡한 수학 추론 및 하이브리드 시스템 연구의 가능성을 높였습니다.


Antidistillation Sampling

https://arxiv.org/abs/2504.13146

그림9. Antidistillation Sampling

LLM이 생성하는 상세한 추론 과정을 다른 모델이 쉽게 학습(증류)하는 것을 방지하고자 하는 모델 소유자의 요구에 부응하여, '반증류 샘플링' 기법이 제안되었습니다. 이 방법은 모델의 다음 토큰 예측 확률 분포를 전략적으로 수정하여, 모델의 실제 사용성은 유지하면서도 생성된 추론 과정이 증류에 덜 효과적이도록 만들어 모델의 지적 재산을 보호하는 것을 목표로 합니다.


3. AI 모델 평가 및 분석 분야 xVerify: Efficient Answer Verifier for Reasoning Model Evaluations

https://arxiv.org/abs/2504.10481

그림10. xVerify

복잡한 추론 과정을 포함하는 최신 LLM의 답변을 정확히 평가하기 어려운 문제를 해결하기 위해, 'xVerify'라는 효율적인 답변 검증기가 개발되었습니다. 이 검증기는 모델의 출력과 참조 답안 사이의 의미론적 등가성을 효과적으로 판단하며, 이를 위해 다양한 LLM과 데이터셋으로 구축된 VAR 데이터셋에서 훈련되었습니다. 평가 결과, xVerify는 95% 이상의 높은 정확도를 보였고, 일부 모델은 GPT-4o보다도 우수한 성능을 나타내며 그 효과성과 일반화 가능성을 입증했습니다.


ColorBench: Can VLMs See and Understand the Colorful World? A Comprehensive Benchmark for Color Perception, Reasoning, and Robustness

https://arxiv.org/abs/2504.10514

그림 11. ColorBench

시각-언어 모델(VLM)이 인간처럼 색상을 인식하고 이해하는지 불분명하다는 문제의식 하에, VLM의 색상 인식, 추론, 견고성을 포괄적으로 평가하기 위한 벤치마크 'ColorBench'가 개발되었습니다. 32개 VLM을 평가한 결과, 모델 규모가 중요하지만 기존 모델들이 색상 이해를 간과해왔으며, 사고 연쇄(CoT)가 도움이 되고 VLM이 색상 단서를 활용하지만 오도될 수도 있음을 발견하여, ColorBench가 향후 VLM의 색상 이해 능력 연구 및 개선에 기여할 것으로 기대됩니다.


Have we unified image generation and understanding yet? An empirical study of GPT-4o's image generation ability

https://arxiv.org/abs/2504.08003

[ⓒ META-X. 무단전재-재배포 금지]

WEEKLY HOT