[24W51] 최신 AI 논문 기술 동향 (Apollo, GenEx, SynerGen-VL, BrushEdit, AniDoc, MegaPairs, Byte Latent Transformer, No More Adam, ModernBERT, Compressed Chain of Thought, Qwen2.5, RetroLLM, TheAgentCompany)
김한얼 기자
xx@metax.kr | 2025-02-16 17:32:45
2024년 51주차에 공개된 주목할만한 인공지능(AI) 분야의 논문들을 소개합니다. 각 논문별 간단한 요약을 원하시는 분들은 아래의 TL;DR을 참고해주세요.
TL;DR
멀티모달 이해 및 생성 분야는 다양한 형태의 데이터를 처리하고 생성하는 연구에 초점을 맞추고 있습니다. Apollo는 비디오 이해를 위한 대규모 멀티모달 모델의 메커니즘을 연구했고, GenEx는 단일 이미지로부터 3D 환경을 생성하고 탐색하는 시스템을 개발했습니다.
SynerGen-VL은 이미지 이해와 생성을 통합한 새로운 멀티모달 언어 모델을 제시했으며, BrushEdit은 인페인팅 기반의 지시-안내 이미지 편집 시스템을 구현했습니다. AniDoc은 2D 애니메이션 제작 과정의 자동화를 위한 도구를 개발했습니다.
모델 아키텍처 및 최적화 분야에서는 AI 모델의 성능과 효율성 향상에 주력했습니다. Byte Latent Transformer는 토큰화 대신 바이트 레벨의 새로운 LLM 아키텍처를 제시했으며, No More Adam은 초기화 시점의 학습률 스케일링만으로도 효과적인 최적화가 가능함을 보여주었습니다. ModernBERT는 기존 BERT 모델을 현대적으로 개선하여 더 나은 성능과 효율성을 달성했으며, Compressed Chain of Thought는 연속적이고 가변 길이의 사고 체인을 통해 효율적인 추론을 가능하게 했습니다. Qwen2.5는 이러한 최신 기술들을 적용한 실용적인 대규모 언어 모델 시리즈를 개발했습니다.
검색 및 추론 분야는 AI 시스템의 정보 검색과 논리적 사고 능력 향상에 중점을 두었습니다. RetroLLM은 생성 과정에서 외부 지식을 효과적으로 활용할 수 있는 통합된 프레임워크를 제시했고, Progressive Multimodal Reasoning은 MCTS 알고리즘과 능동적 검색을 결합하여 멀티모달 추론 능력을 향상시켰습니다. MegaPairs는 비전-언어 모델을 활용하여 멀티모달 검색을 위한 대규모 학습 데이터를 합성하는 방법을 제안했습니다.
평가 및 벤치마크 분야에서는 AI 모델의 성능을 객관적으로 측정하기 위한 다양한 방법론이 제시되었습니다. Evaluation Agent는 적은 수의 샘플로도 효율적인 평가가 가능한 프레임워크를 제안했으며, Multi-Dimensional Insights는 실제 생활의 다양한 시나리오에서 LMM의 개인화 능력을 평가할 수 있는 벤치마크를 개발했습니다. OmniEval은 금융 도메인에서 RAG 시스템의 성능을 다각도로 평가하는 벤치마크를 제시했고, TheAgentCompany는 실제 업무 환경을 시뮬레이션하여 AI 에이전트의 작업 수행 능력을 종합적으로 평가하는 방법을 제안했습니다.
멀티모달 이해 및 생성 분야
Apollo: An Exploration of Video Understanding in Large Multimodal Models
[Paper] [Project]
대규모 멀티모달 모델(LMMs)에 비디오 인식 기능이 빠르게 통합되고 있음에도 불구하고, 이들의 비디오 이해 메커니즘에 대한 깊은 이해가 부족한 상황에서, 연구진들은 이러한 문제를 해결하기 위해 포괄적인 연구를 진행하여 'Apollo'라는 최첨단 LMM 모델군을 개발했습니다. 이들은 작은 규모의 모델과 데이터셋에서 얻은 설계 및 훈련 결과가 더 큰 모델에도 효과적으로 적용되는 '스케일링 일관성'을 발견했으며, 훈련 과정에서 균일한 프레임 샘플링보다 fps 샘플링이 훨씬 효과적이라는 것을 입증했습니다. 그 결과, Apollo-3B 모델은 대부분의 기존 7B 모델들을 능가하여 LongVideoBench에서 55.1점을 기록했으며, Apollo-7B는 MLVU에서 70.9점, Video-MME에서 63.3점을 달성하며 7B LMM 모델들 중 최고 성능을 보여주고 있습니다.
GenEx: Generating an Explorable World
[Paper] [Project]
인공지능 개발에 있어 3D 물리적 현실 세계를 이해하고 탐색하는 것이 중요한 과제로 여겨져 왔는데, 연구진들은 이러한 도전 과제를 해결하기 위해 'GenEx'라는 혁신적인 시스템을 개발했습니다. 이 시스템은 단일 RGB 이미지만으로도 3D 일관성을 갖춘 상상적 환경을 생성할 수 있으며, 언리얼 엔진에서 수집된 3D 세계 데이터를 활용하여 360도 전방위 환경을 지속적으로 포착하고, 긴 궤적에 걸친 강력한 루프 일관성과 능동적인 3D 매핑 같은 뛰어난 3D 기능을 보여주고 있습니다. GPT 지원 에이전트들은 이 생성적 상상력을 통해 보이지 않는 물리적 세계에 대한 예측적 기대를 활용하여 신념을 정제하고, 잠재적 결정에 기반한 다양한 결과를 시뮬레이션하며, 더 나은 선택을 할 수 있게 되었으며, 이는 실제 세계 탐색으로의 확장 가능성을 보여주고 있습니다.
SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding
[Paper]
대규모 언어 모델(LLMs)이 이미지 이해와 생성 분야에서 뛰어난 성과를 보이며 다중 모달 영역으로 확장되고 있는 가운데, 연구진들은 이러한 기능들을 통합하는 'SynerGen-VL'이라는 새로운 인코더 없는 다중 모달 대규모 언어 모델(MLLM)을 개발했습니다. 이 모델은 토큰 폴딩 메커니즘과 비전 전문가 기반의 점진적 정렬 사전 훈련 전략을 도입하여 고해상도 이미지 이해를 지원하면서도 훈련 복잡성을 줄이는데 성공했으며, 대규모 이미지-텍스트 혼합 데이터에서 통합된 다음 토큰 예측 목표로 훈련된 후, 기존의 인코더 없는 통합 MLLM들과 비교하여 동등하거나 더 작은 매개변수 크기로도 동등하거나 더 나은 성능을 달성하고 있습니다.
BrushEdit: All-In-One Image Inpainting and Editing
[Paper] [Project]
디퓨전 모델을 사용한 이미지 편집 기술이 크게 발전했음에도 기존의 반전 기반 접근법은 구조화된 반전 노이즈로 인해 객체 추가나 제거와 같은 큰 수정에 어려움을 겪고 있다는 문제를 해결하기 위해 연구진들은 'BrushEdit'라는 새로운 인페인팅 기반 명령어 안내 이미지 편집 패러다임을 개발했습니다. 이 시스템은 다중 모달 대규모 언어 모델(MLLMs)과 이중 분기 이미지 인페인팅 모델을 에이전트 협력 프레임워크에 통합하여 편집 카테고리 분류, 주요 객체 식별, 마스크 획득, 편집 영역 인페인팅을 수행할 수 있게 하며, 광범위한 실험을 통해 마스크 영역 보존 및 편집 효과 일관성을 포함한 7가지 메트릭에서 우수한 성능을 달성했음이 입증되었습니다.
AniDoc: Animation Creation Made Easier
[Paper] [Project]
2D 애니메이션 제작이 캐릭터 디자인, 키프레임 애니메이션, 중간 프레임 생성, 채색이라는 네 가지 필수 단계를 포함하는 업계 표준 워크플로우를 따르는 가운데, 연구진들은 'AniDoc'이라는 비디오 라인 아트 채색 도구를 개발했습니다. 이 도구는 비디오 디퓨전 모델을 기반으로 스케치 시퀀스를 참조 캐릭터 사양에 따라 자동으로 채색된 애니메이션으로 변환할 수 있으며, 명시적 가이드로서 대응 매칭을 활용하여 참조 캐릭터와 각 라인 아트 프레임 간의 변화(예: 자세)에 대한 강력한 견고성을 보여주고 있습니다. 또한 중간 프레임 생성 과정도 자동화할 수 있어 사용자가 캐릭터 이미지와 시작 및 끝 스케치만 제공하면 시간적 일관성이 있는 애니메이션을 쉽게 만들 수 있습니다.
모델 아키텍처 및 최적화 분야
Byte Latent Transformer: Patches Scale Better Than Tokens
[Paper] [Project]
연구진들은 바이트 수준의 LLM 아키텍처인 'Byte Latent Transformer(BLT)'를 개발하여 처음으로 토큰화 기반 LLM의 성능을 동등한 수준으로 달성하면서도 추론 효율성과 견고성을 크게 향상시켰습니다. 이 모델은 바이트를 동적 크기의 패치로 인코딩하여 주요 계산 단위로 활용하며, 다음 바이트의 엔트로피에 기반하여 패치를 세분화함으로써 데이터 복잡성이 높은 영역에 더 많은 계산과 모델 용량을 할당하고 있습니다. 8B 매개변수와 4T 훈련 바이트까지의 규모에서 첫 FLOP 제어 스케일링 연구를 진행한 결과, 고정된 어휘 없이도 바이트 수준 모델의 확장 가능성을 입증했으며, 데이터가 예측 가능할 때 긴 패치를 동적으로 선택함으로써 훈련과 추론 효율성이 향상되었습니다.
No More Adam: Learning Rate Scaling at Initialization is All You Need
[Paper] [Project]
적응형 그래디언트 방법의 필요성에 의문을 제기하며 연구진들은 모멘텀을 가진 확률적 경사 하강법(SGDM)을 향상시킨 'SGD-SaI'를 개발했습니다. 이 방법은 각 매개변수 그룹의 그래디언트 신호 대 잡음비(g-SNR)에 따라 초기화 시점에서 학습률을 조정하는 방식을 사용하며, 적응형 2차 모멘텀에 의존하지 않고도 학습률을 조정함으로써 첫 반복부터 훈련 불균형을 방지하고 AdamW에 비해 최적화 프로그램의 메모리 사용량을 절반으로 줄일 수 있습니다. 단순성과 효율성에도 불구하고 다양한 트랜스포머 기반 작업에서 AdamW와 동등하거나 더 나은 성능을 보여주고 있으며, GPT-2(1.5B 매개변수)에서 5.93GB, Llama2-7B에서 25.15GB의 메모리 사용량을 절감하는 등 상당한 메모리 효율성 개선을 달성했습니다.
Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for Fast, Memory Efficient, and Long Context Finetuning and Inference
[Paper] [Project]
BERT와 같은 인코더 전용 트랜스포머 모델이 검색과 분류 작업에서 뛰어난 성능과 크기의 균형을 보여주고 있지만 출시 이후 실질적인 개선이 제한적이었다는 문제를 해결하기 위해 연구진들은 'ModernBERT'를 개발했습니다. 이 모델은 8192 시퀀스 길이로 2조 개의 토큰에 대해 훈련되었으며, 다양한 분류 작업과 단일 및 다중 벡터 검색에서 최첨단 결과를 보여주고 있습니다. 특히 강력한 하위 작업 성능 외에도 가장 빠른 속도와 메모리 효율성을 갖춘 인코더로서 일반 GPU에서도 추론이 가능하도록 설계되어 있어, 기존 인코더들에 비해 주요한 파레토 개선을 이루어냈습니다.
Compressed Chain of Thought: Efficient Reasoning Through Dense Representations
[Paper]
언어 모델의 추론 성능을 향상시키는 사고의 연쇄(Chain-of-thought) 디코딩 방식이 높은 생성 지연시간이라는 비용을 수반하는 문제를 해결하기 위해 연구진들은 'Compressed Chain-of-Thought(CCoT)'라는 프레임워크를 개발했습니다. 이 프레임워크는 가변 시퀀스 길이를 가진 의미 있고 연속적인 숙고 토큰을 생성할 수 있게 하며, 생성된 숙고 토큰들은 명시적 추론 체인의 압축된 표현으로, 기성 디코더 언어 모델에도 적용할 수 있습니다. 실험을 통해 CCoT가 조밀한 의미 있는 표현에 대한 추가적인 추론을 가능하게 하여 정확도 향상을 달성할 수 있음을 보여주었으며, 생성되는 숙고 토큰의 수를 제어함으로써 추론 개선을 적응적으로 수정할 수 있다는 것이 입증되었습니다.
Qwen2.5 Technical Report
[Paper] [Project]
연구진들은 다양한 요구를 충족시키기 위해 설계된 대규모 언어 모델(LLMs) 시리즈인 'Qwen2.5'를 개발했습니다. 이전 버전과 비교하여 사전 훈련 데이터셋을 7조 개에서 18조 개의 토큰으로 확장했으며, 100만 개 이상의 샘플을 사용한 복잡한 지도 미세 조정과 다단계 강화 학습을 구현하여 인간의 선호도, 긴 텍스트 생성, 구조적 데이터 분석, 지시 따르기 능력을 크게 향상시켰습니다. 다양한 사용 사례를 효과적으로 처리하기 위해 기본 모델과 지시 조정 모델을 포함한 오픈 웨이트 제품과 Qwen2.5-Turbo와 Qwen2.5-Plus라는 두 가지 전문가 혼합(MoE) 변형을 제공하고 있으며, 특히 Qwen2.5-72B-Instruct는 약 5배 더 큰 Llama-3-405B-Instruct와 경쟁력 있는 성능을 보여주고 있습니다.
검색 및 추론 분야
RetroLLM: Empowering Large Language Models to Retrieve Fine-grained Evidence within Generation
[Paper] [Project]
대규모 언어 모델(LLMs)이 뛰어난 생성 능력을 보여주지만 환각 현상으로 어려움을 겪는 문제를 해결하기 위해 연구진들은 'RetroLLM'이라는 통합 프레임워크를 개발했습니다. 이 프레임워크는 검색과 생성을 단일의 일관된 프로세스로 통합하여 LLM이 제약된 디코딩을 통해 말뭉치에서 직접 세분화된 증거를 생성할 수 있게 하며, 제약된 증거 생성 과정에서의 잘못된 가지치기를 완화하기 위해 계층적 FM-인덱스 제약 조건과 미래 지향적 제약 디코딩 전략을 도입했습니다. 5개의 오픈 도메인 QA 데이터셋에 대한 광범위한 실험을 통해 도메인 내외 작업 모두에서 우수한 성능을 보여주고 있으며, 이는 기존 검색 증강 생성(RAG) 방식의 한계를 효과적으로 극복했음을 입증하고 있습니다.
Progressive Multimodal Reasoning via Active Retrieval
[Paper]
다단계 멀티모달 추론 작업이 멀티모달 대규모 언어 모델(MLLMs)에 상당한 도전을 제기하는 문제를 해결하기 위해 연구진들은 능동 검색(AR)과 몬테카를로 트리 탐색(MCTS)을 통해 MLLMs의 추론 능력을 점진적으로 향상시키는 'AR-MCTS'라는 범용 프레임워크를 개발했습니다. 이 접근법은 하이브리드 모달 검색 코퍼스에서 복잡한 추론 문제 해결을 위한 핵심 통찰력을 검색하는 통합 검색 모듈로 시작하여, MCTS 알고리즘과 능동 검색 메커니즘을 결합해 단계별 주석의 자동 생성을 가능하게 하고 각 추론 단계에 대한 핵심 통찰력을 동적으로 검색함으로써 추론 공간의 다양성과 신뢰성을 향상시킵니다. 세 가지 복잡한 멀티모달 추론 벤치마크에 걸친 실험 결과는 AR-MCTS 프레임워크가 다양한 멀티모달 모델의 성능을 향상시키는 데 효과적임을 확인했습니다.
MegaPairs: Massive Data Synthesis For Universal Multimodal Retrieval
[Paper]
멀티모달 검색에 대한 수요가 빠르게 증가하고 있음에도 훈련 데이터 부족으로 발전이 제한되는 문제를 해결하기 위해 연구진들은 시각 언어 모델(VLMs)과 오픈 도메인 이미지를 활용하는 새로운 데이터 합성 방법인 'MegaPairs'를 개발했습니다. 이 방법은 고품질 데이터를 생성하여 멀티모달 검색기가 기존 데이터셋의 70배 더 많은 데이터로 훈련된 기준 모델보다 훨씬 뛰어난 성능을 발휘할 수 있게 하며, 일반 이미지 말뭉치와 오픈소스 VLM에만 의존하기 때문에 쉽게 확장할 수 있습니다. 현재 2,600만 개 이상의 훈련 인스턴스를 생성하여 다양한 크기의 모델을 훈련시켰으며, 이 모델들은 4개의 인기 있는 합성 이미지 검색(CIR) 벤치마크에서 최첨단 제로샷 성능을 달성하고 MMEB가 제공하는 36개 데이터셋에서 전반적으로 최고 성능을 보여주고 있습니다.
평가 및 벤치마크 분야
Evaluation Agent: Efficient and Promptable Evaluation Framework for Visual Generative Models
[Paper] [Project]
시각적 생성 모델의 최근 발전으로 고품질 이미지와 비디오 생성이 가능해졌지만, 이러한 모델들을 평가하기 위해서는 수백, 수천 개의 샘플링이 필요하다는 문제를 해결하기 위해 연구진들은 'Evaluation Agent' 프레임워크를 개발했습니다. 이 프레임워크는 인간과 유사한 전략을 사용하여 라운드당 소수의 샘플만으로도 효율적이고 동적인 다중 라운드 평가를 수행할 수 있으며, 효율성, 사용자 맞춤형 평가, 단일 수치 점수를 넘어선 설명 가능성, 다양한 모델과 도구에 대한 확장성이라는 네 가지 주요 장점을 제공하고 있습니다. 실험 결과, 전통적인 방법의 10% 시간만으로도 비슷한 결과를 도출할 수 있음이 입증되었으며, 이 프레임워크는 시각적 생성 모델 연구 발전을 위해 완전히 오픈소스로 공개되어 있습니다.
Multi-Dimensional Insights: Benchmarking Real-World Personalization in Large Multimodal Models
[Paper] [Project]
대규모 멀티모달 모델(LMMs)이 빠르게 발전하면서 놀라운 능력을 보여주고 있지만, 실제 시나리오에서 인간의 다양한 요구사항과 얼마나 부합하는지를 평가하기 위해 연구진들은 'Multi-Dimensional Insights(MDI) 벤치마크'를 개발했습니다. 이 벤치마크는 인간 생활의 6가지 일반적인 시나리오를 다루는 500개 이상의 이미지를 포함하고 있으며, 각 이미지에 대해 기본적인 이해도를 평가하는 단순 질문과 분석 및 추론 능력을 평가하는 복잡한 질문을 제공하고, 동일한 시나리오에 대해 청년층, 중년층, 노년층의 세 연령대별로 질문을 구분하여 각 연령대의 선호도와 요구사항을 충족시키는 능력을 세부적으로 평가할 수 있게 설계되었습니다. GPT-4와 같은 강력한 모델도 연령 관련 작업에서 79%의 정확도를 보여 실제 응용에서 상당한 개선의 여지가 있음이 확인되었습니다.
OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain
[Paper] [Project]
대규모 언어 모델(LLMs)의 대표적이고 실용적인 응용인 검색 증강 생성(RAG) 기술의 평가를 위해 연구진들은 금융 도메인에서 전방위적이고 자동화된 RAG 벤치마크인 'OmniEval'을 개발했습니다. 이 벤치마크는 쿼리를 5개의 작업 클래스와 16개의 금융 주제로 분류하는 매트릭스 기반 RAG 시나리오 평가 시스템, GPT-4 기반 자동 생성과 인간 주석을 결합한 다차원 평가 데이터 생성 접근법, 검색과 생성 성능을 모두 평가하는 다단계 평가 시스템, 그리고 수동 주석과 LLM 평가자의 감독 미세 조정을 통해 평가의 신뢰성을 높이는 견고한 평가 메트릭을 특징으로 합니다. 광범위한 실험을 통해 다양한 주제와 작업에 걸친 RAG 시스템의 성능 변화를 보여주며, 수직 도메인에서 RAG 모델의 개선 가능성을 제시하고 있습니다.
TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks
[Paper] [Project]
LLM 기반 AI 에이전트들이 업무 관련 작업을 가속화하거나 자율적으로 수행하는 데 얼마나 효과적인지 측정하기 위해 연구진들은 'TheAgentCompany'라는 평가 벤치마크를 개발했습니다. 이 벤치마크는 웹 브라우징, 코드 작성, 프로그램 실행, 동료와의 소통 등 디지털 작업자와 유사한 방식으로 세상과 상호작용하는 AI 에이전트를 평가할 수 있도록 설계되었으며, 소프트웨어 회사 환경을 모방한 자체 포함 환경에서 다양한 작업을 생성하여 평가를 수행합니다. 폐쇄형 API 기반 및 오픈 웨이트 언어 모델로 구동되는 기준 에이전트들을 테스트한 결과, 가장 경쟁력 있는 에이전트가 24%의 작업을 자율적으로 완료할 수 있음이 확인되었으며, 이는 현재 시스템이 단순한 작업은 자율적으로 해결할 수 있지만 더 어려운 장기 작업은 아직 해결하기 어렵다는 것을 보여주고 있습니다.
[ⓒ META-X. 무단전재-재배포 금지]