[25W01] 최신 AI 논문 기술 동향 (HuatuoGPT-o1, Medical Imaging MLLM, VideoRefer Suite, VideoAnydoor, 2.5 Years in Class, Explanatory Instructions, 1.58-bit FLUX, VA-VAE, OS-Genesis, CodeElo, NextTokenPrediction)

김한얼 기자

xx@metax.kr | 2025-02-26 12:51:23

2025년 1주차에 공개된 주목할만한 인공지능(AI) 분야의 논문들을 소개합니다. 각 논문별 간단한 요약을 원하시는 분들은 아래의 TL;DR을 참고해주세요.

TL;DR

의료/헬스케어 AI 분야에서는 HuatuoGPT-o1과 Medical Imaging MLLM 연구가 주목됩니다. HuatuoGPT-o1은 복잡한 의료 추론 능력 향상을 위해 검증된 데이터셋과 강화학습을 활용한 2단계 접근법을 제시했으며, Medical Imaging MLLM 연구는 조합적 일반화(CG) 개념을 통해 의료 영상의 Modality, 해부학적 부위, 작업 간의 관계를 분석하여 제한된 데이터 환경에서도 효과적인 성능을 달성했습니다.

컴퓨터 비전/멀티모달 분야의 연구들은 비전-언어 모델의 발전에 초점을 맞추고 있습니다. VideoRefer Suite는 비디오 LLM의 시공간적 객체 이해 능력을 향상시키는 프레임워크를 제시했고, VideoAnydoor는 정밀한 움직임 제어가 가능한 비디오 객체 삽입 기술을 개발했습니다. 2.5 Years in Class는 교육용 비디오를 활용한 새로운 VLM 학습 방식을 제안했으며, Explanatory Instructions는 컴퓨터 비전 작업의 제로샷 일반화를 위한 설명적 지시 개념을 도입했습니다.

모델 최적화/효율화 분야에서 1.58-bit FLUX는 텍스트-이미지 생성 모델을 1.58비트 가중치로 양자화하여 모델 크기와 추론 속도를 크게 개선했으며, VA-VAE 연구는 Latent Diffusion 모델의 최적화 문제를 해결하여 21배 빠른 이미지 생성을 가능하게 했습니다.

AI 시스템/프레임워크 분야에서 OS-Genesis는 GUI 에이전트를 위한 자동화된 데이터 생성 파이프라인을 제시했고, CodeElo는 LLM의 코드 생성 능력을 평가하기 위한 새로운 벤치마크 시스템을 제안했습니다. Next Token Prediction 연구는 다중 모달리티 학습을 위한 통합된 프레임워크를 제시하여 AI 시스템의 기반을 강화했습니다.

3D/4D 생성 분야에서 Bringing Objects to Life 연구는 텍스트 설명을 기반으로 3D 모델에 사실적인 움직임을 부여하는 4D 생성 방법을 개발했으며, NeRF와 텍스트 기반 이미지-비디오 변환 확산 모델을 결합하여 높은 시각적 품질과 움직임의 자연스러움을 달성했습니다.

의료/헬스케어 AI 분야

HuatuoGPT-o1, Towards Medical Complex Reasoning with LLMs

[Paper][Project]

이 연구는 의료 분야에서 믿을 수 있는 답변을 제공하기 위해 수학적 추론 능력뿐 아니라 견고한 의료 추론 능력이 중요함을 강조합니다. 하지만 의료 추론은 수학과 달리 검증이 어렵다는 문제가 있습니다. 이를 해결하기 위해 연구팀은 의료 전문가의 검증을 거친 의료 문제 데이터셋을 구축하고, 이를 활용하여 의료 추론 능력을 향상시키는 2단계 접근 방식을 제안합니다. 첫째, 검증된 데이터셋을 통해 복잡한 추론 과정을 찾아 LLM을 미세 조정하고, 둘째, 검증 기반 보상을 사용한 강화 학습을 통해 복잡한 추론 능력을 더욱 향상시킵니다. 이러한 접근 방식을 통해 개발된 의료 LLM인 HuatuoGPT-o1은 4만 개의 검증된 문제만으로도 기존 LLM보다 뛰어난 성능을 보입니다. 특히, 복잡한 의료 문제 해결 능력이 뛰어나며 강화 학습을 통해 더 큰 효과를 얻는 것으로 나타났습니다. 본 연구는 의료 분야뿐만 아니라 다른 전문 분야에서도 추론 능력 향상에 기여할 수 있는 새로운 연구 방향을 제시합니다.

On the Compositional Generalization of Multimodal LLMs for Medical Imaging
[Paper][Project]

의료 분야에서 멀티모달 대규모 언어 모델(MLLM)의 잠재력은 무궁무진하지만, 특정 의료 분야 데이터 부족으로 성능 발휘에 어려움을 겪고 있습니다. 이는 MLLM의 일반화 능력을 향상시키기 위해 어떤 이미지를 활용해야 하는지에 대한 의문으로 이어집니다. 기존 연구에서는 다양한 작업들이 서로에게 도움을 주면서 단일 작업 학습보다 더 나은 성능을 보이는 다중 작업 학습의 효과를 강조해왔습니다. 그러나 이러한 연구들은 작업 간의 내부 관계를 간과하여 특정 작업을 향상시키기 위한 데이터셋 선택에 대한 명확한 지침을 제공하지 못했습니다. 본 논문에서는 조합적 일반화(CG) 개념을 활용하여 이러한 현상을 분석합니다. CG는 모델이 학습된 요소들을 재조합하여 새로운 조합을 이해하는 능력을 의미합니다. 의료 영상은 Modalitiy(영상획득방식), Anatomical area(해부학적 부위), Task(작업)으로 명확하게 정의될 수 있기 때문에 CG 탐구에 이상적인 환경을 제공합니다. 이를 검증하기 위해 106개의 의료 데이터셋을 모아 Med-MAT을 구축하고 실험을 진행했습니다. 그 결과, MLLM이 CG를 통해 보지 못한 의료 영상을 이해할 수 있음을 확인했으며, 다중 작업 학습에서 관찰되는 일반화 현상의 주요 동인 중 하나가 CG임을 밝혀냈습니다. 더 나아가 CG는 데이터가 제한된 데이터셋을 효과적으로 지원하고 다양한 모델에서 일관된 성능을 제공하여 뛰어난 범용성과 광범위한 적용 가능성을 보여주었습니다. 결론적으로, 의료 분야 MLLM의 데이터 부족 문제를 해결하고 일반화 능력을 향상시키기 위해서는, 단순히 많은 데이터를 사용하는 것이 아니라, 데이터 간의 관계를 이해하고 효과적으로 활용하는 것이 중요하며, CG가 그 열쇠를 쥐고 있음을 시사합니다.

컴퓨터 비전/멀티모달 분야

VideoRefer Suite: Advancing Spatial-Temporal Object Understanding with Video LLM

[Paper][Project]

최근 Video Large Language Models (Video LLMs)는 비디오 이해에서 놀라운 성능을 보여주고 있지만, 전체적인 내용 파악에 집중되어 세밀한 시공간적 정보를 포착하는 데 어려움을 겪고 있습니다. 또한, 고품질 객체 수준의 비디오 명령 데이터와 포괄적인 벤치마크의 부재는 Video LLM 발전을 더디게 하고 있습니다. 이러한 문제를 해결하기 위해 VideoRefer Suite는 Video LLM이 비디오 전체에서 객체에 대한 인식 및 추론을 가능하게 하여 보다 세밀한 수준의 시공간적 비디오 이해를 가능하게 합니다. 구체적으로, 대규모의 고품질 객체 수준 비디오 명령 데이터 세트인 VideoRefer-700K를 소개하고, 정확한 영역 및 순차 표현을 캡처하는 다용도 시공간 객체 인코더를 갖춘 VideoRefer 모델을 제시합니다. 마지막으로 Video LLM의 시공간적 이해 능력을 다양한 측면에서 평가하는 VideoRefer-Bench를 통해 포괄적인 평가를 수행합니다. 광범위한 실험 및 분석을 통해 VideoRefer 모델은 비디오 참조 벤치마크에서 우수한 성능을 달성할 뿐만 아니라 일반적인 비디오 이해 기능을 향상시키는 데 도움이 된다는 것을 보여줍니다.

VideoAnydoor: High-fidelity Video Object Insertion with Precise Motion Control

[Paper][Project]

이 논문에서는 비디오에 객체를 자연스럽게 삽입하는 데 어려움을 해결하기 위해 'VideoAnydoor'라는 새로운 프레임워크를 제시합니다. 이 기술은 텍스트-비디오 변환 모델을 기반으로 하며, 객체의 전체적인 움직임은 ID 추출기를 통해, 세밀한 움직임은 박스 시퀀스를 통해 제어합니다. 특히, 객체의 외형 디테일을 유지하면서도 미세한 움직임까지 제어하기 위해 '픽셀 와퍼'라는 새로운 기술을 사용합니다. 이는 참조 이미지의 특징점과 움직임 궤적을 기반으로 픽셀을 변형시키고, 변형된 특징들을 Diffusion U-Net과 결합하여 사실적인 객체 삽입을 가능하게 합니다. 또한, 비디오와 이미지 데이터를 함께 학습하고 재구성 손실 함수를 개선하여 삽입 품질을 향상시켰습니다. VideoAnydoor는 기존 방법들보다 뛰어난 성능을 보이며, 별도의 미세 조정 없이도 다양한 분야 (예: talking head 생성, 가상 피팅, 다중 영역 편집)에 활용될 수 있습니다.

2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining
[Paper][Project]

이 논문에서는 기존의 이미지-텍스트 쌍 데이터보다 더 자연스럽게 세상을 이해하는 비전-언어 모델(VLM)을 학습시키기 위해, 인터리브 방식의 고품질 교육용 비디오 데이터셋을 제안합니다. 기존 웹페이지 기반 데이터셋은 지식 밀도가 낮고, 이미지-텍스트 연관성이 느슨하며, 논리적 일관성이 부족한 문제점을 가지고 있었습니다. 이를 해결하기 위해 방대한 교육용 비디오에서 2.5년 분량의 수업, 총 22,000시간에 달하는 데이터를 수집하여 VLM 사전 학습용 데이터셋을 구축했습니다. LLM 기반 분류 체계를 사용하여 체계적으로 비디오를 수집하고, 시각 정보(키프레임), 음성 정보(자동 음성 인식), 텍스트 정보(광학 문자 인식)를 추출 및 정제하여 시간 순서에 따라 이미지-텍스트 인터리브 방식으로 구성했습니다. 그 결과, 기존 데이터셋보다 훨씬 더 일관된 맥락, 풍부한 지식, 정교한 이미지-텍스트 정렬을 제공하는 비디오 중심 교육용 데이터셋을 구축했습니다. 실험 결과, 제안된 데이터셋으로 사전 학습된 VLM은 ScienceQA, MathVista와 같은 지식 및 추론 집약적인 작업에서 월등한 성능을 보였습니다. 또한, 시각적 및 텍스트적 단서를 활용하여 퓨샷 학습 환경에서 뛰어난 인터리브 컨텍스트 인식 능력을 보여주었습니다.

Explanatory Instructions: Towards Unified Vision Tasks Understanding and Zero-shot Generalization

[Paper][Project]

자연어 처리(NLP) 분야는 대규모 언어 모델, 사전 학습, 자기 회귀 모델 등을 통해 놀라운 제로샷 성능을 보여주고 있습니다. 하지만 컴퓨터 비전(CV) 분야는 NLP와 비슷한 방법론을 적용했음에도 불구하고, 여전히 제로샷 일반화에 어려움을 겪고 있습니다. 본 논문에서는 CV 분야에서 사용되는 명확하고 용어적인 작업 정의(예: "이미지 분할")가 제로샷 일반화의 핵심적인 걸림돌이라고 주장합니다. 즉, 기존의 작업을 단순히 용어적으로만 이해했기 때문에 새로운 작업에 대한 일반화가 어렵다는 것입니다. 이를 해결하기 위해 논문에서는 설명적 지시(Explanatory Instructions) 개념을 제시합니다. 설명적 지시는 입력 이미지를 출력으로 변환하는 과정을 자세한 언어적 설명을 통해 전달하여 CV 작업 목표를 직관적으로 정의하는 방법입니다. 논문에서는 1200만 개의 "이미지 입력 → 설명적 지시 → 출력" 쌍으로 구성된 대규모 데이터셋을 구축하고, 이미지와 설명적 지시를 모두 입력으로 받는 자기 회귀 기반 비전-언어 모델(AR-based VLM)을 학습시켰습니다. 그 결과, 이 모델은 설명적 지시를 따르는 법을 학습하여 기존 작업에 대한 지시 수준의 제로샷 기능을 달성했을 뿐만 아니라, 보지 못한 CV 작업에 대해서도 강력한 제로샷 일반화 능력을 보여주었습니다. 즉, 컴퓨터 비전 모델이 인간의 언어를 더 잘 이해하게 함으로써, 새로운 작업에 대한 적응력을 향상시키는 것이 핵심적인 과제임을 시사합니다.

모델 최적화/효율화 분야

1.58-bit FLUX

[Paper][Project]

이 연구는 최첨단 텍스트-이미지 생성 모델인 FLUX.1-dev를 1.58비트 가중치(-1, 0, +1 값만 사용)를 사용하여 양자화하는 데 성공한 최초의 사례인 1.58비트 FLUX를 소개합니다. 놀랍게도 1.58비트 FLUX는 이미지 데이터 없이 FLUX.1-dev 모델 자체 감독만으로도 1024x1024 해상도 이미지 생성에서 원본 모델과 비슷한 성능을 유지합니다. 또한, 연구팀은 1.58비트 연산에 최적화된 커널을 개발하여 모델 저장 공간을 7.7배, 추론 메모리 사용량을 5.1배 줄이고, 추론 속도를 향상시켰습니다. GenEval 및 T2I Compbench 벤치마크를 이용한 광범위한 평가 결과, 1.58비트 FLUX는 생성 품질을 유지하면서 계산 효율성을 크게 향상시키는 효과를 보여줍니다.

Reconstruction vs. Generation: Taming Optimization Dilemma in Latent Diffusion Models

[Paper][Project]

최근 이미지 생성 AI 분야에서 Transformer 구조를 활용한 Latent Diffusion 모델이 각광받고 있지만, 고품질 이미지 생성을 위해서는 복잡한 최적화 과정을 거쳐야 한다는 한계가 존재했습니다. 이미지 정보를 압축하는 과정에서 해상도가 저하되거나, 고차원 데이터 학습에 많은 시간과 비용이 소요되는 문제가 발생하는 것이죠. 본 연구에서는 이러한 문제를 해결하기 위해 VA-VAE라는 새로운 이미지 토큰화 기술을 제시합니다. VA-VAE는 기존 이미지 생성 AI 모델에서 활용되는 VAE(Variational AutoEncoder) 기반 토큰화 기술과 달리, 사전 학습된 이미지 인식 모델을 활용하여 이미지 정보를 효율적으로 압축하고 복원할 수 있도록 설계되었습니다. 또한 VA-VAE의 성능을 극대화하기 위해 LightningDiT라는 향상된 Diffusion Transformer 모델을 함께 제시합니다. LightningDiT는 VA-VAE를 통해 생성된 고품질 이미지 정보를 활용하여 더욱 사실적이고 정확한 이미지를 생성할 수 있도록 학습됩니다. 그 결과, VA-VAE와 LightningDiT를 결합한 새로운 이미지 생성 시스템은 기존 시스템 대비 21배 빠른 속도로 고품질 이미지를 생성하는 놀라운 성능 향상을 보여주었습니다. 이는 이미지 생성 AI 기술의 발전을 앞당기고, 다양한 분야에서 활용될 수 있는 가능성을 제시하는 혁신적인 결과라고 할 수 있습니다.

AI 시스템/프레임워크 분야

OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis

[Paper][Project]

시각-언어 모델(VLM) 기반 그래픽 사용자 인터페이스(GUI) 에이전트는 인간과 유사한 컴퓨터 제어 능력을 보여주지만, 훈련을 위한 고품질 데이터 수집에 어려움을 겪고 있습니다. 기존의 인간 감독 또는 사전 정의된 작업 실행 방식은 자원 집약적이거나 데이터 품질을 보장하기 어렵습니다. 이러한 문제를 해결하기 위해 OS-Genesis라는 새로운 GUI 데이터 합성 파이프라인을 제안합니다. 이는 에이전트가 먼저 환경을 인지하고 단계별 상호 작용을 수행한 다음, 회고적으로 고품질 작업을 도출하여 궤적 수준 탐색을 가능하게 합니다. 또한 궤적 보상 모델을 사용하여 생성된 궤적의 품질을 보장합니다. OS-Genesis로 훈련된 GUI 에이전트는 매우 까다로운 온라인 벤치마크에서 성능이 크게 향상되었으며, 기존 합성 방법보다 데이터 품질과 다양성이 뛰어나다는 것이 입증되었습니다.

CodeElo: Benchmarking Competition-level Code Generation of LLMs with Human-comparable Elo Ratings

[Paper][Project]

최근 대규모 언어 모델(LLM)의 코드 추론 능력이 향상되고 OpenAI의 o1 및 o3와 같은 혁신적인 추론 모델이 등장하면서, 이러한 모델의 고급 코딩 능력을 효과적으로 평가할 수 있는 더욱 까다롭고 포괄적인 벤치마크가 필요해졌습니다. 기존의 LiveCodeBench 및 USACO와 같은 벤치마크는 비공개 테스트 케이스 부족, 특수 심사 위원 지원 부족, 실행 환경 불일치 등으로 인해 이러한 요구를 충족하지 못했습니다. 이러한 문제를 해결하기 위해 CodeElo라는 표준화된 경쟁 수준의 코드 생성 벤치마크를 도입했습니다. CodeElo는 공식 CodeForces 플랫폼을 기반으로 하며, 최근 6개월 동안의 CodeForces 콘테스트 문제들을 대회 부문, 문제 난이도 등급, 문제 알고리즘 태그와 같은 자세한 정보와 함께 제공합니다. CodeElo는 문제를 플랫폼에 직접 제출하여 평가하는 독특한 심사 방식과 플랫폼과 일치하고 인간 참가자와 비교 가능하지만 분산이 적은 안정적인 Elo 등급 계산 시스템을 도입했습니다. CodeElo를 사용한 테스트를 통해 30개의 기존 오픈 소스 LLM과 3개의 독점 LLM에 대한 Elo 등급을 처음으로 제공합니다. 그 결과 o1-mini와 QwQ-32B-Preview가 각각 1578점과 1261점의 Elo 등급을 기록하며 두각을 나타낸 반면, 다른 모델들은 가장 쉬운 문제에서도 어려움을 겪으며 모든 인간 참가자 중 하위 20%에 머물렀습니다. 또한 알고리즘 전반의 성능과 C++ 및 Python 사용 비교에 대한 자세한 분석 실험을 통해 향후 연구 방향을 제시했습니다.

Next Token Prediction Towards Multimodal Intelligence: A Comprehensive Survey
[Paper][Project]

자연어 처리 분야의 언어 모델링 기반을 토대로, 다음 토큰 예측(NTP)은 다양한 modality에 걸쳐 머신러닝 작업을 위한 다용도 훈련 목표로 진화하여 상당한 성공을 거두었습니다. 대규모 언어 모델(LLM)이 텍스트 modality 내에서 이해 및 생성 작업을 통합하는 방향으로 발전함에 따라, 최근 연구에서는 여러 modality의 작업을 NTP 프레임워크 내에 효과적으로 통합하여 multimodal 정보를 토큰으로 변환하고 컨텍스트가 주어졌을 때 다음 토큰을 예측할 수 있음을 보여주었습니다. 본 연구에서는 NTP의 관점에서 multimodal 학습 내에서 이해와 생성을 통합하는 포괄적인 분류 체계를 제시합니다. 제안된 분류 체계는 다섯 가지 주요 측면, 즉 multimodal 토큰화, MMNTP 모델 아키텍처, 통합 작업 표현, 데이터 세트 및 평가, 미해결 과제를 다룹니다. 이 새로운 분류 체계는 연구자들이 multimodal 인텔리전스를 탐구하는 데 도움을 주는 것을 목표로 합니다.

3D/4D 생성 분야

Bringing Objects to Life: 4D generation from 3D objects

[Paper][Project]

(Prompt: "An elephant is shaking its trunk")

이 연구는 텍스트 설명을 기반으로 기존 3D 모델에 사실적인 움직임을 부여하는 새로운 4D 생성 방법을 제시합니다. 기존 방법들은 생성된 콘텐츠의 외형이나 기하학적 형태를 제어하는 데 한계가 있었지만, 이 방법은 사용자가 제공한 3D 객체의 고유한 특징을 유지하면서도 텍스트 프롬프트를 통해 원하는 애니메이션을 구현할 수 있다는 점에서 큰 진전을 이루었습니다. 구체적으로, 3D 모델을 먼저 4D NeRF (Neural Radiance Field)로 변환하여 시각적 속성을 그대로 보존합니다. 그런 다음, 텍스트 기반 이미지-비디오 변환 확산 모델을 사용하여 객체에 애니메이션을 적용합니다. 사실적인 움직임을 만들어내기 위해, 현실적인 움직임을 위한 점진적인 시점 선택 프로토콜과 관련 영역에 최적화를 집중시키는 마스크된 SDS (Score Distillation Sampling) 손실 함수를 도입했습니다. 이 방법은 시간적 일관성, 프롬프트 준수 및 시각적 충실도 측면에서 기존 방법보다 뛰어난 성능을 보였으며, 특히 LPIPS 점수로 측정했을 때 최대 3배 향상된 객체 고유성 보존 능력을 보여주면서 시각적 품질과 역동적인 콘텐츠 사이의 균형을 효과적으로 맞춥니다.

[ⓒ META-X. 무단전재-재배포 금지]

WEEKLY HOT