[24W45/W46] 최신 AI 논문 기술 동향 (OS-ATLAS, MoT, BF16/Death, LLM-Improve, Agent-K, HtmlRAG, DimensionX, LLaMA-Mesh, Add-it, OmniEdit, M-Longdoc, BitNet, MM-Detect, AndroidLab, OpenCoder, ReCapture)
김한얼 기자
xx@metax.kr | 2025-02-16 16:57:59
2024년 W45/W46에 공개된 주목할만한 인공지능(AI) 분야의 논문들을 소개합니다. 각 논문별 간단한 요약을 원하시는 분들은 아래의 TL;DR을 참고해주세요.
TL;DR
시스템 아키텍처 연구에서는 독자적인 GUI 에이전트와 대규모 데이터셋을 구축하였으며 (OS-ATLAS), 새로운 멀티모달 처리 구조를 제안하였고 (Mixture-of-Transformers), 다양한 양자화 방식의 성능을 체계적으로 분석하였으며 (FP8/INT8/INT4), LLM의 경량화를 위한 혁신적인 활성화 기법을 개발하였습니다.
AI의 태스크 개선 및 품질 관리 연구 분야에서는 데이터 사이언스 자동화 (Agent K v1.0)와 구조적 정보 기반 검색 고도화 (HtmlRAG)를 이루었고, 장문 이해력 자가 개선 (Minimum Bayes Risk)과 안드로이드 환경 구축 (AndroidLab)에 성공하였습니다. 또한 코드 생성 모델의 완전 공개 (OpenCoder), 장문 이해 평가 체계 확립 (M-Longdoc), 데이터 품질 관리 방안 제시 (MM-Detect) 등 다양한 혁신을 이루었습니다.
생성형 AI 분야에서는 단일 이미지로부터 입체적 장면을 만들어내는 기술 (DimensionX)과 언어 모델 기반 3D 제작 (LLaMA-Mesh)이 주목할 만한 성과를 거두었습니다. 또한 이미지 내 자연스러운 객체 추가 (Add-it), 다목적 이미지 편집 도구 개발 (OmniEdit), 비디오 관점 변환 기술 (ReCapture) 등을 통해 미디어 생성 능력을 한층 발전시켰습니다.
OS-ATLAS: A Foundation Action Model for Generalist GUI Agents
GUI 에이전트 구축에 있어 상용 VLM에 의존하지 않는 새로운 대안으로서 OS-Atlas를 제시하였습니다. 윈도우, 리눅스, MacOS, 안드로이드, 웹을 포함하는 멀티플랫폼 GUI 그라운딩 데이터 합성을 위한 오픈소스 도구킷을 개발하여, 1,300만개 이상의 GUI 요소를 포함하는 최대 규모의 크로스플랫폼 GUI 그라운딩 코퍼스를 구축하였습니다. 이 데이터셋과 혁신적인 모델 훈련 방식을 결합하여 GUI 스크린샷 이해와 새로운 인터페이스에 대한 일반화 능력을 갖추었으며, 특히 OOD 시나리오에서도 우수한 성능을 보였습니다. 모바일, 데스크톱, 웹을 아우르는 6개의 벤치마크에서 이전 SOTA 모델들 대비 큰 폭의 성능 향상을 달성하였습니다.
Mixture-of-Transformers: A Sparse and Scalable Architecture for Multi-Modal Foundation Models
멀티모달 시스템의 확장성 문제를 해결하기 위해 모달리티별로 파라미터를 분리하는 새로운 희소 트랜스포머 구조를 제안하였습니다. 비임베딩 파라미터인 피드포워드 네트워크, 어텐션 행렬, 레이어 정규화를 모달리티별로 분리하여 처리하면서도 전체 입력 시퀀스에 대한 글로벌 셀프 어텐션을 유지하고 있습니다. Chameleon 7B 설정에서 55.8% FLOPs로 dense baseline과 동등한 성능을 달성하였고, 음성 모달리티 추가 시에도 37.2% FLOPs로 baseline 성능을 달성할 수 있었습니다. AWS p4de.24xlarge 인스턴스에서의 시스템 프로파일링 결과, 47.2% 시간으로 이미지 품질, 75.6% 시간으로 텍스트 품질을 달성하는 등 실질적인 이점을 입증하였습니다.
"Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization
LLM 추론 가속화를 위한 양자화의 정확도-성능 트레이드오프를 체계적으로 연구하였습니다. Llama-3.1 전체 모델군을 대상으로 FP8, INT8, INT4 등 다양한 양자화 포맷에 대해 50만 건 이상의 평가를 수행한 결과, FP8 가중치와 활성화 양자화는 모든 모델 규모에서 손실이 없고, INT8은 적절한 튜닝 시 1-3%의 정확도 저하만 발생함을 확인하였습니다. 배포 환경별 추론 성능 분석 결과, W4A16이 동기식 배포와 중급 GPU의 비동기식 배포에서 가장 비용 효율적이며, W8A8은 중대형 모델의 고성능 GPU 비동기식 배포에서 탁월한 성능을 보이는 것으로 나타났습니다.
Large Language Models Can Self-Improve in Long-context Reasoning
장문 맥락 추론에서 LLM의 자체 개선 가능성을 연구하고 이를 위한 접근 방식을 제안하였습니다. 각 질문에 대해 다수의 출력을 샘플링하고 Minimum Bayes Risk로 점수를 매긴 후, 이를 기반으로 지도 학습 미세조정 또는 선호도 최적화를 적용하는 단순하지만 효과적인 방법을 개발하였습니다. 여러 주요 LLM에 대한 광범위한 실험을 통해 이 접근법의 효과를 입증하였으며, 특히 Llama-3.1-8B-Instruct에서 4.2%의 절대적 성능 향상을 달성하였습니다. 인간 전문가나 GPT-4와 같은 고급 모델의 도움 없이도 자체적인 성능 개선이 가능함을 보여줌으로써, 장문 맥락 시나리오에서 LLM의 지속적인 발전을 위한 새로운 가능성을 제시하였습니다.
Large Language Models Orchestrating Structured Reasoning Achieve Kaggle Grandmaster Level
데이터 사이언스 전과정을 자동화하는 종단간 자율 에이전트인 Agent K v1.0을 개발하였습니다. 구조화된 추론 프레임워크를 통해 복잡한 추론 작업을 동적으로 처리하고, 장단기 메모리를 선택적으로 저장하고 검색하여 환경 보상에 기반한 의사결정을 수행합니다. 미세조정이나 역전파 없이도 경험적 학습을 통한 지속적 개선이 가능하며, Kaggle 대회를 활용한 사례 연구에서 표, 컴퓨터 비전, NLP, 멀티모달 영역을 아우르는 92.5%의 높은 성공률을 달성하였습니다. 5,856명의 Kaggle 경쟁자들과의 Elo-MMR 점수 비교에서 상위 38%에 랭크되었고, Grandmaster 수준의 성능으로 6 gold, 3 silver, 7 bronze 메달을 획득하였습니다.
HtmlRAG: HTML is Better Than Plain Text for Modeling Retrieved Knowledge in RAG Systems
RAG 시스템에서 HTML 형식이 평문보다 더 효과적임을 입증하는 연구를 수행하였습니다. 기존 RAG 시스템이 HTML 소스에서 평문을 추출하는 과정에서 헤딩, 테이블 구조 등 중요한 구조적/의미적 정보를 상실하는 문제를 지적하고, HTML을 그대로 활용하는 HtmlRAG를 제안하였습니다. HTML의 태그, 자바스크립트, CSS 등으로 인한 추가 토큰과 노이즈 문제를 해결하기 위해 HTML 정제, 압축, 가지치기 전략을 개발하였으며, 특히 두 단계 블록-트리 기반 가지치기를 통해 관련성 높은 HTML 부분만을 선별적으로 유지합니다. 6개 QA 데이터셋에서의 실험을 통해 RAG 시스템에서 HTML 활용의 우수성을 입증하였습니다.
DimensionX: Create Any 3D and 4D Scenes from a Single Image with Controllable Video Diffusion
단일 이미지로부터 사실적인 3D/4D 장면을 생성하는 DimensionX 프레임워크를 개발하였습니다. 3D 장면의 공간 구조와 4D 장면의 시간적 발전을 비디오 프레임 시퀀스로 효과적으로 표현할 수 있다는 통찰에서 출발하였습니다. 생성 중 공간적/시간적 제어가 제한되는 기존 비디오 확산 모델의 한계를 극복하기 위해 dimension-aware LoRA를 학습하는 ST-Director를 제안하였습니다. 생성된 비디오와 실제 장면 간의 간극을 줄이기 위해 3D 생성을 위한 궤적 인식 메커니즘과 4D 생성을 위한 아이덴티티 보존 전략을 도입하였으며, 다양한 실제/합성 데이터셋에서의 실험을 통해 기존 방법들 대비 우수한 성능을 입증하였습니다.
LLaMA-Mesh: Unifying 3D Mesh Generation with Language Models
텍스트로 사전학습된 LLM의 능력을 3D 메시 생성까지 확장하는 통합 모델 LLaMA-Mesh를 제안하였습니다. 3D 튜토리얼과 같은 텍스트 소스에서 파생된 LLM의 공간 지식을 활용하고 대화형 3D 생성과 메시 이해를 가능하게 하는 것이 주요 장점입니다. 메시의 정점 좌표와 면 정의를 LLM이 처리할 수 있는 평문 형태로 변환하는 혁신적인 방식을 도입하였으며, 이를 통해 어휘 확장 없이 LLM과의 직접적인 통합이 가능해졌습니다. LLM이 복잡한 공간 지식을 텍스트 기반 형식으로 학습할 수 있음을 처음으로 입증하였으며, 처음부터 학습한 모델과 동등한 메시 생성 품질을 유지하면서도 텍스트 생성 능력을 보존하는데 성공하였습니다.
Add-it: Training-Free Object Insertion in Images With Pretrained Diffusion Models
텍스트 지시에 따른 이미지 내 객체 삽입에 있어, 기존 장면을 보존하면서 자연스러운 위치에 새로운 객체를 통합하는 Add-it 방법론을 제안하였습니다. 사전학습된 확산 모델의 어텐션 메커니즘을 확장하여 장면 이미지, 텍스트 프롬프트, 생성된 이미지 자체의 정보를 통합적으로 활용하는 가중치 확장 어텐션 메커니즘을 도입하였습니다. 객체 배치 적절성을 평가하기 위한 새로운 "Additing Affordance Benchmark"를 구축하였으며, 추가 학습 없이도 실제 및 생성된 이미지 삽입 벤치마크에서 지도학습 기반 방법들을 능가하는 SOTA 성능을 달성하였습니다. 인간 평가에서는 80% 이상의 선호도를 기록하며 그 우수성을 입증하였습니다.
OmniEdit: Building Image Editing Generalist Models Through Specialist Supervision
7가지 이미지 편집 태스크를 통합적으로 처리할 수 있는 만능 에디터 OmniEdit을 개발하였습니다. 기존의 자동 합성이나 수동 주석이 달린 이미지 편집 쌍으로 학습하는 방식의 한계를 극복하기 위해, CLIP-score 대신 GPT-4V와 같은 대규모 멀티모달 모델의 점수를 활용한 중요도 샘플링을 도입하여 데이터 품질을 향상시켰습니다. 또한 EditNet이라는 새로운 편집 아키텍처를 제안하여 편집 성공률을 크게 높였으며, 다양한 종횡비의 이미지를 자연스럽게 처리할 수 있도록 설계되어 실제 응용 시나리오에서의 활용도를 높였습니다. 자동 평가와 인간 평가 모두에서 기존 모델들을 크게 앞서는 성능을 보여주었습니다.
M-Longdoc: A Benchmark For Multimodal Super-Long Document Understanding And A Retrieval-Aware Tuning Framework
텍스트, 그림, 표 등 다양한 모달리티를 포함하는 수백 페이지 분량의 장문 문서를 이해하고 답변하는 새로운 벤치마크 M-LongDoc을 구축하였습니다. 851개의 최신 장문 문서로 구성된 이 벤치마크는 단순한 추출식 답변이 아닌 오픈엔드 솔루션을 요구하는 특징을 가지고 있습니다. 또한 멀티모달 장문 문서에 특화된 검색 인식 튜닝 프레임워크를 최초로 제안하여 효율적이고 효과적인 문서 읽기를 가능하게 하였습니다. 오픈소스 모델 튜닝을 위해 문서 기반 질의응답 태스크에 대한 학습 코퍼스를 완전 자동화된 방식으로 구축하였으며, 실험을 통해 베이스라인 대비 4.6%의 상대적 성능 향상을 달성하였습니다.
BitNet a4.8: 4-bit Activations for 1-bit LLMs
1비트 LLM을 위한 4비트 활성화 방식인 BitNet a4.8을 제안하였습니다. 이상치 채널로 인한 양자화 오류를 완화하기 위해 혼합 양자화 및 희소화 전략을 도입하였으며, 어텐션과 피드포워드 네트워크 레이어의 입력에 4비트 활성화를 사용하고 중간 상태는 희소화 후 8비트 양자화를 적용하였습니다. 광범위한 실험을 통해 BitNet a4.8이 기존의 BitNet b1.58과 동등한 성능을 달성하면서도 4비트 커널을 활용한 더 빠른 추론이 가능함을 입증하였습니다. 또한 전체 파라미터의 55%만 활성화하고 3비트 KV 캐시를 지원함으로써 대규모 LLM 배포와 추론의 효율성을 더욱 향상시켰습니다.
Both Text and Images Leaked! A Systematic Analysis of Multimodal LLM Data Contamination
멀티모달 LLM의 데이터 오염 문제를 체계적으로 분석하기 위한 MM-Detect 프레임워크를 개발하였습니다. 다양한 모달리티와 여러 훈련 단계로 인해 기존 LLM의 데이터 오염 탐지 방법이 효과적이지 않은 문제를 해결하고자 하였습니다. MM-Detect는 다양한 정도의 오염에 민감하게 반응하며, 멀티모달 벤치마크의 학습 데이터 유출로 인한 성능 향상을 정확히 포착할 수 있음을 실험적으로 입증하였습니다. 또한 MLLM이 활용하는 LLM의 사전학습 단계와 MLLM 자체의 미세조정 단계에서 발생할 수 있는 오염 가능성을 탐색함으로써, 오염이 도입될 수 있는 단계에 대한 새로운 통찰을 제공하였습니다.
AndroidLab: Training and Systematic Benchmarking of Android Autonomous Agents
실제 세계와의 상호작용이 중요해진 자율 에이전트 분야에서, 특히 안드로이드 에이전트를 위한 체계적인 프레임워크인 AndroidLab을 제안하였습니다. 다양한 모달리티와 액션 공간을 갖춘 운영 환경과 재현 가능한 벤치마크를 포함하며, LLM과 LMM 모두를 동일한 액션 공간에서 지원하는 특징을 가지고 있습니다. 9개 앱에 걸친 138개의 태스크로 구성된 AndroidLab 벤치마크를 구축하였으며, 이를 활용한 안드로이드 명령어 데이터셋을 개발하여 6개의 오픈소스 LLM과 LMM을 훈련하였습니다. 그 결과 LLM의 평균 성공률을 4.59%에서 21.50%로, LMM의 성공률을 1.93%에서 13.28%로 크게 향상시켰습니다.
OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models
코드 생성, 추론 태스크, 에이전트 시스템 등 다양한 분야에서 필수적인 도구가 된 코드 LLM의 발전을 위해 OpenCoder를 개발하였습니다. 주요 모델들과 견줄만한 성능을 달성하면서도 연구 커뮤니티를 위한 "오픈 쿡북"으로서 모델 가중치와 추론 코드뿐만 아니라, 재현 가능한 훈련 데이터, 완전한 데이터 처리 파이프라인, 엄격한 실험 분석 결과, 상세한 훈련 프로토콜까지 공개하였습니다. 이를 통해 최고 수준의 코드 LLM 구축을 위한 핵심 요소로 코드 최적화 휴리스틱 규칙, 코드 관련 텍스트 말뭉치의 활용, 어닐링과 지도 미세조정 단계에서의 고품질 합성 데이터 활용이 중요함을 밝혔습니다.
ReCapture: Generative Video Camera Controls for User-Provided Videos using Masked Video Fine-Tuning
사용자가 제공한 단일 비디오에서 새로운 카메라 궤적을 가진 비디오를 생성하는 ReCapture 방법을 제안하였습니다. 기존의 장면 움직임을 모두 유지하면서도 완전히 다른 각도와 영화적인 카메라 움직임으로 비디오를 재생성할 수 있으며, 특히 원본 비디오에서 관찰되지 않은 장면의 부분도 그럴듯하게 생성해낼 수 있습니다. 멀티뷰 확산 모델이나 깊이 기반 포인트 클라우드 렌더링을 사용하여 새로운 카메라 궤적을 가진 노이지한 앵커 비디오를 생성한 후, 제안된 마스크 비디오 미세조정 기법을 통해 깨끗하고 시간적 일관성을 가진 재각도 비디오로 변환하는 방식으로 동작합니다.
[ⓒ META-X. 무단전재-재배포 금지]