[24W47] 최신 AI 논문 기술 동향 (LLaVA-o1, Generative World Explorer, BlueLM-V-3B, RedPajama, SageAttention2)

김한얼 기자

xx@metax.kr | 2025-02-16 17:04:45

2024년 W47에 공개된 주목할만한 인공지능(AI) 분야의 논문들을 소개합니다. 각 논문별 간단한 요약을 원하시는 분들은 아래의 TL;DR을 참고해주세요.

TL;DR

LLaVA-o1의 단계별 추론 시스템과 Generative World Explorer의 3D 가상 환경 '상상' 능력이 AI의 추론 역량을 한 단계 끌어올렸습니다. BlueLM-V-3B가 모바일 환경에서 MLLM의 실용화 가능성을 보여주는 동안, SageAttention2는 4비트 양자화로 attention 연산 속도를 3배 개선했습니다. RedPajama는 LLaMA 데이터셋의 오픈소스 버전을 공개하여 Snowflake Arctic, XGen 등 실제 서비스에서 사용되는 AI 모델 발전에 기여하고 있습니다.

LLaVA-o1: Let Vision Language Models Reason Step-by-Step

Large Language Model들이 추론 능력에서 큰 발전을 보여왔지만, Vision-Language Model(VLM)들은 복잡한 시각적 질의응답 작업에서 체계적인 추론에 어려움을 겪어왔습니다. 이 연구에서는 자율적인 다단계 추론이 가능한 LLaVA-o1을 소개합니다. Chain-of-thought 프롬프팅과 달리, LLaVA-o1은 요약, 시각적 해석, 논리적 추론, 결론 도출의 순차적 단계를 독립적으로 수행합니다. 연구진은 LLaVA-o1-100k 데이터셋을 구축하고, inference-time stage-level beam search 방법을 제안했으며, 이를 통해 Gemini-1.5-pro, GPT-4o-mini, Llama-3.2-90B-Vision-Instruct와 같은 더 큰 모델들의 성능을 뛰어넘는 결과를 달성했습니다.

Generative World Explorer

부분적 관찰 상태에서의 계획 수립은 embodied AI의 핵심 과제입니다. 이 연구에서는 인간이 세계의 보이지 않는 부분을 상상하고 믿음을 수정하는 것처럼, 가상의 관찰을 통해 믿음을 업데이트할 수 있는 Generative World Explorer (Genex)를 소개합니다. Genex는 에이전트가 대규모 3D 월드(예: 도시 환경)를 정신적으로 탐험하고 상상된 관찰을 통해 믿음을 업데이트할 수 있게 해줍니다. 연구진은 Genex-DB라는 합성 도시 환경 데이터셋을 제작했으며, 실험을 통해 장기간의 탐험 동안 고품질의 일관된 관찰 생성이 가능하다는 것을 입증했습니다.

BlueLM-V-3B: Algorithm and System Co-Design for Multimodal Large Language Models on Mobile Devices


 
모바일 기기에서의 multimodal large language model (MLLM) 구현을 위한 알고리즘과 시스템 co-design 접근방식을 제시합니다. BlueLM-V-3B는 메모리 크기와 연산 능력의 제약을 극복하기 위해 동적 해상도 체계를 재설계하고 하드웨어 인식 배포를 위한 시스템 최적화를 구현했습니다. 2.7B 파라미터의 언어 모델과 400M 파라미터의 vision encoder를 특징으로 하며, MediaTek Dimensity 9300 프로세서에서 24.4 token/s의 생성 속도를 달성했습니다. OpenCompass 벤치마크에서 4B 이하 파라미터 모델 중 가장 높은 평균 점수인 66.1을 기록했습니다.

RedPajama: an Open Dataset for Training Large Language Models

Large language model 개발에서의 데이터셋 구성과 필터링 전략이 여전히 불명확한 상황에서, 이 연구는 세 가지 핵심 데이터 관련 과제를 다룹니다. LLaMA 학습 데이터셋의 오픈 소스 재현인 RedPajama-V1과, 품질 신호와 메타데이터가 포함된 대규모 웹 데이터셋인 RedPajama-V2를 공개했습니다. 이 데이터셋들은 이미 Snowflake Arctic, Salesforce의 XGen, AI2의 OLMo와 같은 실제 프로덕션에서 사용되는 강력한 언어 모델 학습에 활용되었습니다.

SageAttention2 Technical Report: Accurate 4 Bit Attention for Plug-and-play Inference Acceleration

Attention 계산의 효율성을 높이기 위해 4비트 행렬 곱셈을 활용하는 SageAttention2를 제안합니다. warp-level 단위로 Q, K 행렬을 INT4로, P̃, V 행렬을 FP8로 양자화하는 방식을 도입했으며, Q와 V를 smoothing하는 방법을 제안했습니다. RTX4090에서 FlashAttention2와 xformers보다 각각 약 3배, 5배 높은 OPS를 달성했으며, 다양한 모델에서 end-to-end 메트릭의 손실이 거의 없음을 확인했습니다. https://github.com/thu-ml/SageAttention 에서 코드를 확인할 수 있습니다.

[ⓒ META-X. 무단전재-재배포 금지]

WEEKLY HOT