[24W52] 최신 AI 논문 기술 동향 (Parallelized Autoregressive Visual Generation, OREO, RoburstFT, B-STaR, MSTaR, Distilled Decoding, 3DGraphLLM)

김한얼 기자

xx@metax.kr | 2025-02-16 17:38:29

2024년 52주차에 공개된 주목할만한 인공지능(AI) 분야의 논문들을 소개합니다. 각 논문별 간단한 요약을 원하시는 분들은 아래의 TL;DR을 참고해주세요.

TL;DR

'자기회귀 모델', '병렬 처리', '흐름 매칭' 키워드를 기반으로 이미지/비디오 생성 속도를 혁신하려는 시도가 돋보입니다. 'Parallelized Autoregressive Visual Generation' 논문에서는 토큰 간 의존성을 분석하여 병렬 생성을 통해 최대 9.5배 빠른 속도를, 'Distilled Decoding' 논문에서는 흐름 매칭 기법으로 단일 단계 생성을 가능하게 하여 최대 217.8배의 속도 향상을 이끌어냈습니다.

'대규모 언어 모델', '추론 능력', '오프라인 강화 학습', '자기 개선 학습' 키워드를 중심으로 LLM의 성능 향상을 위한 연구가 활발합니다. 'Offline Reinforcement Learning for LLM Multi-Step Reasoning' 논문에서는 'OREO'라는 새로운 오프라인 강화 학습 방법을 제시하여 외부 데이터 없이도 LLM의 다단계 추론 능력을 향상시키는 결과를 보여주었습니다. 'B-STaR' 논문은 자기 개선 학습 과정에서 발생하는 탐험-활용 딜레마를 해결하는 프레임워크를 제시하여 주목받았습니다.

'미세 조정', '노이즈 제거', '다중 모달 학습' 키워드를 통해 효과적인 LLM 학습 및 미세 조정 기법들이 연구되었습니다. 'RobustFT' 논문에서는 노이즈가 존재하는 데이터 환경에서도 강건한 LLM 미세 조정을 위한 프레임워크를 제안했으며, 'Diving into Self-Evolving Training for Multimodal Reasoning' 논문에서는 다중 모달 추론 능력 향상을 위한 자기 진화 학습 방법을 심층적으로 분석하고, 효과적인 학습을 위한 'MSTaR' 프레임워크를 제시했습니다.

'3D 장면 이해', '의미 그래프' 키워드를 통해 3D 환경에 대한 이해를 LLM에 접목시키려는 새로운 시도가 나타났습니다. '3DGraphLLM' 논문은 3D 장면 그래프를 활용, 객체 간의 의미 관계 정보를 LLM에 학습시킴으로써 3D 환경 이해와 사용자 상호 작용을 향상시키는 결과를 보여주었습니다.

Parallelized Autoregressive Visual Generation
시각적 콘텐츠 생성 속도를 높이는 병렬 자기회귀 모델

[Paper] [Project]

자기회귀 모델은 시각적 콘텐츠 생성 분야에서 강력한 성능을 보여주는 방법이지만, 토큰을 순차적으로 예측하는 방식 때문에 생성 속도가 느리다는 단점이 있습니다. 본 논문에서는 자기회귀 모델링의 장점을 유지하면서 생성 효율성을 향상시키는 간단하면서도 효과적인 병렬 자기회귀 시각 생성 방법을 제안합니다.

핵심 아이디어는 시각적 토큰 간의 의존성에 주목하는 것입니다. 의존성이 약한 토큰들은 병렬로 생성될 수 있는 반면, 강하게 의존하는 인접 토큰들은 독립적으로 샘플링될 경우 불일치를 초래할 수 있으므로 함께 생성하기 어렵습니다.

이러한 관찰을 바탕으로, 본 논문에서는 의존성이 약한 원거리 토큰들을 병렬로 생성하고, 강하게 의존하는 인접 토큰들은 순차적으로 생성하는 병렬 생성 전략을 개발했습니다. 이 방법은 모델 아키텍처나 토크나이저를 수정하지 않고도 표준 자기회귀 모델에 쉽게 통합될 수 있습니다.

ImageNet 및 UCF-101 데이터셋을 사용한 실험 결과, 본 방법은 이미지 및 비디오 생성 작업 모두에서 유사한 품질을 유지하면서 최대 3.6배 빠른 속도를 달성했으며, 품질 저하를 최소화하면서 최대 9.5배의 속도 향상을 보였습니다. 본 연구가 효율적인 시각적 콘텐츠 생성 및 통합된 자기회귀 모델링에 대한 향후 연구에 영감을 줄 것으로 기대합니다.

Distilled Decoding 1: One-step Sampling of Image Auto-regressive Models with Flow Matching

단 한 번의 단계로 생성하는 자기회귀 모델: Distilled Decoding (DD)

[Paper] [Project]

자기회귀(AR) 모델은 텍스트 및 이미지 생성에서 최첨단 성능을 달성했지만, 토큰 단위 처리 방식으로 인해 생성 속도가 느리다는 단점이 있습니다. 본 논문에서는 사전 학습된 AR 모델을 단 한두 단계 만에 출력을 생성하도록 조정할 수 있을까? 라는 야심찬 질문을 던집니다. 만약 성공한다면, AR 모델의 개발 및 배포를 크게 앞당길 수 있을 것입니다.

기존 연구들은 여러 토큰을 동시에 생성하여 AR 생성 속도를 높이려고 시도했지만, 토큰 간의 조건부 의존성으로 인해 출력 분포를 정확하게 포착하지 못하여 단계 감소 효과가 제한적이었습니다.

이 문제를 해결하기 위해 본 논문에서는 Distilled Decoding (DD)을 제안합니다. DD는 흐름 매칭을 사용하여 가우시안 분포에서 사전 학습된 AR 모델의 출력 분포로의 결정론적 매핑을 생성합니다. 그런 다음, 이 매핑을 증류하기 위해 네트워크를 학습시켜 단 몇 단계 만에 생성할 수 있도록 합니다. DD는 원본 AR 모델의 학습 데이터가 필요하지 않으므로 실용성이 더욱 높습니다.

본 논문에서는 최첨단 이미지 AR 모델에 DD를 평가하고 ImageNet-256에서 놀라운 결과를 보여줍니다. 10단계 생성이 필요한 VAR의 경우, DD는 한 단계 생성(6.3배 속도 향상)을 가능하게 하면서 FID를 4.19에서 9.96으로 약간 증가시키는 데 그쳤습니다. LlamaGen의 경우, DD는 생성 단계를 256단계에서 1단계로 줄여 217.8배의 속도 향상을 달성했으며, FID는 4.11에서 11.35로 비슷하게 증가했습니다. 두 경우 모두 기준선 방법은 FID>100으로 완전히 실패했습니다. 또한 DD는 텍스트-이미지 생성에서도 탁월한 성능을 보여 LlamaGen의 생성 단계를 256단계에서 2단계로 줄이면서 FID를 25.70에서 28.95로 미세하게 증가시켰습니다.

이미지 AR 모델에 대한 한 단계 생성 가능성을 처음으로 입증한 연구로서, DD는 AR 모델이 본질적으로 느리다는 기존의 통념에 도전하고 효율적인 AR 생성을 위한 새로운 가능성을 열었습니다.

Offline Reinforcement Learning for LLM Multi-Step Reasoning

대규모 언어 모델의 추론 능력 향상을 위한 OREO: 오프라인 강화 학습 기반 접근 방식

[Paper] [Project]

대규모 언어 모델(LLM)을 복잡한 작업에 빠르게 적응시키려면 오프라인 강화 학습(RL)을 통해 다단계 추론 능력을 향상시키는 것이 중요합니다. 직접 선호도 최적화(DPO)는 LLM을 인간의 선호도에 맞추는 데 유망한 기술이지만, 다단계 추론 작업에는 적합하지 않습니다. 왜냐하면 (1) DPO는 다단계 추론 작업에서 쉽게 얻을 수 없는 쌍으로 된 선호도 데이터에 의존하고, (2) 모든 토큰을 균일하게 취급하기 때문에 종종 보상이 드문 다단계 추론 작업에서 적절한 크레딧 할당을 수행할 수 없기 때문입니다.

본 논문에서는 LLM의 다단계 추론 능력을 향상시키기 위한 오프라인 RL 방법인 OREO(Offline Reasoning Optimization)를 제안합니다. 이 방법은 최대 엔트로피 강화 학습의 통찰력을 바탕으로 소프트 벨만 방정식을 최적화하여 정책 모델과 가치 함수를 jointly 학습합니다. 이론적으로 쌍으로 된 데이터 수집 필요성을 줄이고 더 나은 크레딧 할당을 가능하게 함을 보여줍니다.

실제로 OREO는 수학적 추론 작업(GSM8K, MATH) 및 구현된 에이전트 제어(ALFWorld)를 포함한 다단계 추론 벤치마크에서 기존 오프라인 학습 방법보다 뛰어난 성능을 보입니다. 이 접근 방식은 추가 리소스를 사용할 수 있는 경우 여러 번의 반복 프레임워크로 확장될 수 있습니다. 또한 학습된 가치 함수를 활용하여 트리 검색을 무료로 안내할 수 있으며, 이는 테스트 시간 동안 성능을 더욱 향상시킬 수 있습니다.

B-STaR: Monitoring and Balancing Exploration and Exploitation in Self-Taught Reasoners

B-STaR: 탐험과 활용의 균형을 통한 자기 개선 추론 프레임워크

[Paper] [Project]

복잡한 추론 작업을 위한 대규모 인간 주석 데이터가 부족한 상황에서, 모델이 자체 출력으로 학습하는 자기 개선은 성능 향상을 위한 주요 방법으로 부상했습니다. 그러나 이러한 반복적인 자기 개선 방법의 메커니즘을 뒷받침하는 중요한 요소, 즉 어떤 조건에서 자기 개선이 효과적인지, 현재 반복의 병목 현상은 무엇인지에 대한 이해는 부족합니다.

본 논문에서는 이러한 반복적 프로세스에서 두 가지 중요한 요소, 즉 (1) 충분히 다양한 응답을 생성하는 모델의 능력(탐험)과 (2) 외부 보상을 통해 고품질 후보를 저품질 후보와 구별하는 효과성(활용)을 모니터링하는 방법을 제시합니다. 수학적 추론을 사례 연구로 사용하여 탐험과 활용의 역학 관계를 추적하는 정량적 분석을 통해 모델의 탐험 능력이 반복될수록 빠르게 저하되고 외부 보상을 활용하는 효과도 감소한다는 것을 발견했습니다.

이러한 발견을 바탕으로, 본 논문에서는 반복 과정에서 자율적으로 구성을 조정하여 탐험과 활용 간의 균형을 유지함으로써 현재 정책 모델과 사용 가능한 보상을 기반으로 자기 개선 효과를 최적화하는 B-STaR(Balanced Self-Taught Reasoning) 프레임워크를 제안합니다. 수학적 추론, 코딩 및 상식 추론에 대한 실험 결과, B-STaR은 학습 전반에 걸쳐 모델의 탐험 능력을 향상시킬 뿐만 아니라 탐험과 활용 간의 보다 효과적인 균형을 달성하여 뛰어난 성능을 보여줍니다.

RobustFT: Robust Supervised Fine-tuning for Large Language Models under Noisy Response

노이즈에 강한 대규모 언어 모델 미세 조정 프레임워크: RobustFT

[Paper] [Project]

대규모 언어 모델 (LLM)을 특정 도메인이나 작업에 적용할 때 지도 학습 기반 미세 조정 (SFT)은 매우 중요한 역할을 합니다. 그러나 실제 응용에서는 수집된 데이터에 노이즈가 포함될 수밖에 없으며, 이는 다운스트림 작업에서 모델 성능에 큰 영향을 미칩니다. 따라서 다운스트림 작업에서 모델 성능을 향상시키기 위해 노이즈에 강한 SFT 프레임워크가 필요합니다.

본 논문에서는 다운스트림 작업 데이터에 대한 노이즈 감지 및 재라벨링을 수행하는 강력한 SFT 프레임워크인 RobustFT를 소개합니다. RobustFT는 다음과 같은 두 가지 주요 단계로 구성됩니다.

첫 번째, 노이즈 식별 단계에서는 RobustFT는 추론 성능이 향상된 모델들을 활용하는 다중 전문가 협업 시스템을 통해 노이즈를 효과적으로 감지합니다.

두 번째, 노이즈 제거 단계에서는 컨텍스트 기반 전략을 사용하여 가장 관련성이 높고 신뢰할 수 있는 지식을 활용하고, 신중한 평가를 거쳐 노이즈가 제거된 신뢰할 수 있는 주석을 생성합니다.

또한, 응답 엔트로피를 기반으로 효과적인 데이터 선택 메커니즘을 도입하여 고품질 샘플만 미세 조정에 사용될 수 있도록 합니다.

5개 데이터셋에 걸쳐 여러 LLM을 사용한 광범위한 실험 결과, RobustFT가 노이즈가 있는 상황에서 탁월한 성능을 발휘하는 것을 확인했습니다. RobustFT는 노이즈에 강한 LLM 미세 조정을 위한 새로운 방법을 제시하며, 다양한 실제 응용 분야에서 LLM의 성능과 신뢰성을 향상시키는 데 크게 기여할 것으로 기대됩니다.

Diving into Self-Evolving Training for Multimodal Reasoning

다중 모달 추론을 위한 자기 진화 학습: MSTaR 프레임워크 소개

[Paper] [Project]

다중 모달 대규모 언어 모델 (LMM)에게 추론 능력은 필수적입니다. 그러나 다중 모달 사고 과정에 대한 주석 데이터가 부족한 상황에서, 모델이 자체 출력으로부터 학습하는 자기 진화 학습이 추론 능력 향상을 위한 효과적이고 확장 가능한 접근 방식으로 주목받고 있습니다. 하지만, 다중 모달 추론 맥락에서 자기 진화 학습에 대한 포괄적인 이해는 아직 부족한 실정입니다.

본 논문에서는 다중 모달 추론을 위한 자기 진화 학습의 복잡성을 심층적으로 분석하고, 학습 방법, 보상 모델, 프롬프트 변형의 세 가지 핵심 요소를 제시합니다. 각 요소를 체계적으로 검토하고 다양한 구성이 학습 효과에 미치는 영향을 분석하여, 다중 모달 추론 최적화를 위한 각 요소에 대한 일련의 모범 사례를 도출했습니다.

더 나아가, 학습 중 자기 진화 역학과 성능 향상에 있어 자동 균형 메커니즘의 영향을 탐구했습니다. 이러한 연구를 바탕으로 다중 모달 추론에서 자기 진화 학습을 위한 최종 레시피인 MSTaR (Multimodal Self-evolving Training for Reasoning) 프레임워크를 제시합니다. MSTaR은 MiniCPM-V-2.5 (8B), Phi-3.5-Vision (4B), InternVL2 (2B)와 같이 다양한 벤치마크에서 서로 다른 크기의 모델에 보편적으로 효과적입니다. 예를 들어, 추가적인 인간 주석 없이 5가지 다중 모달 추론 벤치마크에서 사전 학습된 모델보다 훨씬 뛰어난 성능을 보여줍니다.

본 연구는 다중 모달 추론을 위한 자기 진화 학습에 대한 이해의 격차를 해소하고 향후 연구를 위한 견고한 프레임워크를 제공한다는 점에서 큰 의미를 지닙니다. 또한, 다중 모달 추론에 대한 추가 연구를 촉진하기 위해 정책 및 보상 모델과 수집된 데이터를 공개합니다.

3DGraphLLM: Combining Semantic Graphs and Large Language Models for 3D Scene Understanding

3DGraphLLM: 의미 관계를 활용한 3D 장면 이해 및 사용자 상호 작용 향상

[Paper] [Project]

3D 장면 그래프는 객체와 그 사이의 의미적 관계에 대한 정보를 저장하는 간결한 장면 모델을 제공하여 로봇 작업에 유망하게 활용될 수 있습니다. 사용자와 상호 작용할 때, 구현된 지능형 에이전트는 자연어로 공식화된 장면에 대한 다양한 질문에 응답할 수 있어야 합니다. 대규모 언어 모델(LLM)은 뛰어난 자연어 이해 및 추론 능력으로 사용자-로봇 상호 작용을 위한 효과적인 솔루션입니다. 최근 3D 장면에 대한 학습 가능한 표현을 만드는 방법은 3D 세계에 적응하여 LLM 응답의 품질을 향상시킬 수 있는 잠재력을 보여주었습니다. 그러나 기존 방법들은 객체의 좌표 정보에만 의존하며, 객체 간의 의미적 관계에 대한 정보는 명시적으로 활용하지 못했습니다.

본 논문에서는 3D 장면 그래프의 학습 가능한 표현을 구성하는 3DGraphLLM 방법을 제안합니다. 이 학습 가능한 표현은 LLM이 3D 비전-언어 작업을 수행하기 위한 입력으로 사용됩니다. 널리 사용되는 ScanRefer, RIORefer, Multi3DRefer, ScanQA, Sqa3D 및 Scan2cap 데이터셋에 대한 실험을 통해 객체 간의 의미적 관계에 대한 정보를 사용하지 않는 기준 방법보다 본 접근 방식이 우수함을 입증했습니다.

[ⓒ META-X. 무단전재-재배포 금지]

WEEKLY HOT