[25W03] 최신 AI 논문 기술 동향 (SCRIT, VideoRAG, LlamaV-o1, OmniManip, PRM, TPA, BIOMEDICA, Transformer^2, MiniMax-01, MangaNinja)

김한얼 기자

xx@metax.kr | 2025-02-16 18:09:04

2025년 3주차에 공개된 주목할만한 인공지능(AI) 분야의 논문들을 소개합니다.

이번주에는 대규모 언어 모델(LLM)의 자기 진화 비평 능력, 비디오 기반 검색 증강 생성(RAG), 멀티모달 AI의 단계별 시각 추론, 객체 중심 로봇 조작, 수학적 추론을 위한 프로세스 보상 모델(PRM), 텐서 프로덕트 어텐션(TPA)을 통한 트랜스포머 효율화, 생물의학 이미지-캡션 데이터셋 BIOMEDICA, 적응형 언어 모델 Transformer^2, 라이트닝 어텐션 기반 MiniMax-01 모델, 그리고 디퓨전 모델을 활용한 만화 채색 기술 MangaNinja 등 다양한 주제의 논문들이 발표되었습니다.

Enabling Scalable Oversight via Self-Evolving Critic

자기 진화 방식의 비평 능력 향상 프레임워크 SCRIT 제안, 대규모 언어 모델의 감독 문제 해결

[Paper]

이 논문은 최신 대형 언어 모델(LLM) 개발의 핵심 과제 중 하나인 '확장 가능한 감독' 문제를 다루고 있습니다. 쉽게 말하자면, 복잡한 작업에서 효과적으로 피드백을 제공하는 방법입니다. 특히, 사람이 평가하기 어려운 작업이나 LLM이 사람보다 더 잘하는 작업에서는 더욱 어렵습니다. 기존 방식들은 여전히 사람의 평가나 더 강력한 모델에 의존하고 있어서, 외부의 도움 없이 비평 능력을 향상시키는 방안이 필요했습니다.

그래서 이 논문에서는 SCRIT이라는 새로운 방법을 소개하고 있는데, 이는 자기 진화(Self-evolution) 방식으로 비평 능력을 키우는 프레임워크입니다. 간단히 말해서, 스스로 만들어낸 데이터를 사용해 비평 능력을 점점 더 발전시키는 방법입니다. SCRIT은 대조 기반의 자기 비평을 통해 단계를 나눠 비평을 하고, 자기 검증(self-validation) 메커니즘을 통해 그 비평의 품질을 보장하는 식으로 작동합니다.

SCRIT은 매우 강력한 LLM인 Qwen2.5-72B-Instruct와 함께 구현되었고, 비평-수정 및 오류 식별 시험에서 최대 10.3%의 향상을 이루었습니다. 분석해본 결과, SCRIT의 성능은 데이터와 모델 크기가 커질수록 더 좋아졌고, 다른 방법보다 더 뛰어난 성능을 보였습니다. 특히 자기 검증 메커니즘이 큰 도움이 된다고 합니다.

VideoRAG: Retrieval-Augmented Generation over Video Corpus

동영상 정보를 활용한 새로운 검색 증강 생성 방법 VideoRAG 개발, 더 정확하고 풍부한 정보 제공

[Paper]

이 논문은 "VideoRAG"라는 새로운 기술을 소개하는 내용입니다. 기본적으로, 인공지능 모델이 정답이 아닌 정보를 생성하는 문제를 해결하기 위해 외부 지식을 가져와 이를 활용하는 방법을 다루고 있습니다. 기존 방법들은 주로 텍스트 정보에 집중했고, 최근에는 이미지도 조금씩 고려하기 시작했지만 동영상이라는 중요한 요소는 잘 다루지 않았습니다. 동영상은 사건, 과정, 문맥 정보를 훨씬 더 효과적으로 전달할 수 있는 매체입니다.

새로운 VideoRAG 기술은 사용자의 질문과 관련된 동영상을 동적으로 찾아내고, 그 동영상의 시각적 정보와 텍스트 정보를 모두 활용하여 답변을 생성하는 방식입니다. 이 과정에서는 최신 대형 비디오 언어 모델(LVLMs)을 사용하여 동영상 내용을 직접 처리하고, 이를 통해 질문과 함께 가져온 동영상을 통합하여 가장 적절한 답변을 만들어냅니다. 실험 결과, VideoRAG는 기존의 방법들보다 우수하다는 것을 확인할 수 있었습니다.

이 논문은 복잡해 보일 수도 있지만, 쉽게 말하자면, 인공지능이 더 정확하고 풍부한 정보를 활용할 수 있도록 동영상까지 고려하여 답변을 생성하는 새로운 방법을 제안하고 검토한 것입니다.

LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs

시각적 추론을 위한 새로운 평가 기준과 LlamaV-o1 모델 제안, 단계별 시각 추론 능력 향상

[Paper][Project]

이 논문은 복잡한 여러 단계를 거쳐 문제를 해결하는 데 필요한 중요한 능력인 '추론'에 대해 다루고 있습니다. 특히, 그림이나 시각적인 정보를 바탕으로 문제를 해결할 때는 단계별로 이해하는 것이 중요한데, 기존 방법들은 이를 충분히 평가하지 못했습니다. 그래서 연구팀은 대형 언어 모델(LMMs)이 그림을 보고 단계적으로 문제를 해결하는 능력을 향상시키기 위해 세 가지 주요 기여를 했습니다.

첫째, 연구팀은 복잡한 단계별 추론 과제를 평가하기 위한 '비주얼 추론 기준'을 제안했습니다. 이 기준은 다양한 도전 과제를 포함하고 있으며, 총 4천 개가 넘는 추론 단계를 담고 있어 여러 단계에 걸쳐 LLMs가 얼마나 정확하고 해석 가능한 추론을 할 수 있는지를 평가할 수 있게 해줍니다.

둘째, 연구팀은 '새로운 평가 기준'을 제안했는데, 이 기준은 각 단계마다 얼마나 정확하고 논리적으로 일관된지를 평가합니다. 기존의 최종 결과만 보는 평가 방식보다 더 깊이 있는 추론 성능 평가가 가능하게 합니다.

셋째, 연구팀은 'LlamaV-o1'이라는 새로운 멀티모달 시각 추론 모델을 소개했습니다. 이 모델은 단계별 교육 방법을 사용해 학습하며, 문제 해결 능력을 점진적으로 키울 수 있도록 설계되었습니다. 실험 결과, LlamaV-o1 모델은 기존의 공개된 모델들보다 뛰어난 성능을 보였고, 최신 Llava-CoT 모델과 비교해도 평균 점수 67.3으로 3.8% 더 높은 점수를 기록했으며, 추론 속도도 5배 더 빨랐다고 합니다.

OmniManip: Towards General Robotic Manipulation via Object-Centric Interaction Primitives as Spatial Constraints

객체 중심 표현 방식을 통한 로봇의 물체 조작 능력 향상, 복잡한 환경에서도 정확한 작업 수행

[Paper][Project]

 
이 논문은 로봇이 정리되지 않은 복잡한 환경에서도 물건을 정확하게 조작할 수 있도록 하는 시스템 개발에 대한 연구를 다루고 있습니다. 요즘 로봇에 많이 사용되는 시각-언어 모델(Vision-Language Model, VLM)은 사람처럼 이미지를 보고 언어로 설명하는 데는 뛰어나지만, 로봇이 물건을 세밀하게 조작하는 데 필요한 3D 공간 이해는 부족합니다.

이 문제를 해결하기 위해 많은 데이터를 수집하여 VLM을 로봇에 맞게 조정하는 방법이 있지만, 이는 비용이 많이 들고 일반화 문제도 있습니다. 그래서 이 논문에서는 '객체 중심 표현 방식'이라는 새로운 방법을 제안하고 있습니다. 이 방법은 물건과의 상호작용에서 중요한 부분을 강조하여 VLM의 높은 수준의 추론을 실제 로봇 조작에 필요한 3D 공간 정보로 바꾸어 주는 것입니다.

구체적으로 이 논문에서는 '이중 폐쇄 루프' 시스템을 도입했습니다. 하나는 고수준 계획을 위한 루프이고, 다른 하나는 6D 자세 추적을 사용한 저수준 실행 루프입니다. 이 방법은 VLM을 추가로 조정하지 않고도 로봇이 실시간으로 정확하게 작동할 수 있도록 도와줍니다. 실험을 통해 이 시스템이 다양한 로봇 조작 작업에서 아무런 추가 학습 없이도 잘 작동한다는 것이 입증되었습니다. 이는 대규모 시뮬레이션 데이터를 자동으로 생성하는 데도 큰 가능성을 보여줍니다.

The Lessons of Developing Process Reward Models in Mathematical Reasoning

수학적 추론을 위한 새로운 프로세스 보상 모델(PRM) 개발 방법론 제시, 기존 방법의 한계 극복

[Paper][Project]

이 논문에서는 'PRM'이라는 새로운 방법을 통해 대형 언어 모델(LLM)이 수학적 추론을 할 때 잘못된 중간 과정을 발견하고 수정할 수 있도록 돕는 방법을 연구했습니다. PRM이란 'Process Reward Models'의 약자로, 복잡한 문제를 푸는 과정에서 오류를 확인하고 수정하기 위한 방식입니다.

하지만 PRM을 효과적으로 개발하는 데는 몇 가지 어려움이 있습니다. 그중에서도 데이터를 어떻게 표시하고 평가할지 정하는 방법이 큰 도전입니다. 논문에서 다양한 실험을 통해 기존에 많이 사용되던 'Monte Carlo' 방법으로 데이터를 만드는 것이 생각보다 성능이나 일반화 면에서 떨어진다는 것을 보여주고 있습니다. 몬테 카를로 방법은 현재 단계의 정답 여부를 평가하는 모델을 사용하는데, 불확실한 결과를 초래할 수 있다는 것입니다.

또한, 전통적인 'Best-of-N' 평가 방법에서도 몇 가지 문제점을 발견했습니다. 잘못된 과정을 가진 답변도 모형이 올바른 답으로 인정해버린다든지, 과정보다는 결과를 더 중시하는 식으로 평가 기준이 잘못 정해지는 경우가 있다는 것입니다.

이러한 문제를 해결하기 위해 이 논문에서는 새로운 '합의 필터링 메커니즘'을 개발했습니다. 이는 '몬테 카를로' 방법을 LLM을 심판으로 활용하는 방식과 결합한 방법입니다. 이를 통해 답변 수준과 단계별 평가를 결합한 평가 체계를 제안했습니다.

결국, 이런 방법을 통해 새로운 PRM 모델을 만들었고, 기존의 공개된 대안들보다 성능이 더 뛰어나다는 것을 실험으로 증명했습니다. 이 모델은 앞으로 연구자들이 더 좋은 과정 감독 모델을 개발하는 데 실질적인 지침을 제공할 수 있습니다.

Tensor Product Attention Is All You Need

텐서 프로덕트 어텐션(TPA) 기반의 새로운 모델 구조 T6 제안, 메모리 효율성과 성능 향상

[Paper][Project]

이 논문은 길고 복잡한 입력을 처리할 수 있는 언어 모델을 만들 때 발생하는 메모리 문제를 해결하고자 합니다. 보통 이런 모델들은 많은 양의 데이터를 메모리에 저장해야 해서 기억 장치(메모리) 사용량이 크게 늘어나곤 합니다. 이 문제를 해결하기 위해, 연구팀은 텐서 프로덕트 어텐션(Tensor Product Attention, TPA)이라는 새로운 기술을 제안했습니다.

TPA는 '텐서 분해'라는 수학적 방법을 사용해서 모델이 필요로 하는 정보(쿼리, 키, 값)를 더 작고 효율적으로 표현합니다. 이렇게 하면 메모리 사용량이 줄어듭니다. 또한, TPA는 RoPE라는 기술과 결합하여 모델의 성능도 향상시킵니다.

TPA를 기반으로, 연구팀은 새로운 모델 구조인 'Tensor ProducT ATTenTion Transformer (T6)'를 제안했습니다. 다양한 실험을 통해, T6가 기존의 여러 모델보다 더 좋은 성능을 발휘한다는 것을 입증했습니다. 특히 메모리 효율이 좋기 때문에, 고정된 자원으로도 훨씬 긴 입력을 처리할 수 있어 현대 언어 모델에서 중요한 문제인 확장성을 개선했습니다.

요약하자면, 이 논문은 큰 언어 모델이 많은 메모리를 차지하지 않으면서도 더 나은 성능을 낼 수 있도록 하는 새로운 방법을 제시하고 있습니다.

BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature

생물의학 분야 대규모 이미지-텍스트 데이터셋 BIOMEDICA 구축 및 공개, 관련 AI 모델 개발

[Paper][Project]

이 논문은 생물학과 의학 분야에서 사용되는 "시각-언어 모델"의 발전을 위한 새로운 데이터셋을 소개하고 있습니다. 시각-언어 모델이란, 이미지와 텍스트를 함께 이해하는 모델을 말합니다. 지금까지 이 분야의 발전은 다양한 데이터셋의 부족 때문에 한계가 있었습니다. 기존의 노력들은 특정 분야에만 집중되어 있어서, 과학 문헌에 담긴 다양한 생물의학적 지식을 놓치곤 했습니다.

그래서 이 논문에서는 "BIOMEDICA"라는 이름의 새로운 오픈소스 프레임워크를 제안합니다. BIOMEDICA는 수백만 개의 과학 논문에서 이미지와 텍스트 쌍을 추출하고 정리하는 시스템입니다. 이 프레임워크를 통해 6백만 개 이상의 논문에서 2천4백만 개 이상의 이미지-텍스트 쌍을 만들어냈다고 합니다. 그리고 이 데이터는 누구나 사용할 수 있도록 공개되어 있습니다.

게다가, 연구팀은 이 데이터를 바탕으로 "BMCA-CLIP"이라는 새로운 AI 모델 세트를 개발했습니다. 이 모델은 다양한 생물의학 분야에서 최고 수준의 성능을 발휘하고 있습니다. 또, 데이터를 다운 받아서 사용하는 번거로움 없이 스트리밍을 통해 모델을 계속 학습시킬 수 있게 했고, 동일한 작업을 수행하는데 필요한 컴퓨팅 자원을 10분의 1만 사용합니다.

이 논문은 연구자들이 데이터와 코드를 활용할 수 있도록 자유롭게 제공함으로써 다른 연구자들이 실험을 반복하고 협력할 수 있는 기회를 제공합니다. 쉽게 말해, 이 논문은 생물과 의학 연구에 필요한 더 나은 AI 모델을 만들 수 있도록 새로운 데이터를 제공하고 있습니다.

Transformer^2: Self-adaptive LLMs

실시간 작업 적응이 가능한 Transformer^2 프레임워크 개발, 언어 모델의 효율성과 성능 향상

[Paper][Project]

이 논문은 기존의 언어 모델을 향상시키기 위한 새로운 방법을 제안하고 있습니다. 전통적인 언어 모델 조정 방식은 종종 계산 자원이 많이 들고, 다양한 작업에 적절히 대응하기 어려운 한계가 있었습니다. 이를 해결하기 위해, Transformer^2라는 새로운 프레임워크를 소개합니다.

Transformer^2은 언어 모델이 경험하지 못한 작업에 실시간으로 적응할 수 있게 해 줍니다. 방법은 간단합니다. 모델의 가중치에서 특정 성분만 조정하여 적응하는 방식이죠. 이를 통해 들어온 질문이나 작업에 맞춰 적절히 대응합니다.

실제로 작동할 때 Transformer^2은 두 가지 과정을 거칩니다. 먼저, 어떤 작업인지 알아내는 시스템이 작동합니다. 이후, 그 작업에 특화된 "전문가" 벡터들이 강화 학습을 통해 조합되어 적절한 대답이나 작업 수행 방식을 제공합니다.

기존의 방법들보다 적은 파라미터를 사용하면서도 더 높은 효율성을 보여주며, 특히 LoRA 같은 방법들보다도 우수한 성능을 자랑합니다. Transformer^2은 다양한 언어 모델과 형식에도 잘 적용되어, 이미지와 텍스트 등을 함께 처리하는 작업에서도 뛰어난 성과를 냅니다.

결론적으로, Transformer^2은 대규모 언어 모델의 적응성과 특정 작업에서의 성능을 크게 향상시키는 혁신적인 방법입니다. 이는 앞으로 더욱 다이나믹하고 스스로 조직화된 AI 시스템의 등장을 예고합니다.

MiniMax-01: Scaling Foundation Models with Lightning Attention

라이트닝 어텐션 기술 기반 MiniMax-01 모델 시리즈 개발, 긴 문맥 처리와 높은 성능 달성

[Paper][Project]

이 논문에서는 MiniMax-01 시리즈라는 새로운 인공지능 모델을 소개하고 있습니다. 이 시리즈에는 두 가지 모델인 MiniMax-Text-01과 MiniMax-VL-01이 포함되어 있습니다. 이 두 모델은 기존의 최고 수준 모델들과 비슷한 성능을 내면서도, 더 긴 문맥을 처리할 수 있는 뛰어난 능력을 가지고 있습니다.

핵심 기술은 '라이트닝 어텐션(lightning attention)'이라는 방법인데, 이 방법은 효율적인 확장이 가능합니다. 컴퓨터의 처리 능력을 최대화하기 위해 '전문가 조합(Mixture of Experts)'이라는 기술도 사용하여 32개의 전문가와 총 4560억 개의 매개변수를 가진 모델을 만들었습니다. 여기서 각 문자나 단어를 처리할 때 45.9억 개의 매개변수가 활성화됩니다.

또, 이 모델이 많은 데이터를 효과적으로 처리할 수 있도록 최적화된 병렬 처리 전략과 빠른 계산·통신 기술도 적용했습니다. 덕분에 수백억 개의 매개변수를 가진 모델을 효율적으로 훈련하고 해석할 수 있게 되었습니다.

MiniMax-Text-01 모델은 훈련할 때 최대 100만 개의 문맥을 처리할 수 있고, 실제 사용할 때는 최대 400만 개까지 확장해서 처리할 수 있습니다. MiniMax-VL-01 모델은 문자와 이미지 처리를 위해 추가 훈련을 받아서, 5120억 개의 시각-언어 데이터로 구성되어 있습니다.

이 모델들을 실제 실험해본 결과, 기존에 유명한 GPT-4나 Claude-3.5-Sonnet이라는 모델만큼 뛰어난 성능을 보였습니다. 그러나 이 모델들은 문맥을 20~32배나 더 길게 처리할 수 있는 장점이 있습니다. 따라서 더 많은 양의 정보를 한 번에 다룰 수 있어서, 더욱 다양한 상황에서 유용하게 사용할 수 있습니다.

MangaNinja: Line Art Colorization with Precise Reference Following

만화 스타일 선화의 정확한 채색을 위한 MangaNinja 모델 개발, 참조 이미지 기반 세부 색상 구현

[Paper][Project]

이 논문은 만화 스타일의 그림을 색칠하는 데 특화된 'MangaNinjia'라는 모델에 관한 것입니다. 이 모델은 'Diffusion models'라는 기술을 기반으로 하며, 특히 참고할 이미지를 보고 선화(윤곽선으로만 그려진 그림)에 색을 입히는 작업을 도와줍니다.

'MangaNinjia'는 두 가지 독특한 디자인을 통해 캐릭터의 세부 사항을 정확히 표현할 수 있도록 합니다. 첫째, '패치 셔플링 모듈'을 사용하여 참고 이미지의 색과 목표로 하는 선화 사이의 연결을 잘 배울 수 있게 합니다. 둘째, '포인트 주도 제어 방식'을 통해 디테일한 색상 맞춤을 가능하게 합니다.

자체적으로 수집한 데이터셋에서 실험 결과, 이 모델은 색상을 정확하게 입히는 면에서 기존 솔루션들보다 뛰어난 성능을 보여주었습니다. 또한, '인터랙티브 포인트 제어'라는 새로운 방법을 통해 기존 알고리즘으로는 어려운 여러 상황에서도 좋은 결과를 낼 수 있는 가능성을 보여주었습니다. 예를 들어, 복잡한 상황 처리나 캐릭터 간 색상 변환, 여러 참고 이미지를 활용한 색 조화 등입니다.

쉽게 말해, 이 연구는 만화 그림을 더 생동감 있고 정확하게 색칠할 수 있는 새로운 방법을 제시한 것입니다.

[ⓒ META-X. 무단전재-재배포 금지]

WEEKLY HOT