[24W34] 최신 AI 논문 기술 동향 (Imagen 3, MeshFormer, DifuzCam, Self-Taught Evaluator, DEEM, ADAS)

김한얼

metax@metax.kr | 2025-02-16 13:38:34

2024년 W34에 발표된 주목할만한 인공지능(AI) 분야의 논문들을 소개합니다.

Imagen 3는 텍스트를 이해하여 고품질 이미지를 생성하는 AI 모델이며, MeshFormer는 소수의 이미지로 사실적인 3D 모델을 구축하는 기술입니다. DifuzCam은 렌즈 없이도 고품질 이미지를 복원하는 혁신적인 카메라 시스템을 제시합니다. 또한 Meta는 인간의 개입 없이 LLM 성능을 평가하는 Self-Taught Evaluator를 개발했으며, BLIP-3는 효율적인 대규모 다중 모달 모델 학습 프레임워크를 제시합니다. DEEM은 LLM의 시각적 인식 능력을 향상시켜 멀티모달 모델의 견고성을 높입니다. LLM 사전 학습에 코드 데이터를 활용하면 LLM 성능을 전반적으로 향상시킬 수 있다는 연구 결과도 제시되었습니다. 마지막으로, ADAS 연구는 인공지능이 스스로 더 강력한 인공지능 시스템을 설계할 수 있는 가능성을 보여줍니다.

Imagen 3

(출처: Imagen3)


Prompt: Shot in the style of DSLR camera with the polarizing filter. A photo of two hot air balloons floating over the unique rock formations in Cappadocia, Turkey. The colors and patterns on these balloons contrast beautifully against the earthy tones of the landscape below. This shot captures the sense of adventure that comes with enjoying such an experience.

Google DeepMind가 새로 개발한 Imagen 3는 텍스트를 기반으로 고품질 이미지를 생성하는 최신 모델입니다. 이 모델은 이전 버전보다 더 세밀한 디테일, 풍부한 조명, 그리고 적은 아티팩트를 가진 이미지를 만들어낼 수 있습니다. Imagen 3의 가장 큰 특징은 프롬프트 이해 능력이 크게 향상되어 다양한 시각적 스타일과 복잡한 요구사항을 정확히 반영할 수 있다는 점입니다. 또한 빠른 스케치부터 고해상도 이미지까지 다양한 용도에 맞춰 최적화된 여러 버전으로 제공됩니다.

Imagen 3는 자연스러운 언어로 된 프롬프트를 잘 이해하며, 특히 텍스트 렌더링 능력이 크게 개선되어 다양한 용도로 활용될 수 있습니다. 이 모델은 최신 안전 및 책임 기술을 적용하여 개발되었으며, SynthID라는 워터마킹 도구를 포함한 프라이버시, 안전, 보안 기술이 적용되었습니다. Google은 향후 Imagen 3를 자사의 여러 제품에 확대 적용할 계획이며, 현재 ImageFX와 Vertex AI를 통해 사용할 수 있습니다. 이러한 Imagen 3의 발전은 AI 기반 이미지 생성 기술의 새로운 지평을 열 것으로 기대됩니다.

MeshFormer

(출처: Meshformer)

MeshFormer는 소수의 다중 시점 이미지만으로 고품질 3D 메시를 생성할 수 있는 혁신적인 3D 재구성 모델입니다. 이 모델은 3D 복셀 표현과 트랜스포머를 결합한 새로운 아키텍처를 사용하여 3D 구조와 투영 편향을 명시적으로 활용합니다. 또한 표면 렌더링과 명시적 3D SDF(Signed Distance Function) 감독을 결합한 단일 단계 훈련 전략을 제안하여 효율적인 학습을 가능하게 합니다.

MeshFormer의 주요 혁신 중 하나는 다중 시점 법선 맵을 입력으로 사용하고 3D 법선 텍스처를 예측하여 기하학적 세부 사항을 개선하는 것입니다. 이러한 접근 방식은 생성된 3D 모델의 품질을 크게 향상시킵니다. 특히 주목할 만한 점은 MeshFormer가 8개의 GPU로 단 2일 동안 훈련하여 100개 이상의 GPU로 훈련한 최신 모델들과 비교했을 때 동등하거나 더 나은 성능을 보인다는 것입니다.

성능 면에서 MeshFormer는 자연어 추론 능력이 8.2%, 세계 지식 관련 작업에서 4.2%, 생성 품질이 6.6%, 코드 성능이 12배 향상되는 등 다양한 영역에서 상당한 개선을 보여줍니다. 또한 이 모델은 2D 확산 모델과 통합하여 단일 이미지에서 3D 모델 생성, 텍스트에서 3D 모델 생성 등 다양한 작업을 수행할 수 있어 응용 범위가 넓습니다.

결론적으로 MeshFormer는 적은 계산 자원으로 고품질 3D 모델을 생성할 수 있는 능력을 보여주며, 이는 3D 콘텐츠 제작의 효율성과 접근성을 크게 높일 수 있는 잠재력을 가지고 있습니다. 이러한 혁신은 3D 모델링 분야에 큰 변화를 가져올 것으로 기대됩니다.

DifuzCam

(출처: DifuzCam)

DifuzCam은 카메라의 크기와 무게를 크게 줄일 수 있는 혁신적인 렌즈 없는 카메라 시스템을 제안합니다. 이 시스템은 기존의 렌즈를 마스크로 대체하고, 사전 학습된 확산 모델과 ControlNet, 그리고 학습된 분리 가능한 변환을 활용하여 고품질의 이미지를 복원합니다. 특히 주목할 만한 점은 텍스트 설명을 활용하여 이미지 복원 품질을 더욱 향상시키는 방법을 제시했다는 것입니다.

연구진은 실제 프로토타입 카메라를 제작하여 실험을 수행했으며, PSNR, SSIM, LPIPS, CLIP 점수 등 모든 평가 지표에서 기존 기법들을 능가하는 최고 성능을 달성했습니다. 실제 물체 촬영에서도 우수한 결과를 보여주어 이 기술의 실용성을 입증했습니다.

DifuzCam의 접근 방식은 확산 모델의 강력한 성능을 활용하여 이미지를 복원하는 것으로, 이는 다른 이미징 시스템에도 적용될 수 있어 광범위한 응용 가능성을 지니고 있습니다. 이 연구는 렌즈 없는 카메라의 이미지 복원 품질을 크게 개선함으로써 이 기술의 실용성을 높이는 데 기여했을 뿐만 아니라, 텍스트 안내를 통한 이미지 복원이라는 새로운 개념을 도입하여 계산 사진학 분야에 새로운 가능성을 제시했습니다. 이러한 혁신적인 접근은 향후 카메라 기술의 발전 방향에 중요한 영향을 미칠 것으로 기대됩니다.

Meta's Self-Taught Evaluator

(출처: Self-Taught Evaluator)

Meta FAIR 연구원들은 'Self-Taught Evaluator'라는 새로운 접근 방식을 통해 인간의 주석이 달린 선호도 데이터 없이도 대규모 언어 모델(LLM)의 출력을 평가할 수 있는 강력한 일반적 평가자를 구축하는 방법을 발표하였습니다. 이 연구는 합성 데이터만을 사용하여 LLM 평가자를 반복적으로 개선하는 방법을 제안하며, 이를 통해 인간 주석 없이도 RewardBench에서 Llama3-70B-Instruct의 성능을 75.4에서 88.7로 크게 향상시켰습니다. 이 접근 방식은 GPT-4와 같은 일반적으로 사용되는 LLM 평가자를 능가할 뿐만 아니라, 인간이 라벨링한 예제로 훈련된 최고 성능의 보상 모델과도 유사한 성능을 보입니다.

논문에서는 대조적인 모델 출력을 생성하고, LLM-as-a-Judge를 사용하여 추론 과정과 최종 판단을 생성한 다음, 이를 통해 다음 반복에서 더 나은 예측을 할 수 있는 방법을 반복하는 과정을 설명합니다. 또한 다양한 데이터 소스와 결합 방법에 대한 실험 결과를 제시하며, 합성 데이터와 인간 라벨링 데이터를 혼합하는 것의 효과도 탐구합니다. 이 방법은 인간 주석에 의존하지 않기 때문에 확장성이 뛰어나며, 새로운 작업이나 평가 기준으로 쉽게 확장될 수 있다는 점에서 주목받고 있습니다.

결론적으로, 이 연구는 LLM 평가를 위한 효율적이고 확장 가능한 방법을 제시하며, 인간의 개입 없이도 평가 모델을 지속적으로 개선할 수 있는 가능성을 보여줍니다.

BLIP-3

(출처: BLIP-3)

xGen-MM(BLIP-3)에서는 Large Multimodal Model (LMM) 개발을 위한 프레임워크를 제시하고, 이전 모델인 BLIP-2 대비 개선된 점들을 자세하게 설명합니다. BLIP-3는 대량의 데이터셋과 효율적인 Vision Token Sampler를 활용하고 학습 목표를 단순화함으로써, LMM 학습을 크게 향상시켰습니다.

특히 눈에 띄는 변화는 다양한 데이터셋을 학습에 활용했다는 점인데, 그중 MINT-1T는 무려 1조 개가 넘는 토큰을 포함하는 방대한 데이터셋으로 BLIP-3의 성능 향상에 크게 기여했습니다. 또한, BLIP3-KALE, BLIP3-OCR-200M, BLIP3-GROUNDING-50M과 같은 특수 목적 데이터셋들을 함께 사용하여 특정 작업에 대한 성능을 더욱 끌어올렸습니다.

Vision Token Sampler는 이미지 정보를 LLM이 이해할 수 있는 토큰 형태로 변환하는 중요한 역할을 수행합니다. BLIP-3는 이전 모델에서 사용되던 복잡한 Q-Former를 대체하여, 보다 확장 가능하고 효율적인 Perceiver Resampler를 Vision Token Sampler로 사용했습니다.

학습 과정의 효율성을 높이기 위해, BLIP-3는 이전 모델에서 각각 적용되었던 ITM, ITC, ITG loss를 단일 auto-regressive loss로 통합하여 학습 과정을 간소화했습니다.

이러한 개선을 통해 BLIP-3는 Multimodal In-Context Learning과 같은 새로운 능력을 보여주었고, 여러 벤치마크에서 기존 모델 대비 뛰어난 성능을 보여주었습니다. xGen-MM (BLIP-3)은 모델, 데이터셋, 코드를 모두 오픈소스로 제공하여 LMM 연구 개발을 위한 기반을 마련하고 더 많은 연구자들의 참여를 장려하고 있습니다.

DEEM: Diffusion Models Serve as the EyEs of Large Language Models for Image Perception

(출처: DEEM)

DEEM은 대규모 언어 모델의 시각적 인식을 위해 확산 모델을 활용하는 혁신적인 다중 모달 모델입니다. 이 접근 방식은 이미지 인코더의 의미적 분포를 정렬하기 위해 확산 모델의 생성적 피드백을 사용합니다. DEEM의 주요 장점은 추가 학습 모듈 없이도 분포 외 샘플에 대한 모델의 견고성을 향상시키고 시각적 환각을 줄일 수 있다는 점입니다. 또한 더 적은 학습 파라미터로 이를 달성하며, 텍스트-이미지 교차 모델링을 위한 종단간 프레임워크를 제공합니다.

DEEM은 RobustVQA와 POPE와 같은 시각적 견고성 및 환각 평가 벤치마크에서 최고 수준의 성능을 보여주었습니다. 뿐만 아니라 시각적 질문 응답, 이미지 캡셔닝, 텍스트 조건부 이미지 합성 등 다양한 다중 모달 태스크에서도 경쟁력 있는 결과를 달성했습니다. 종합적으로 DEEM은 확산 모델을 대규모 언어 모델의 "눈"으로 활용하여 다중 모달 모델의 견고성과 일반화 능력을 크게 향상시키는 혁신적인 방법을 제시합니다.

To Code or Not To Code?

(출처: To Code, or Not To Code?)

이 연구는 대규모 언어 모델(LLM)의 사전 학습 과정에서 코드 데이터가 미치는 영향을 체계적으로 분석했습니다. 연구진은 코드 데이터를 포함한 사전 학습이 코딩 작업뿐만 아니라 다양한 자연어 처리 작업에서도 성능 향상을 가져온다는 것을 발견했습니다. 구체적으로 자연어 추론 능력이 8.2% 향상되었고, 세계 지식 관련 작업에서 4.2% 개선되었으며, 생성 품질이 6.6% 개선되었습니다. 특히 코드 관련 작업에서는 12배의 성능 향상을 보였습니다.

연구진은 또한 코드 데이터의 품질과 특성이 중요하다는 점을 밝혔습니다. 고품질의 합성 코드 데이터를 사용했을 때 자연어 추론에서 9%, 코드 성능에서 44.9%의 추가적인 향상을 관찰했습니다. 더불어 사전 학습의 마지막 단계인 cooldown 과정에서도 코드 데이터를 포함하면 추가적인 성능 향상이 있었음을 확인했습니다.

이 연구는 다양한 실험을 통해 코드 데이터가 LLM의 일반적인 능력 향상에 중요한 역할을 한다는 것을 체계적으로 보여주었습니다. 연구진은 코드 데이터의 비율, 품질, 사전 학습 단계 등 여러 요소들을 고려해 최적의 사전 학습 방법을 제안했으며, 이를 통해 LLM 개발에 있어 코드 데이터의 중요성을 강조했습니다.

Automated Design of Agentic Systems

(출처: Automated Design of Agentic Systems)

이 연구는 자동화된 에이전트 시스템 설계(Automated Design of Agentic Systems, ADAS)라는 새로운 연구 분야를 제안하고 있습니다. ADAS는 대규모 언어 모델을 활용하여 자동으로 강력한 에이전트 시스템을 설계하는 것을 목표로 합니다.

연구진은 "Meta Agent Search"라는 알고리즘을 개발했습니다. 이 알고리즘은 메타 에이전트가 반복적으로 새로운 에이전트를 코드로 프로그래밍하고, 그 성능을 평가한 뒤, 발견된 에이전트들의 아카이브에 추가하는 방식으로 작동합니다.

여러 실험을 통해 이 방식으로 발견된 에이전트들이 기존의 수작업으로 설계된 최첨단 에이전트들보다 우수한 성능을 보인다는 것을 입증했습니다. 특히 자연어 추론 능력이 8.2%, 세계 지식 관련 작업에서 4.2%, 생성 품질이 6.6%, 코드 성능이 12배 향상되었습니다.

또한 발견된 에이전트들은 다른 도메인이나 모델로 전이되었을 때도 강건성과 일반화 능력을 보여주었습니다. 이 연구는 에이전트 시스템 설계의 자동화가 가능하다는 것을 보여주며, 더 강력한 인공지능 시스템을 개발하는 새로운 방향을 제시하고 있습니다.

[ⓒ META-X. 무단전재-재배포 금지]

WEEKLY HOT