▶ https://blog.naver.com/jack0604/223838288572
신동형과 함께 공부하는「Meta FAIR 연구: 보고, 이해하고, 협력하는 AI」보고서(2025.04.18)

1. AI의 새로운 도약: Meta FAIR 연구의 의미
1.1. 고급 기계 지능(AMI)을 향한 여정
Meta의 Fundamental AI Research(FAIR) 팀은 고급 기계 지능(Advanced Machine Intelligence, AMI) 개발이라는 목표를 향해 중요한 진전을 이루고 있습니다. AMI 달성을 위해서는 기계가 인간처럼 세상의 감각 정보를 획득, 처리, 해석할 수 있어야 합니다. 이러한 기능은 궁극적으로 기계가 인간과 유사한 지능과 속도로 결정을 내릴 수 있게 합니다. 이 과정에서 가장 중요한 것은 인식(perception)에 초점을 맞춘 모델, 벤치마크, 데이터셋의 개발입니다. 인식은 AI가 세상과 상호작용하기 위한 기본 토대이며, Meta FAIR 팀은 이 분야에서 획기적인 발전을 이루어내고 있습니다.
현재 AI 시스템의 한계는 시각 정보와 언어를 연결하고, 3D 공간 관계를 이해하며, 미묘한 시각적 차이를 구별하는 능력에 있습니다. Meta FAIR의 최신 연구는 이러한 도전 과제를 해결하기 위한 혁신적인 접근법을 제시합니다. 특히 컴퓨터 비전, 자연어 처리, 로봇 제어, 협업 추론 분야에서의 발전은 AI가 실생활에서 더 유용하고 자연스러운 도구가 될 수 있는 길을 열어줍니다.
1.2. 오픈소스로 AI 혁신 가속화하기
Meta FAIR의 중요한 전략 중 하나는 연구 결과를 오픈소스로 제공하는 것입니다. 이는 단순한 공유를 넘어 AI 발전의 속도를 획기적으로 높이는 결정적 요소입니다. 연구 커뮤니티에 코드, 모델, 데이터셋, 논문을 모두 공개함으로써 Meta는 AI에 대한 개방형 생태계를 조성하고 있습니다. 이러한 접근 방식은 다양한 연구자들이 기존 결과를 기반으로 새로운 아이디어를 탐색하고 발전시킬 수 있게 합니다.
오픈소스 전략의 효과는 여러 기술 분야에서 이미 검증되었습니다. 예를 들어, 리눅스나 안드로이드와 같은 오픈소스 소프트웨어는 수많은 개발자들의 집단 지성을 통해 비약적인 발전을 이루었습니다. Meta FAIR는 이러한 모델을 AI 연구에 적용함으로써, 독자적인 연구보다 훨씬 빠른 속도로 기술 발전을 이끌어내고 있습니다. 모든 연구 결과에 대한 다운로드 링크를 제공하는 것은 이러한 철학의 실천적 표현입니다.
1.3. 5가지 핵심 기술의 개요
Meta FAIR가 발표한 다섯 가지 핵심 기술은 각각의 영역에서 중요한 도전 과제를 해결합니다. 이 기술들은 개별적으로도 가치가 있지만, 함께 작동할 때 더 강력한 AI 시스템의 기반을 형성합니다.
각 기술은 인식, 위치파악, 추론이라는 AI 시스템의 세 가지 핵심 능력을 발전시키는 데 기여합니다. 이러한 기술들이 결합되면 AI는 세상을 더 정확하게 인식하고, 공간 관계를 이해하며, 다른 에이전트와 효과적으로 협력할 수 있게 됩니다. 다음 섹션에서는 각 기술에 대해 더 상세히 살펴보겠습니다.
2. 더 똑똑한 '눈': 퍼셉션 인코더의 혁신
2.1. AI가 세상을 보는 방식의 진화
퍼셉션 인코더(Perception Encoder)는 AI 시스템이 세상을 '보는' 방식에 혁명을 가져오고 있습니다. 이 기술은 기존의 컴퓨터 비전 기술보다 훨씬 더 정교하게 시각 정보를 처리할 수 있습니다. 비전 인코더는 AI 시스템의 '눈' 역할을 하며, 시각적 정보를 해석하고 세상을 더 잘 이해할 수 있게 합니다. AI 시스템이 더 발전함에 따라, 모든 기대치를 충족하는 비전 인코더를 구축하는 것은 더욱 어려워지고 있으며, 퍼셉션 인코더는 이 도전에 대응하기 위해 설계되었습니다.
퍼셉션 인코더의 가장 큰 특징은 비전과 언어를 연결하는 능력입니다. 이는 AI가 보는 것을 언어로 설명하고, 언어 지시에 따라 시각적 정보를 처리할 수 있게 합니다. 또한 이미지와 비디오 모두에서 뛰어난 성능을 보이며, 다양한 도전적이고 잠재적으로 적대적인 조건에서도 견고함을 유지합니다. 이 인코더는 광범위한 개념을 인식하면서도 동물의 서로 다른 종과 같은 미묘한 차이를 구별할 수 있을 만큼 섬세한 인식 능력을 갖추고 있습니다.
2.2. 어려운 시각적 과제 해결하기
퍼셉션 인코더는 특히 '어려운' 시각적 과제에서 뛰어난 성능을 보입니다. 예를 들어, 바다 바닥에 숨어 있는 가오리를 인식하거나, 이미지 배경에 있는 작은 금빛 새를 식별하거나, 야간 동물 카메라에 포착된 아고티(설치류의 일종)를 감지하는 등의 복잡한 작업을 수행할 수 있습니다. 이러한 능력은 기존의 컴퓨터 비전 시스템에서는 매우 어려웠던 과제들입니다.
퍼셉션 인코더의 성능은 단순한 이미지 인식을 넘어서 실제로 인상적입니다. 이미지와 비디오 제로샷 분류 및 검색 분야에서 기존의 모든 오픈소스 및 독점 모델을 능가합니다. '제로샷'이란 모델이 특정 작업에 대해 직접적으로 훈련되지 않았음에도 그 작업을 수행할 수 있는 능력을 의미합니다. 이는 퍼셉션 인코더가 새로운 시각적 개념에 빠르게 적응하고 이해할 수 있다는 것을 보여줍니다.
2.3. 실제 응용 사례와 가능성
퍼셉션 인코더의 강력한 인식 능력은 언어 작업으로도 확장됩니다. 대규모 언어 모델과 정렬된 후, 이 인코더는 이미지 및 비디오 시각적 질문 응답, 캡셔닝, 문서 이해, 그라운딩 등의 작업에서 다른 모든 비전 인코더를 능가합니다. 또한 언어 모델에게 전통적으로 어려웠던 작업, 예를 들어 한 물체가 다른 물체 뒤에 있는지 또는 카메라가 물체 주위로 시계 방향으로 움직이고 있는지 판단하는 것과 같은 작업에서도 상당한 개선을 가능하게 합니다.
이러한 기능은 다양한 실제 응용 분야에서 중요합니다. 자율 주행 차량은 도로 환경을 더 정확하게 인식할 수 있고, 의료 영상 시스템은 미세한 이상을 더 잘 감지할 수 있으며, 로봇은 복잡한 환경에서 더 효과적으로 탐색할 수 있습니다. 퍼셉션 인코더는 이미 새로운 애플리케이션에 통합되기 시작했으며, 그 발전된 비전 능력이 더 강력한 AI 시스템을 가능하게 할 것으로 기대됩니다.
Meta는 이 혁신적인 기술의 모델, 코드, 데이터셋을 모두 다운로드할 수 있도록 제공하고 있어, 전 세계 연구자들이 이를 기반으로 더 많은 발전을 이룰 수 있게 하고 있습니다.
3. 영상을 이해하는 AI: 퍼셉션 언어 모델
3.1. 250만 비디오 QA 데이터셋의 의미
Meta의 퍼셉션 언어 모델(Perception Language Model, PLM)은 비디오 내용을 세밀하게 이해하고 분석하는 능력에서 중요한 진전을 이루었습니다. 이 모델의 핵심 경쟁력은 대규모 데이터셋에 있습니다. Meta 연구팀은 기존 데이터에서 비디오 이해에 관한 중요한 격차를 식별한 후, 이를 해소하기 위해 250만 개의 새로운 인간 레이블링 미세 입자 비디오 QA와 시공간 캡션 샘플을 수집했습니다. 이는 현재까지 이 분야에서 가장 큰 데이터셋입니다.
이 방대한 데이터셋은 단순히 양적인 측면에서만 중요한 것이 아닙니다. 데이터의 질적 측면, 특히 '미세 입자(fine-grained)' 특성이 중요합니다. 미세 입자 데이터란 매우 상세하고 구체적인 정보를 포함하는 데이터를 의미합니다. 예를 들어, 비디오에서 단순히 "사람이 요리하고 있다"라는 일반적인 설명 대신, "사람이 집게를 사용하여 왼쪽에서 오른쪽으로 마카다미아 퍼지 큐브를 하나씩 선물 가방에 옮기고 있다"와 같은 세부적인 설명을 포함합니다. 이런 미세한 세부 사항을 이해하는 능력은 실용적인 AI 응용 프로그램에서 매우 중요합니다.
3.2. 영상 속 세부 행동 이해하기
PLM은 비디오를 '시청'하고 사람들의 행동과 그 방식에 대한 미세한 질문에 답할 수 있습니다. 이 능력은 기존 비디오 이해 모델과 PLM을 차별화하는 핵심 요소입니다. 예를 들어, "사람이 마카다미아 퍼지 큐브를 선물 가방에 몇 개나 담았나요?"라는 질문에 "5개"라고 정확히 답할 수 있습니다. 또한 "사람이 마카다미아 퍼지 큐브를 선물 가방에 어떻게 옮겼나요?"라는 질문에는 "집게로 왼쪽에서 오른쪽으로 하나씩 수평으로 이동시켰습니다"와 같은 상세한 답변을 제공합니다.
이러한 능력은 대규모 데이터셋과 함께 인간 레이블링과 합성 데이터의 조합을 사용하여 강력하고 정확하며 완전히 재현 가능한 모델을 만드는 Meta의 접근 방식에서 비롯됩니다. PLM은 1, 3, 8십억 매개변수를 가진 다양한 크기의 모델을 제공하여 학계 연구의 투명성을 완벽하게 보장합니다. 이러한 다양한 규모의 모델은 연구자들이 각자의 필요와 리소스에 맞게 적절한 모델을 선택할 수 있게 합니다.
3.3. 인간-AI 상호작용의 새로운 가능성
PLM과 같은 고급 비디오 이해 모델은 인간-AI 상호작용에 새로운 가능성을 열어줍니다. 이러한 모델은 비디오 콘텐츠를 이해하고 상호작용하는 방식을 근본적으로 변화시킬 수 있습니다. 예를 들어, 교육 비디오에서 학생이 특정 부분을 이해하지 못했을 때, AI는 비디오 내용을 정확히 이해하고 관련 질문에 답하여 학습을 도울 수 있습니다. 또한 보안 카메라 영상에서 특정 행동이나 사건을 식별하거나, 엔터테인먼트 비디오에서 특정 장면이나 행동을 검색하는 데에도 활용될 수 있습니다.
Meta는 또한 PLM-VideoBench라는 새로운 벤치마크를 공개했습니다. 이 벤치마크는 기존 벤치마크에서 놓치고 있는 작업에 초점을 맞추고 있습니다: 미세 활동 이해와 시공간적으로 근거가 있는 추론입니다. 이는 비디오 이해 모델의 발전을 측정하고 추진하는 데 중요한 도구가 될 것입니다. Meta는 오픈소스 커뮤니티가 PLM의 대규모 데이터셋, 도전적인 벤치마크, 강력한 모델을 활용하여 더 발전된 컴퓨터 비전 시스템을 구축할 수 있기를 기대하고 있습니다.
퍼셉션 언어 모델은 비디오 콘텐츠에 대한 AI의 이해를 크게 향상시키며, 이는 다양한 응용 분야에서 중요한 의미를 갖습니다. 모델, 코드, 데이터셋, 논문 등 모든 리소스를 다운로드할 수 있도록 제공함으로써, Meta는 이 분야의 더 많은 혁신을 촉진하고 있습니다.
4. 3D 세계를 이해하는 AI: 로케이트 3D
4.1. "빨간 컵 가져와" - 자연어와 3D 공간 연결하기
로케이트 3D(Locate 3D)는 AI가 물리적 세계와 상호작용하는 방식에 큰 변화를 가져올 수 있는 혁신적인 기술입니다. 실생활에서 로봇에게 "테이블 위의 빨간 컵을 가져와"라고 지시하는 것을 상상해 보세요. 이 간단한 명령을 수행하기 위해서는 로봇이 3D 환경에서 객체를 정확히 파악하고, 자연어 지시를 물리적 공간과 연결시키는 복잡한 인식 과정이 필요합니다. 로케이트 3D는 이러한 도전 과제를 해결하기 위해 설계된 엔드-투-엔드 모델입니다.
로케이트 3D의 핵심은 자연어 쿼리와 3D 점 구름(point cloud) 데이터를 직접 연결하는 능력에 있습니다. 로봇은 RGB-D 센서로부터 3D 점 구름 데이터를 받습니다. 이 데이터는 환경의 입체적인 표현을 제공합니다. 로케이트 3D는 "TV 콘솔 근처의 꽃병"과 같은 텍스트 프롬프트를 받았을 때, 공간적 관계와 맥락을 고려하여 특정 객체 인스턴스를 식별합니다. 이는 단순히 "꽃병"을 인식하는 것이 아니라, "TV 근처의 꽃병"과 "테이블 위의 꽃병"을 구별할 수 있음을 의미합니다.
4.2. 로봇이 공간 관계를 이해하는 방법
로케이트 3D 시스템은 세 가지 핵심 구성 요소로 이루어져 있으며, 각 부분이 유기적으로 작동하여 공간 관계 이해를 가능하게 합니다:
① 전처리 단계: 먼저 2D 기초 특징을 3D 특징화된 점 구름으로 변환합니다. 이 과정은 평면적인 이미지 데이터를 입체적인 공간 정보로 바꾸는 중요한 작업입니다.
② 3D-JEPA 인코더: 이 사전 훈련된 인코더는 특징화된 점 구름을 입력으로 받아 3D 세계의 컨텍스트화되고 부드러운 표현을 예측합니다. 이는 마치 흐릿한 3D 지도를 더 명확하고 의미 있는 형태로 변환하는 과정과 유사합니다.
③ 로케이트 3D 디코더: 마지막으로, 이 디코더는 3D-JEPA 표현과 언어 쿼리를 결합하여 지정된 객체에 대한 경계 상자와 마스크를 모두 생성합니다. 이를 통해 시스템은 "어디에 있는지"뿐만 아니라 "무엇인지"도 정확히 식별할 수 있습니다.
이러한 구성 요소들이 함께 작동하여 로케이트 3D는 복잡한 3D 환경에서 자연어 지시에 따라 객체를 정확히 찾아낼 수 있습니다. 예를 들어, 시스템은 "소파"와 "테이블"을 구별하고, 각각의 위치를 정확히 파악할 수 있습니다. 이러한 능력은 로봇이 인간의 명령을 이해하고 물리적 세계에서 작업을 수행하는 데 필수적입니다.
4.3. 실생활 응용과 미래 전망
로케이트 3D 기술의 실생활 응용 가능성은 매우 광범위합니다. 가장 직접적인 응용은 가정용 서비스 로봇 분야입니다. 로봇이 "책상 위의 안경을 가져와" 또는 "냉장고 안의 우유를 꺼내줘"와 같은 일상적인 명령을 수행할 수 있게 됩니다. 이는 노인이나 장애인을 돕는 보조 로봇에게 특히 유용한 기능입니다. 또한 창고 관리 로봇, 재난 구조 로봇, 의료 보조 로봇 등 다양한 산업 분야에서도 활용될 수 있습니다.
Meta는 로케이트 3D의 연구와 함께 참조 표현(referring expressions)에 기반한 객체 위치 파악을 위한 새로운 데이터셋도 공개했습니다. 이 데이터셋은 13만 개의 언어 주석이 포함되어 있으며, ARKitScenes, ScanNet, HM3D와 같은 널리 사용되는 세 가지 데이터셋을 포괄합니다. 이러한 다양한 환경에서의 데이터는 로케이트 3D와 같은 모델이 다양한 상황에 적응할 수 있도록 훈련하는 데 중요한 자원이 됩니다.
로케이트 3D 기술의 미래는 가상현실(VR)과 증강현실(AR) 분야에서도 주목할 만한 발전을 가져올 것으로 예상됩니다. 사용자가 "저 벽에 그림을 걸어줘"라고 말하면, AR 시스템이 정확한 위치를 이해하고 가상 그림을 배치할 수 있게 됩니다. 이러한 자연스러운 언어 인터페이스는 기술과의 상호작용을 더욱 직관적이고 접근하기 쉽게 만들 것입니다.
Meta는 로케이트 3D의 데이터셋과 논문을 공개하여 이 분야의 연구를 더욱 촉진하고 있습니다. 이는 AI가 물리적 세계와 자연어 사이의 간극을 좁히는 중요한 발걸음이며, 로봇공학과 컴퓨터 비전 분야의 미래 발전에 중요한 토대가 될 것입니다.
5. 언어 모델의 새로운 설계: 다이나믹 바이트 레이턴트 트랜스포머
5.1. 바이트 수준 언어 모델의 장점
다이나믹 바이트 레이턴트 트랜스포머(Dynamic Byte Latent Transformer)는 언어 모델 아키텍처에 있어 중요한 패러다임 전환을 나타냅니다. 2024년 후반에 발표된 연구 논문에 이어, Meta는 이 혁신적인 8B 파라미터 모델의 가중치를 공개했습니다. 이 기술은 바이트 수준 언어 모델 아키텍처 분야에서 큰 발전을 이룬 것으로, 기존의 토큰화 기반 언어 모델과 맞먹는 성능을 달성한 최초의 사례입니다.
다이나믹 바이트 레이턴트 트랜스포머의 핵심 혁신은 언어를 처리하는 방식에 있습니다. 기존의 언어 모델들은 텍스트를 '토큰'이라 불리는 단위로 나누어 처리했습니다. 토큰은 단어나 단어의 일부로, 언어 모델이 텍스트를 처리하는 기본 단위입니다. 반면, 다이나믹 바이트 레이턴트 트랜스포머는 텍스트를 '바이트' 수준에서 처리합니다. 바이트는 컴퓨터가 정보를 저장하는 가장 기본적인 단위로, 보다 세밀한 텍스트 처리를 가능하게 합니다.
이러한 바이트 수준 접근법의 주요 장점은 추론 효율성의 향상과 견고성의 상당한 개선입니다. 특히 다양한 언어나 특수 문자, 희귀한 단어가 포함된 텍스트를 처리할 때 더 효과적입니다. 이는 마치 퍼즐을 더 작고 유연한 조각으로 나누어 더 정확하게 맞출 수 있게 된 것과 유사합니다.
5.2. 기존 토큰화 방식과의 성능 비교
다이나믹 바이트 레이턴트 트랜스포머의 성능은 기존 토큰화 기반 모델과 비교했을 때 매우 인상적입니다. 다양한 작업에서 평균적으로 +7 포인트의 견고성 이점(교란된 HellaSwag 데이터셋 기준)을 보여주며, CUTE 토큰 이해 벤치마크의 작업에서는 최대 +55 포인트까지 성능이 향상되었습니다. 이러한 수치는 다이나믹 바이트 레이턴트 트랜스포머가 언어 모델의 효율성과 신뢰성 표준을 재정의할 수 있는 잠재력을 가지고 있음을 보여줍니다.
이런 성능 향상은 특히 자연어 처리 시스템이 직면하는 다양한 도전적 시나리오에서 중요합니다. 예를 들어, 다국어 텍스트, 기술적 용어가 많은 텍스트, 또는 특수 문자나 이모티콘이 포함된 텍스트를 처리할 때 기존 토큰화 기반 모델은 종종 어려움을 겪습니다. 다이나믹 바이트 레이턴트 트랜스포머는 이러한 상황에서 더 우수한 성능을 발휘하여, 더 다양하고 복잡한 언어 사용 사례를 지원할 수 있습니다.
5.3. 언어 모델의 효율성과 신뢰성 향상
다이나믹 바이트 레이턴트 트랜스포머 아키텍처는 언어 모델의 효율성과 신뢰성을 근본적으로 향상시킵니다. 바이트 수준의 처리는 보다 세밀한 텍스트 분석을 가능하게 하며, 이는 모델이 언어의 미묘한 뉘앙스를 더 잘 포착할 수 있게 합니다. 또한, 이 접근법은 기존 토큰화 방식의 한계를 극복하여 보다 효율적인 텍스트 처리를 가능하게 합니다.
Meta는 이 새로운 모델과 함께 이전에 공개된 코드베이스를 통해 커뮤니티가 새로운 아이디어를 탐색하도록 장려하고 있습니다. 이는 언어 모델링 분야에서 더 많은 혁신적인 발전을 위한 길을 열어줄 것으로 기대됩니다. 다이나믹 바이트 레이턴트 트랜스포머는 단순한 기술적 발전을 넘어, 언어 모델이 어떻게 설계되고 작동해야 하는지에 대한 근본적인 재고를 제시합니다.
이 기술의 실용적 의미는 상당합니다. 더 효율적이고 견고한 언어 모델은 더 정확한 번역, 더 자연스러운 대화형 AI, 더 효과적인 콘텐츠 생성 등 다양한 응용 분야에서 향상된 성능을 제공할 수 있습니다. 또한, 바이트 수준 처리의 효율성은 모델의 계산 요구사항을 줄일 수 있어, 더 지속 가능한 AI 시스템 개발에 기여할 수 있습니다.
Meta는 모델, 코드, 논문을 모두 다운로드할 수 있도록 제공하여, 이 혁신적인 접근법을 전 세계 연구자들과 공유하고 있습니다. 이는 언어 모델링 분야의 지속적인 발전을 위한 Meta의 헌신을 보여줍니다.
6. 함께 일하는 AI: 협업 추론기
6.1. AI의 사회적 능력 개발하기
협업 추론기(Collaborative Reasoner)는 AI 에이전트가 인간이나 다른 AI와 효과적으로 협업할 수 있는 사회적 능력을 개발하는 데 초점을 맞춘 혁신적인 프레임워크입니다. 인간의 협업에서 종종 더 강력한 결과를 얻는 것과 마찬가지로, Meta의 목표는 인간이나 다른 AI 에이전트와 협업하여 단일 에이전트나 인간보다 더 나은 결과를 달성할 수 있는 사회적 AI 에이전트를 개발하는 것입니다.
이러한 협업은 단순한 문제 해결을 넘어서는 복잡한 과정입니다. 효과적인 의사소통, 피드백 제공, 공감 능력, 상대방의 의도를 이해하는 마음 이론(theory of mind) 등의 사회적 기술이 필요합니다. 또한, 이러한 종류의 협업은 일반적으로 여러 차례의 자연스러운 대화를 통해 이루어집니다. 현재의 대규모 언어 모델(LLM) 평가 벤치마크와 훈련 파이프라인은 이러한 종류의 협업 및 사회적 기술을 고려하지 않습니다.
협업적인 대화 데이터는 수집하기 비용이 많이 들고, 특정 도메인에 국한되어 있으며, 자주 변경됩니다. 이는 평가와 훈련을 모두 어렵게 만듭니다. 협업 추론기는 이러한 도전 과제를 해결하기 위해 설계되었습니다.
6.2. 다단계 추론과 합의 도출 과정
협업 추론기는 언어 모델의 협업적 추론 능력을 평가하고 개선하기 위한 프레임워크입니다. 여기에는 두 에이전트가 다단계 추론을 통해 달성해야 하는 목표 지향적 작업들이 포함됩니다. 이 작업들은 다단계 대화를 통해 협업적으로 수행되어야 합니다. 협업 추론기의 작업과 메트릭은 에이전트들이 해결책에 대해 의견 불일치를 해소하고, 상대방을 올바른 해결책으로 설득하며, 최종적으로 팀으로서 최선의 해결책에 합의하도록 요구합니다.
이 프레임워크에서 AI 에이전트들은 복잡한 문제 해결 과정을 함께 진행합니다. 예를 들어, 한 에이전트가 "제이슨은 1,000분을 가지고 있습니다. 그는 하루에 15분씩 상사와 대화하고, 다른 통화에 300분을 사용했습니다. 30일 한 달 동안 남은 분은 몇 분인가요?"라는 문제를 제시하면, 다른 에이전트는 이를 분석하고 해결 방법을 제안합니다. 그 과정에서 두 에이전트는 서로의 접근 방식을 검토하고, 오류를 지적하며, 함께 정확한 결론에 도달합니다.
이러한 협업적 추론 과정은 단순한 문제 해결 그 이상의 의미를 가집니다. 이는 에이전트가 자신의 생각을 명확히 표현하고, 다른 에이전트의 관점을 이해하며, 건설적인 비판을 주고받고, 합의에 도달하는 능력을 개발하는 것을 의미합니다. 이러한 능력은 AI가 인간 사회에서 더 유용하고 통합된 역할을 수행하는 데 필수적입니다.
6.3. 'Matrix': 대규모 AI 협업 훈련의 인프라
Meta의 평가 결과에 따르면 현재 모델은 협업을 통해 일관되게 더 나은 작업 성능을 달성하지 못합니다. 이 문제를 해결하기 위해 Meta는 합성 상호작용 데이터를 사용한 자가 개선 접근법을 제안합니다. 이 접근법은 '자기 협업(self-collaboration)'으로 샘플링된 데이터를 활용합니다. 즉, LLM 에이전트가 자기 자신과 협업하는 방식입니다.
이러한 데이터를 대규모로 생성하기 위해 Meta는 Matrix라는 다목적, 고성능 모델 서빙 엔진을 개발했습니다. Matrix는 대규모 추론을 위한 인프라로, 다중 에이전트 데이터 생성과 실험을 지원합니다. 이 시스템은 다양한 서빙 프레임워크를 지원하는 유연성을 제공하며, 자동 확장 기능과 오픈소스 접근성을 갖추고 있습니다.

이 표에서 볼 수 있듯이, Matrix는 모든 주요 기능을 지원하는 유일한 시스템입니다. 특히 gRPC 지원과 자동 확장 기능을 갖춘 오픈소스 솔루션이라는 점에서 차별화됩니다.
수학(MATH), 과학(MMLU-Pro, GPQA), 사회적 추론(ExploreTom, HiTom) 작업에서, Meta의 접근법은 동등한 단일 에이전트 LLM의 사고 연쇄(chain-of-thought) 성능과 비교했을 때 최대 29.4%의 향상을 가져왔습니다. 이는 협업적 AI 에이전트의 잠재력을 보여주는 중요한 결과입니다.
협업 추론기는 인간과 파트너십을 맺고 다른 에이전트와 협업할 수 있는 사회적 에이전트를 개발하는 길을 열어줍니다. Meta는 이 분야의 추가 연구를 지원하기 위해 데이터 생성 및 모델링 파이프라인을 오픈소스로 공개하고 있습니다. 협업 추론기 코드, MATRIX 코드, 그리고 관련 논문을 다운로드할 수 있도록 제공함으로써, Meta는 이 중요한 연구 영역에서의 진전을 가속화하고 있습니다.
7. 오픈소스로 만드는 AI의 미래
7.1. 코드, 모델, 데이터셋 공유의 중요성
Meta FAIR의 연구 성과를 오픈소스로 공개하는 전략은 AI 발전에 있어 중요한 촉매제 역할을 합니다. Meta는 단순히 연구 결과를 발표하는 것을 넘어, 실제 코드, 모델, 데이터셋, 논문을 모두 공개함으로써 전 세계 연구자들이 이러한 성과를 바탕으로 새로운 발전을 이룰 수 있게 하고 있습니다. 이는 "지식의 민주화"라는 철학을 실천하는 것으로, AI 기술이 소수의 대기업이나 연구소에 국한되지 않고 더 넓은 커뮤니티에 의해 발전되고 응용될 수 있도록 합니다.
코드 공유는 연구 결과의 재현성을 보장하고, 다른 연구자들이 기존 작업을 확장하거나 수정할 수 있게 합니다. 모델 공유는 연구자들이 새로운 모델을 처음부터 훈련시키는 데 드는 시간과 자원을 절약할 수 있게 합니다. 데이터셋 공유는 다양한 연구 그룹이 동일한 데이터로 작업하여 결과를 비교할 수 있게 하며, 특히 Meta가 수집한 250만 비디오 QA 샘플이나 13만 개의 언어 주석과 같은 대규모 데이터셋은 독자적으로 구축하기 어려운 귀중한 자원입니다.
각 연구 성과 페이지에 "Download the model", "Download the code", "Download the dataset", "Read the paper"와 같은 다운로드 링크를 제공함으로써, Meta는 연구 커뮤니티가 이러한 자원에 쉽게 접근할 수 있도록 하고 있습니다. 이는 연구의 투명성과 접근성을 크게 향상시키는 실천적 조치입니다.
7.2. 글로벌 AI 커뮤니티와 함께하는 혁신
오픈소스 접근법은 글로벌 AI 커뮤니티와의 협력을 통한 혁신을 가속화합니다. 다양한 배경과 전문 지식을 가진 연구자들이 Meta의 연구 성과를 기반으로 새로운 아이디어를 개발하고 적용할 수 있습니다. 이는 특히 자원이 제한된 소규모 연구 그룹이나 개발도상국의 연구자들에게 중요한 기회를 제공합니다.
예를 들어, 퍼셉션 인코더는 의료 영상 분석이나 환경 모니터링과 같은 특수 도메인에 적용될 수 있고, 로케이트 3D는 특정 산업용 로봇이나 장애인 보조 기술에 맞춤화될 수 있습니다. 협업 추론기는 교육 분야나 복잡한 의사 결정 시스템에 통합될 수 있습니다. 이러한 다양한 응용은 Meta 한 회사의 비전이나 우선순위를 넘어설 수 있으며, 오픈소스 커뮤니티의 집단 창의성을 통해 더 풍부하고 다양한 혁신이 가능해집니다.
오픈소스 협력의 역사는 이러한 접근법의 효과를 입증합니다. 리눅스와 같은 오픈소스 운영 체제, 파이썬과 같은 프로그래밍 언어, 텐서플로우와 파이토치와 같은 AI 프레임워크 모두 오픈소스 커뮤니티의 협력을 통해 크게 발전했습니다. Meta의 연구 성과 공개는 이러한 오픈소스 협력의 전통을 AI 최첨단 연구 분야로 확장하는 것입니다.
7.3. 미래 AI 발전의 방향성
Meta FAIR의 연구와 오픈소스 전략은 미래 AI 발전의 방향성에 대한 중요한 시사점을 제공합니다. 먼저, AI 시스템이 계속해서 인간의 인식 능력에 가까워지고 있음을 보여줍니다. 퍼셉션 인코더와 퍼셉션 언어 모델은 시각적 세계를 인식하고 이해하는 AI의 능력이 계속해서 세련되어 가고 있음을 보여줍니다. 로케이트 3D는 AI가 3D 공간을 이해하고 자연어와 연결하는 능력이 발전하고 있음을 시사합니다.
다이나믹 바이트 레이턴트 트랜스포머는 언어 모델 설계에 대한 근본적인 재고가 여전히 가능하고 필요하다는 것을 보여줍니다. 기존 토큰화 방식에 대한 대안이 여전히 발견되고 있으며, 이는 더 효율적이고 견고한 모델로 이어질 수 있습니다.
협업 추론기는 AI의 미래가 단일 에이전트의 능력만이 아니라, 여러 에이전트와 인간 사이의 협력에 달려 있음을 시사합니다. AI의 사회적 능력 개발은 단순한 지능의 향상을 넘어, AI가 인간 사회에 더 자연스럽게 통합될 수 있는 길을 열어줍니다.
이러한 발전들이 공개적이고 협력적인 방식으로 이루어지고 있다는 사실은 AI의 미래가 폐쇄적이고 독점적인 것이 아니라, 개방적이고 포용적인 방향으로 나아갈 수 있음을 보여줍니다. 이는 AI 기술의 혜택이 더 넓은 사회에 분배되고, 다양한 관점과 필요를 반영할 수 있는 가능성을 높입니다.
Meta FAIR의 연구는 AI가 인간의 인식, 이해, 협력 능력에 가까워지는 여정에서 중요한 이정표를 제시합니다. 이러한 연구 성과가 오픈소스로 공유됨으로써, 전 세계의 연구자들이 함께 이 여정에 참여하고 기여할 수 있게 됩니다. 이는 AI의 미래가 단일 기업이나 연구소의 비전이 아닌, 글로벌 협력의 결과로 형성될 것임을 시사합니다.
#Meta_FAIR, #AI_인식, #비전_인코더, #로케이트_3D, #협업_추론기, #Meta_Research, #AI_perception, #Vision_Encoder, #Locate_3D, #Collaborative_Reasoner
참고자료
Advancing AI systems through progress in perception, localization, and reasoning (Meta, 2025)(LINK)
[출처] [TL;DR] 신동형과 함께 공부하는「Meta FAIR 연구: 보고, 이해하고, 협력하는 AI」보고서|작성자 jack0604
[저작권자ⓒ META-X. 무단전재-재배포 금지]