[2025년 47째주] MetaX 주간 AI 동향 리포트

김한얼 기자

loenahmik@gmail.com | 2025-11-22 11:00:40

Gemini 3와 GPT-5.1 등 차세대 주력 모델의 잇따른 출시 및 고성능 특화 기능 도입을 통한 글로벌 기술 패권 경쟁 심화
대규모 자본 유입과 슈퍼팩토리 구축 등 인프라 경쟁 확대 및 엔지니어링 효율성을 높이는 기반 기술과 오픈소스 생태계의 지속적 발전

주요 모델 출시 및 업데이트

구글은 Gemini 3와 나노 바나나 프로(Nano Banana Pro)를 출시하였으며, 나노 바나나 프로는 제미나이 3 프로 이미지(Gemini 3 Pro Image)로도 불리면서 스튜디오 품질의 이미지 생성 및 편집 기능을 제공한다. 이 모델은 텍스트 렌더링, 일관된 다중 캐릭터 장면 생성, 정보 그래픽 제작을 위한 실제 세계 지식 통합 기능을 포함한다. 구글은 또한 자사의 AI 모델을 제품군 전반에 걸쳐 동시에 업데이트해왔으며, 이번 광범위한 출시도 마찬가지로 예상되며, Pro 브랜딩은 플랫폼 생태계 전반에 걸쳐 접근 가능하고 생산 등급의 생성형 도구를 제공하려는 구글의 의도를 시사한다.

오픈AI는 GPT-5.1을 사용자에게 배포하기 시작했으며, 이 모델은 사용자가 적절한 톤과 스타일을 설정하기 쉽게 만드는 8가지의 고유한 채팅 스타일을 특징으로 한다. 특히 GPT-5.1-코덱스-맥스(GPT-5.1-Codex-Max)는 "압축(compaction)"을 통해 여러 컨텍스트 창에서 작동하도록 훈련되어, 수백만 개의 토큰을 처리하고 24시간 이상이 소요되는 작업을 완료할 수 있다. 이 모델은 이전 모델 대비 30% 적은 추론 토큰을 사용하면서 SWE-bench Verified에서 77.9%의 성능을 달성했다.

xAI는 Grok 4.1을 출시하여 LMArena에서 최고 모델의 자리를 차지했으며, xAI는 대규모 사후 훈련 인프라를 통해 감성 지능 및 창의적 글쓰기에서 목표한 개선을 이루었다고 강조하고, 이는 현재 ChatGPT가 주도하는 소비자 중심 AI 동반자 사용 사례를 추구하고 있음을 시사한다. 이와 함께 오픈AI의 지원을 받는 퓨처하우스(FutureHouse)는 코스모스 AI 사이언티스트(Kosmos AI Scientist)를 출시했으며, 이 AI 과학자는 한 번 실행 시 1,500편의 논문을 읽고 42,000줄의 분석 코드를 실행할 수 있다.

오픈AI는 현재 ChatGPT 무료, Go, Plus, Pro 요금제 사용자에게 그룹 채팅 기능을 전 세계적으로 출시하고 있으며, 사용자는 최대 20명의 다른 사람들을 공유 대화에 초대할 수 있게 되었다. 또한 오픈AI는 교사들을 위해 빌드된 무료 버전의 ChatGPT인 ChatGPT for Teachers를 출시했는데, 이는 인증된 미국 K-12 교육자들에게 Google Drive 및 Microsoft 365 통합, 교육 등급 보안, 관리자 제어 기능이 포함된 GPT-5.1 Auto에 대한 무료 액세스를 제공한다.

그림1. Nano Banana Pro (출처: Google)


AI 엔지니어링 및 기반 기술

앤트로픽(Anthropic)은 클로드(Claude) API에 구조화된 출력을 퍼블릭 베타로 출시했으며, 이는 Claude Sonnet 4.5 및 Opus 4.1에서 사용할 수 있으며 Haiku 4.5 지원이 곧 제공될 예정이다. 구조화된 출력은 Claude의 응답이 특정 스키마를 따르도록 제약함으로써, Claude가 잘못된 형식의 JSON 응답을 생성하거나 도구 입력을 무효화하여 애플리케이션을 망가뜨리는 것을 방지하고, 다운스트림 처리를 위한 유효하고 구문 분석 가능한 출력을 보장한다.

컨텍스트 윈도우(context window)는 대규모 언어 모델이 출력을 생성할 때 받는 전체 입력이며, 여기에는 메시지, 모델의 응답, 도구 호출, 그리고 모델이 '추론'하기 위해 출력하는 사고 블록(thinking blocks)이 포함된다. 암프(Amp)에 대한 기사는 사용자가 컨텍스트 윈도우의 내용을 관리할 수 있는 몇 가지 방법을 안내한다.

연구 영역에서는, 흑상자(Black-Box) LLM으로부터 지식을 증류(distillation)하는 새로운 접근 방식인 GAD가 도입되었는데, 이는 출력 확률에 접근하지 않고 생성된 텍스트만을 사용하여 지식을 추출한다. 또한 딥 에니씽 3 (Depth Anything 3, DA3)는 카메라 포즈 가용성과 관계없이 단일 또는 다중 뷰 이미지로부터 공간적으로 일관된 깊이를 추정하며, 단순한 아키텍처와 훈련을 위해 일반 트랜스포머 백본과 단일 깊이-광선 표현에 의존한다.

PINA는 PyTorch 생태계의 새로운 오픈 소스 과학 머신러닝 라이브러리로, PDE 솔버 및 물리 시뮬레이션을 포함한 과학 시스템 모델링을 위한 모듈식의 확장 가능한 워크플로우를 제공한다. 메타(Meta)는 SAM 3를 오픈 소스로 공개하며 분할 모델(segmentation model)에 텍스트 및 시각적 프롬프트 지원을 포함한 주요 업데이트를 적용했고, 비디오 전반에서 객체를 추적하고 분할하여 더욱 유연한 미디어 워크플로우를 가능하게 한다.

그림2. SAM3 (출처: Meta)


AI 산업 및 시장 동향

AI '레이스'는 명확한 경계나 결승선이 없는 경쟁이며, 아무도 AI가 어디로 향할지 모르는 탐색 단계에 있으며, 미국과 중국은 그들의 고유한 강점을 활용하는 다른 전략을 취하고 구조적 갈등 속에 놓여 있어 조화가 불가능해 보인다. 한편, 에이전트 랩(Agent Labs)은 모델 랩(Model Labs)과 달리 제품을 우선시하고 토큰당 가격이 아닌 결과 기반 가격 책정을 사용하며, 더 나은 현금 흐름 경제성을 가지지만 엑시트 가치까지 시간이 더 걸릴 수 있다.

xAI는 2,300억 달러의 가치로 150억 달러의 새로운 자금 조달을 위한 고급 협상을 진행 중이며, 이는 OpenAI와 경쟁하고 챗봇 Grok의 역량을 확장하기 위함이다. 반면, 허깅 페이스(Hugging Face) CEO는 LLM 거품이 곧 터질 수 있지만, LLM은 AI 기술의 일부일 뿐이므로 'AI' 자체가 붕괴되는 것을 의미하지는 않는다고 말한다. 그는 모든 회사의 모든 문제를 해결하는 하나의 모델보다는 다양한 문제를 해결하는 다수의 모델로 귀결될 가능성이 더 높다고 본다.

마이크로소프트는 OpenAI 및 Nvidia와 함께 새로운 AI 슈퍼팩토리를 공동 설계하고 있으며, 세 세대의 프론티어 훈련 시스템을 통합하고 GPT 추론을 위해 AMD를 추가하여 하드웨어 스택을 확장했다. 마이크로소프트의 목표는 기업들이 주요 AI 공급업체에 가치나 통제권을 넘기지 않고도 자체 모델을 훈련하고 실행할 수 있도록 이 인프라를 확장하는 것이다.

Arm 기반 Neoverse CPU는 엔비디아의 NVLink Fusion 기술을 사용하여 엔비디아 GPU와 연결될 수 있게 되었으며, 이는 엔비디아가 NVLink 플랫폼을 개방하기로 결정했음을 시사한다. 클라우드플레어(Cloudflare)는 AI 모델 실행 플랫폼인 Replicate에 합류하여, Workers AI 사용자들에게 모델 카탈로그의 대폭적인 확장과 더불어 파인 튜닝 및 사용자 정의 모델을 직접 실행할 수 있는 새로운 기능을 곧 제공할 예정이다.

그림3. Azure AI Super Factory (출처: Microsoft)


[METAX = 김한얼 기자]

[ⓒ META-X. 무단전재-재배포 금지]

WEEKLY HOT