[2025년 39째주] MetaX 주간 AI 동향 리포트

김한얼 기자

loenahmik@gmail.com | 2025-09-27 16:00:00

AI 인프라 확장과 모델 고도화, 에이전트 기술과 데이터 연구를 통한 AI 혁신의 가속화
거대 투자와 기술 발전이 맞물려 에이전트, 데이터, 평가 방법론 등 AI 생태계 전반의 혁신 이끌어

AI 인프라 확장 및 대규모 투자

AI 컴퓨팅 인프라를 확장하기 위한 전례 없는 수준의 투자가 진행되고 있다. OpenAI는 미국 및 해외에 걸쳐 1조 달러 규모의 컴퓨팅 웨어하우스 건설 비전을 제시했다. 이 회사는 ChatGPT 수요를 충족시키기 위해 20기가와트(GW) 이상의 컴퓨팅 용량이 필요하며, 각 기가와트당 약 500억 달러의 비용이 들 것으로 예상한다. 이러한 대규모 확장 계획의 일환으로, OpenAI는 Oracle 및 SoftBank와 함께 건설할 미국 전역의 5개 새로운 데이터 센터 부지를 발표했다. 이는 총 약 7GW의 전력을 공급할 것이다.

OpenAI는 또한 Nvidia와의 전략적 파트너십을 통해 미래 AI 모델 개발을 지원하기 위해 10GW의 Nvidia 시스템으로 구동되는 데이터 센터를 건설하는 의향서에 서명했다. 이 투자 규모는 잠재적으로 1,000억 달러에 달할 수 있다. 한편, Oracle은 AI 인프라 역량 확장에 중점을 두면서 Clay Magouyrk와 Mike Sicilia를 공동 CEO로 승진시키는 리더십 전환을 단행했다. Oracle은 Meta와 약 200억 달러 상당의 다년 클라우드 컴퓨팅 계약을 논의 중이며, 이는 Meta의 AI 모델 훈련 및 배포를 위한 컴퓨팅 용량을 제공할 것이다. xAI는 Grok 4 훈련에 4억 9천만 달러가 소요되었고, 4,000명 규모 마을의 1년 치 전기가 필요했던 것으로 추정되는 등, 대규모 모델 훈련에는 막대한 자원이 필요함이 확인되었다.

그림1. OpenAI, Oracle, and SoftBank expand Stargate with five new AI data center sites (출처: OpenAI)


주요 모델 및 서비스 출시와 기능 확장

주요 AI 기업들은 모델의 효율성을 높이고 사용자 경험을 개선하는 새로운 기능을 출시하고 있다. xAI는 Grok 4 Fast를 공개했는데, 이는 Grok 4와 비슷한 성능을 유지하면서도 40% 더 적은 사고 토큰을 사용하며, 최초의 200만 토큰 컨텍스트 창을 특징으로 한다. Google DeepMind는 Gemini 2.5 Flash 및 Flash-Lite의 업데이트 버전을 출시하여 품질과 속도를 향상시켰다. 특히 Flash-Lite의 출력 토큰을 50% 감소시키고 Flash의 출력 토큰을 24% 감소시키는 등 효율성 개선을 강조했다. OpenAI는 Responses API에서 GPT-5-Codex를 라이브로 제공하기 시작했다.

서비스 측면에서, OpenAI는 모바일 Pro 사용자를 위해 사용자 채팅, 선호도 및 연결된 앱을 기반으로 개인화된 연구 및 업데이트를 선제적으로 제공하는 새로운 기능인 ChatGPT Pulse를 미리 공개했다. 또한 OpenAI는 일부 사용자에게 'Agent with truncation' 및 'Agent with prompt expansion'과 같은 명칭의 '알파 모델' 섹션을 노출하며 도구 증강 AI 워크플로에 대한 실험을 시사했다. Perplexity는 개발자들이 수천억 개의 웹 페이지에 대한 고품질 검색에 접근할 수 있도록 하는 새로운 Search API를 출시했다. 이와 함께 Perplexity는 Max 구독자를 위한 이메일 비서를 출시하여 받은 편지함과 통합되어 답장 초안 작성 및 메시지 정리 기능을 제공한다. OpenAI는 나아가 디스플레이 없는 스마트 스피커, 안경, 녹음기 및 웨어러블 핀을 포함한 여러 AI 장치를 개발 중이며, 2026년 말 또는 2027년 초 출시를 목표로 하는 하드웨어 프로젝트를 진행하고 있다.

그림2. ChatGPT Pulse (출처: OpenAI)


에이전트 기술, 시스템 통합 및 보안

AI 에이전트가 기존 시스템 및 물리적 세계와 상호 작용하는 방식이 발전하고 있으며, 이에 따른 보안 문제가 부각되고 있다. Apple은 Mac, iPhone, iPad에서 에이전트 AI를 활성화하기 위해 Anthropic의 모델 컨텍스트 프로토콜(MCP)을 채택하기 위한 기반을 다지기 시작했다. MCP는 AI 에이전트가 API 및 데이터 소스에 연결할 수 있는 범용 경로가 되었으며, Data Commons MCP 서버는 방대한 공공 데이터 세트에 대한 접근을 간소화하여 LLM의 환각을 줄이는 데 도움을 준다. OpenAI의 새로운 Responses API는 턴 기반 채팅에서 벗어나 대화 턴 전체에 걸쳐 상태를 유지하는 지속적인 에이전트 추론으로의 진화를 나타내며, 이를 통해 GPT-5는 성능 향상과 40~80% 개선된 캐시 활용률을 보고했다.

그러나 에이전트 시스템의 복잡성은 보안 위험을 증가시킨다. 교차 에이전트 권한 에스컬레이션은 동일 시스템에서 작동하는 여러 코딩 에이전트가 서로의 구성을 수정하도록 속아 권한을 에스컬레이션하는 경우를 말한다. 이는 에이전트 툴링에서 더 나은 격리 전략과 강력한 보안 기본값의 필요성을 강조한다. 또한, 코딩 에이전트가 복잡한 코드베이스에서 생산성을 저해하는 경우가 많아, 개발 과정 전반에 걸쳐 컨텍스트를 구조화하는 '잦은 의도 압축(frequent intention compaction)'과 같은 기술군이 대규모 코드베이스에서 AI 성능을 향상시키는 데 논의되었다.

AI 에이전트의 실제 비용과 기능적 한계도 중요하다. 도구 호출(Tool calling)은 코드에서 일반 함수를 호출하는 것보다 몇 배나 더 비용이 많이 들기 때문에, 에이전트 시스템은 에이전트가 효과적으로 수행할 수 있는 도구 호출 횟수의 한도에 따라 설계되어야 한다. Google DeepMind는 Gemini Robotics 1.5를 출시하여 AI 에이전트를 물리적 세계로 가져왔다. 이는 시각 정보와 명령을 로봇이 작업을 수행하기 위한 모터 명령으로 변환하는 비전-언어-동작 모델이다.

그림3. Gemini Robotics-ER 1.5 (출처: Google)


AI 연구 방법론, 훈련 데이터 및 평가 분석

AI 모델의 훈련 효율성과 데이터 투명성, 그리고 실제 경제적 가치를 평가하는 방법론에 대한 심층적인 분석이 이루어지고 있다. 사전 훈련(pre-training)과 강화 학습(RL) 사이의 주요 차이점은 정보 효율성이다. RL은 모델에 단 하나의 정보 비트를 공개하기 위해 수천, 심지어 수백만 개의 토큰으로 구성된 긴 체인이 필요하므로 GPU 시간당 학습할 정보가 훨씬 적다. 이는 RL 패러다임이 달성할 수 있는 양에 심각한 영향을 미친다. 실제로 OpenAI의 강화 미세 조정(RFT)은 지도 미세 조정보다 최대 700배 더 많은 비용이 들지만, 에이전트 코딩 작업에서만 명확한 성과를 제공하는 것으로 나타나 비용 대비 효과를 정당화하기 어렵다는 분석이 나왔다.

훈련 데이터의 접근성과 품질에 대한 논의도 활발하다. 전 세계적으로 최대 200 제타바이트의 데이터가 디지털화되었지만, 대부분의 AI 시스템은 수백 테라바이트로 훈련된다. 이는 데이터의 희소성 문제가 아니라 접근성 문제로 지적되었다. 속성 기반 제어(Attribution-Based Control)가 데이터 소유권을 유지하면서 접근성을 확장할 잠재적인 프레임워크로 제시되었다. 한편, GPT-oss 계열 모델이 성인 웹사이트의 구문으로 훈련되었다는 강력한 증거가 발견되는 등 훈련 데이터 출처에 대한 우려가 제기되었다. 또한, LLM-Deflate 기술은 추론을 단순한 생성 메커니즘이 아닌 지식 추출 도구로 취급하여 훈련된 모델에서 구조화된 데이터 세트를 체계적으로 추출할 수 있음을 보여준다.

AI 모델 성능을 평가하기 위한 새로운 벤치마크도 등장했다. OpenAI의 GDPval은 44개 직업에 걸쳐 실제 경제적으로 가치 있는 작업에 대한 모델 성능을 테스트하는 평가 벤치마크이다. 이는 인기 있는 코딩 벤치마크들이 그 이름이 시사하는 것보다 좁은 것을 측정하며, 좋은 벤치마크를 만들려면 인간의 검토와 주석이 필수적이라는 분석에 따른 것이다. 마지막으로, AI 모델의 안전성 연구에서는 OpenAI와 Apollo Research가 프론티어 모델의 숨겨진 불일치 행동을 평가하고 기만적 성향을 줄이기 위한 초기 단계 방법을 개발했다. DeepMind는 Misaligned AI가 인간의 지시를 무시하거나 사기성 출력을 생성할 수 있다는 위험을 탐구했다.

그림4. LLM-Deflate: Extracting LLMs Into Datasets (출처: ScalarLM)


[METAX = 김한얼 기자]

[ⓒ META-X. 무단전재-재배포 금지]

WEEKLY HOT