META-X

[2025년 21째주] MetaX 주간 AI 동향 리포트: 김한얼 기자 / 기사승인 : 2025-05-24 15:00:00

Gemini, Claude, GPT-4 등 AI 모델의 고도화, AI 에이전트의 자율성 증대
Stargate UAE와 Nvidia 칩으로 본 인프라 경쟁, AI 안전과 윤리적 과제 부상

Gemini, Claude, GPT-4 등 거대 AI 모델의 고도화와 함께 Jules, Codex와 같은 AI 에이전트의 실제 업무 적용이 가속화되고 있음을 보여준다. 이는 Stargate UAE 건설 및 Nvidia Blackwell 칩 거래에서 드러나는 AI 인프라 경쟁의 심화와 직결되며, 궁극적으로 최고 AI 인재 확보를 위한 치열한 경쟁으로 이어지고 있다. AI 안전 수준 3 보호 조치 도입과 간접 프롬프트 주입 공격 방어 연구는 기술 발전과 동시에 AI 안전 및 보안의 중요성이 커지고 있음을 시사한다. 또한, Android XR과 같은 AI 기반 하드웨어 및 서비스 출시는 AI가 우리 삶의 모든 영역에 더욱 깊숙이 통합될 것임을 예고한다.

거대 AI 모델, 진화를 넘어 '사고'의 영역으로

Google은 Gemini 2.5 Pro 모델의 추론 능력을 강화하는 Deep Think 기능을 공개했다. 이 기능은 모델이 응답 전에 여러 가능한 답안을 고려하게 하며, 특히 코딩 평가인 LifeCodeBench와 인지/추론 능력을 측정하는 MMMU 테스트에서 뛰어난 성능을 보였다. 또한, Google은 Gemini 2.0 Flash-Lite와 동일한 성능을 내면서 5배 빠른 Gemini Diffusion 모델을 공개했다.

Anthropic은 Claude Opus 4 및 Claude Sonnet 4를 출시하며 코딩, 고급 추론, AI 에이전트 분야의 새로운 기준을 제시했다. 이 모델들은 몇 시간 동안 실행되는 복잡하고 장기적인 작업에 적합하며, Anthropic은 이들을 가장 유능한 코딩 모델이라고 주장한다.

OpenAI의 o3 추론 모델은 빠르게 발전했지만, 곧 확장 한계에 도달할 수 있다는 우려가 제기되었다. 현재 추론 모델들은 초기 급격한 스케일링 이후 연간 약 4배 증가하는 전체 훈련 컴퓨팅 성장 속도와 빠르게 수렴될 수 있다.

DeepSeek 연구진은 DeepSeek-V3의 훈련 경험을 하드웨어-모델 공동 설계의 사례 연구로 공유했다. LLM 스케일링 한계와 GPU 효율성을 최대화하고 통신 오버헤드를 최소화하기 위한 Multi-head Latent Attention, Mixture of Experts, FP8 훈련, Multi-Plane Network Topology 등의 혁신 기술을 다루었다.

ByteDance는 새로운 오픈 소스 멀티모달 파운데이션 모델인 BAGEL을 출시했다. 이 모델은 멀티모달 이해 및 생성 능력을 지원하며, 이미지 편집, 3D 조작, 월드 내비게이션과 같은 고급 멀티모달 추론 능력을 보여준다. Qwen2.5B 모델은 AWS에 최적화된 비용 효율적인 SFT + GRPO 파이프라인을 사용하여 추론 작업을 위해 미세 조정될 수 있다. 확장된 연쇄적 사고 추론(chain-of-thought reasoning)은 LLM이 자신의 신뢰도를 더 잘 조정하는 데 도움이 된다.

그림1. Claude 4 모델의 벤치마크 결과 (출처: Anthropic)

AI 에이전트, 개발자의 '그림자 팀원'으로 진화

Google은 Gemini 2.5 기반의 도구인 Jules를 공개했다. Jules는 전체 리포지토리를 복제한 후 개발자가 다른 작업을 하는 동안 자율적으로 테스트를 작성하고, 버그를 수정하며, 기능을 구축한다. 에이전트 기반 코딩 분야는 동기식 페어 프로그래밍 어시스턴트와 Devin 및 Jules와 같은 완전 독립 에이전트로 나뉜다.

OpenAI는 Codex라는 자율 코딩 에이전트를 출시했다. Codex는 격리된 클라우드 환경에서 기능을 작성하고, 버그를 수정하며, 풀 리퀘스트를 제출한다. Cisco 및 Temporal과 같은 회사들은 이미 Codex를 사용하여 전체 코드베이스를 관리하고 엔지니어는 상위 수준 작업에 집중하고 있다.

Mistral AI와 All Hands AI는 소프트웨어 엔지니어링에 최적화된 새로운 오픈 소스 LLM인 Devstral을 선보였다.

Microsoft는 모델 컨텍스트 프로토콜(MCP)을 Windows에 기본 통합하고 Windows AI Foundry를 출시한다. 이를 통해 AI 에이전트가 운영체제 및 애플리케이션과 직접 상호작용할 수 있게 된다. Microsoft는 토큰 탈취 및 프롬프트 주입 공격을 방지하기 위한 보안 제어를 통해 신중하게 진행하고 있다.

FutureHouse는 전문 문헌 검색 에이전트와 데이터 분석 에이전트를 결합한 새로운 AI 시스템을 사용하여 주요 실명 원인에 대한 새로운 치료법을 성공적으로 식별했다. 이 시스템은 자율적으로 가설을 생성하고, 실험을 제안하며, 결과를 분석하여 다음 연구 주기에 정보를 제공한다. 이를 통해 망막 광수용체 세포의 점진적 퇴화 치료를 위한 잠재적 신약으로 ripasudil을 식별했다.

Notte는 웹사이트를 탐색하고 상호작용하는 AI 에이전트를 구축하기 위한 오픈 소스 프레임워크이다. 주요 혁신은 웹 페이지를 구조화된 자연어 설명으로 변환하는 "인지 레이어"이다.

Fastino는 특정 작업을 위한 TLM(Task-specific Language Model)을 도입했다. TLM은 요약, 함수 호출, 창의적 글쓰기와 같은 정의된 작업에서 대규모 LLM보다 99배 빠르고, 17% 더 정확하며, 실시간 애플리케이션에 <100ms로 응답할 수 있다. 또한, Google Meet은 실시간 음성 번역을 지원하며, DeepMind의 오디오 언어 모델을 사용하여 다양한 언어에서 음성, 톤, 표현을 보존한다.

AI 인프라, 전 세계를 잇는 거대 신경망 구축 가속화

UAE 아부다비에 OpenAI, G42 등이 참여하는 1기가와트 규모의 대규모 AI 데이터 센터인 Stargate UAE를 구축할 계획이다. 이는 세계에서 가장 강력한 데이터 센터 중 하나가 될 것이다. 또한, 트럼프 대통령의 중동 방문 후 사우디아라비아에 18,000개의 Nvidia Blackwell 칩이 선적되는 등 AI 칩 거래가 이루어졌다.

Microsoft와 Hugging Face는 Azure AI Foundry에 10,000개 이상의 Hugging Face 모델을 통합하기 위한 파트너십을 확장했다. Azure AI Foundry는 또한 xAI의 Grok 3 및 Grok 3 mini를 제공하며, 전체 서비스 수준 계약 및 Azure를 통한 직접 결제를 지원한다.

Databricks는 서버리스 Postgres 회사인 Neon을 인수하며 개발자 및 AI 네이티브 데이터베이스 기능을 강화한다. Neon은 스토리지와 컴퓨팅을 분리하고 AI 기반 운영을 지원하며 데이터베이스 시장에 혁신을 가져왔다.

NVIDIA는 NVIDIA GPU 또는 Grace CPU를 타사 칩과 결합하여 하이브리드 AI 인프라를 지원하는 NVLink Fusion을 도입했다. Meta는 성장하는 AI 인프라를 지원하기 위해 650MW의 태양 에너지 신규 계약을 체결했다.

그림3. 글로벌 테크 얼라이언스, Stargate UAE 출범 (출처: G42.ai)

AI 인력 전쟁, 최고 인재 유치 경쟁의 심화

OpenAI와 같은 회사에서 최고 AI 연구원은 연간 1,000만 달러 이상을 벌 수 있다. AI 인재를 확보하기 위한 치열한 경쟁은 전문 스포츠 수준의 공격적인 인력 유지 및 채용 전략으로 이어졌다.

Anthropic은 AI 인재 전쟁에서 명확한 선두 주자로 부상했으며, 인상적인 80%의 직원 유지율을 유지하며 경쟁사로부터 엔지니어를 적극적으로 빼내고 있다. 인재가 Anthropic을 위해 OpenAI 또는 DeepMind를 떠날 확률은 그 반대의 경우보다 8배 높다.

Google Cloud의 설문 조사에 따르면 생성형 AI는 98%의 기업 채택률을 보이며 주류가 되었다. 많은 기업들이 최고 AI 책임자(Chief AI Officer)와 같은 리더십 역할을 신설하고 AI 인재를 위한 공격적인 채용 및 내부 개발 전략을 채택하고 있다.

그림4. OpenAI Software Engineer Salaries (출처: levels.fyi)

AI 안전 및 보안, 진화하는 위협에 대한 대응 강화

Anthropic은 Claude Opus 4에 대해 AI 안전 수준 3 보호 조치를 도입했다. 이러한 안전 조치에는 모델 가중치 도난 방지 및 생물학/화학 무기 지원을 목표로 하는 배포 제어를 위한 향상된 보안이 포함된다. 더불어 새로운 Claude 모델은 이전 모델보다 에이전트 환경에서 스스로 주도권을 잡는 경향이 더 강하다. 이는 일반 코딩 환경에서는 더 적극적으로 도움이 되는 행동으로 나타날 수 있지만, 강한 도덕적 명령이 주어지면 우려스러운 행동을 유발할 수 있다. 이러한 행동은 모델에 도구에 대한 비정상적으로 자유로운 접근 권한과 매우 특이한 지침이 제공되는 테스트 환경에서만 나타난다.

Google DeepMind는 Gemini에 대한 간접 프롬프트 주입 공격 방어 연구 결과를 공개했다. 더욱 유능한 모델이 본질적으로 더 안전하지 않으며, 정적 테스트에서 작동하는 방어는 적응형 공격자에게 실패하는 경우가 많다는 것을 보여준다. 악의적인 프롬프트 예제를 사용하여 모델을 미세 조정하는 "적대적 훈련"이 Gemini 2.5의 저항성을 크게 향상시켰다. 이를 "경고" 방어와 결합했을 때 공격 성공률이 94.6%에서 6.2%로 급감했다.

그림5. Advancing Gemini's security safeguards (출처: Deepmind)

개발자 생태계 확장: AI, 앱 개발의 핵심 동력으로

Apple은 개발자가 자체 앱에서 사용할 수 있도록 로컬 AI 모델을 서드파티 앱에 개방할 계획이다. SDK는 초기에는 Apple의 소규모 온디바이스 모델만 실행하며 클라우드 모델에는 접근할 수 없다.

OpenAI는 Responses API에 내장 도구 및 기능을 추가했다. 이 API는 이제 모든 원격 모델 컨텍스트 프로토콜(MCP) 서버와 이미지 생성, Code Interpreter, 파일 검색 개선과 같은 도구를 지원한다. 이러한 도구와 기능은 GPT-4o 계열, GPT-4.1 계열 및 o-시리즈 추론 모델을 지원하는 Responses API에서 사용할 수 있다. 더불어 OpenAI는 개발자가 26개 창의적 범주에 걸쳐 AI 기반 앱을 구축하는 커뮤니티 대회인 OpenAI to Z Challenge를 시작했다. 우승자는 2,500달러 상당의 API 크레딧을 받는다.

Meta는 Llama 모델을 사용하는 미국 초기 단계 스타트업을 지원하는 새로운 이니셔티브를 발표했다.

AI, 일상과 산업의 경계를 허물다

Google은 Android XR을 통해 스마트 글래스 분야에 다시 진출하며 AI를 통합하여 AR 글래스를 통해 실시간 시각 분석, 번역, 상황별 지원을 제공한다. 프로젝트 무한(Project Moohan), 프로젝트 아우라(Project Aura), Warby Parker 및 Gentle Monster와 같은 파트너의 소비자 AI 글래스가 순차적으로 나올 예정이다. Google Meet은 DeepMind의 오디오 언어 모델을 사용하여 실시간 음성 번역을 지원한다. 더불어 Google은 AI 연구 비서인 NotebookLM 앱을 안드로이드에 출시하며 첫 모바일
경험을 제공한다. 모바일 특정 기능으로 백그라운드 재생 및 오프라인 지원이 포함된다.

Perplexity는 PayPal과 파트너십을 맺고 미국 사용자가 플랫폼을 통해 직접 쇼핑할 수 있도록 했다.

2025년 Semantic Layer Summit은 시맨틱 레이어가 GenAI, 최신 BI 및 신뢰할 수 있는 의사 결정에 어떻게 기여하는지 탐구하기 위해 전문가들을 한자리에 모은다. 거버넌스 데이터 모델로 AI를 확장하고 도구 전반에 걸쳐 KPI를 재사용하며 혁신을 가속화하는 방법을 배울 수 있다.