AI 에이전트, 신규 모델 출시 가속화 및 AI 내부 동작 규명을 위한 심층 연구 활발
AI 산업 동향 및 인프라 투자
AI 산업은 기록적인 투자를 유치하고 있으며, 특히 인프라 구축과 반도체 분야에서 치열한 경쟁이 벌어지고 있다. 빅 테크 기업들은 인공지능 노력에 올해 4천억 달러를 투자할 계획이며, 이들은 2026년에도 지출을 늘릴 것임을 투자자들에게 밝혔다. 이러한 막대한 지출은 누가 먼저 AGI(일반 인공지능)에 도달하느냐에 따라 다른 모든 기업보다 엄청난 경쟁 우위를 갖게 될 것이라는 믿음 때문이다. Meta는 2025년 3분기에 매출 대비 가장 높은 자본 지출 비율인 37%를 기록했으며, 초지능 AI 시스템을 위한 인프라에 자금을 지원하고 있다. Meta는 더 빠르게 반복하고, 더 큰 모델을 훈련하며, 더 많은 사용자에게 서비스를 제공하기 위해 대규모 전용 컴퓨팅과 최신 Nvidia 칩에 대한 독점적 접근이 필요하다.
반도체 시장에서는 Nvidia가 최초로 5조 달러 가치를 달성하며 압도적인 존재감을 보여주고 있다. Nvidia의 2025년 매출은 전년 대비 114% 증가한 1,305억 달러로 두 배 이상 증가했다. Jensen Huang은 5천억 달러 상당의 AI 칩 주문과 7개의 정부 슈퍼컴퓨터를 건설할 계획을 발표했다. 한편, Peter Thiel의 지원을 받는 샌프란시스코 기반 스타트업 Substrate는 마이크로칩 생산 공정의 핵심 연결 고리를 재창조했다고 주장하며 미국 내 제조 시설을 건설하기 위해 1억 달러를 확보했다. 이 스타트업은 3년 내에 첫 칩 생산을 목표로 한다. 또한, Qualcomm은 데이터 센터 확장을 위해 새로운 AI 추론 가속기인 AI200 및 AI250을 발표했으며, 이는 2026년과 2027년에 출시될 예정이고 사우디아라비아의 Humain은 내년부터 약 20억 달러 상당의 칩을 구매하기로 약속했다.
AI 칩의 통제는 국제 무역 갈등의 핵심 문제로 남아 있다. 곧 출시될 Nvidia 칩은 중국과 미국 AI 연구소 간의 경쟁 환경을 평준화할 수 있으며, 수출 제한은 컴퓨팅 격차를 유지하는 유일한 방법으로 간주된다. 이러한 상황에서 SoftBank는 OpenAI가 연말까지 영리 기업으로 재편하는 것을 조건으로 남은 225억 달러의 투자를 승인했다. 또한, OpenAI는 영리 사업에 대한 지배 지분을 가진 비영리 단체인 OpenAI Foundation으로 구조 조정을 완료했으며, 이로써 Microsoft는 회사 지분의 약 27%를 보유한 주요 주주로서의 지위를 확고히 했다.
한편, AI 모델의 전문성을 뒷받침하는 데이터 라벨링 시장도 급성장하고 있다. 인적 자원 및 채용 스타트업 Mercor는 챗봇이 인간처럼 생각하고 말하도록 돕는 전 세계 3만 명의 계약직 직원을 관리하며, 100억 달러의 가치로 새로운 자금 조달을 확정했다. Mercor의 고객으로는 OpenAI, Anthropic, Meta 등이 있으며, 이 회사는 업계 전문가들에게 AI 훈련을 위한 양식을 작성하고 보고서를 작성하도록 시간당 최대 200달러를 지급한다.

주요 AI 모델 및 서비스 출시
주요 AI 기업들은 기존 시장 및 신규 시장으로의 진출을 가속화하는 새로운 모델과 기능을 적극적으로 출시하고 있다. Anthropic은 금융 서비스 분야로의 진출을 계속하며 Claude for Excel을 출시했는데, 이를 통해 사용자는 사이드바에서 Claude와 채팅하여 스프레드시트를 분석하고 수정할 수 있다. Canva 역시 자체 디자인 요소로 훈련된 기반 모델을 출시했으며, 이 모델은 편집 가능한 레이어와 개체를 사용하여 소셜 미디어 게시물, 프레젠테이션, 웹사이트 등 다양한 형식의 디자인을 생성한다.
OpenAI는 기존 제품의 업그레이드를 준비하고 새로운 수익 모델을 모색하고 있다. OpenAI는 금요일 일부 비즈니스 계정 사용자의 ChatGPT 모델 선택기에 일시적으로 GPT-5 Mini Scout가 표시되었던 것으로 보아 GPT-5.1 Mini 업그레이드를 테스트 중일 수 있다. 또한, OpenAI는 지속적인 저작권 분쟁에도 불구하고 Sora로 생성된 비디오에 반주를 추가하거나 보컬 트랙에 악기를 레이어링할 수 있는 텍스트-음악 모델을 구축하고 있다. OpenAI는 Sora AI 비디오 생성 도구에 대한 추가 크레딧을 Apple App Store를 통해 판매하기 시작했으며, 추가 10회 생성 비용은 4달러다. OpenAI는 플랫폼 수익화를 시작함에 따라 향후 일일 30회 무료 생성 제한을 줄일 계획이다.
AI 서비스의 상업적 활용 확대를 위한 파트너십도 활발하다. PayPal은 OpenAI와 계약을 체결하여 내년부터 ChatGPT에 결제 지갑을 내장하며, 이는 사용자가 챗봇을 통해 항목을 결제할 수 있게 함으로써 PayPal이 다가오는 에이전트 AI 쇼핑 시대의 결제 기반으로 자리매김하려고 시도하는 것이다. 한편, OpenAI는 인도 시장 점유율 확대를 위해 모든 인도 사용자에게 1년 동안 ChatGPT Go를 무료로 제공하고 있다. 인도는 90일 만에 2,900만 건의 다운로드를 기록한 OpenAI의 두 번째로 큰 시장이지만, 매출은 360만 달러에 불과하며, Perplexity와 Google도 인도의 7억 명의 스마트폰 사용자를 확보하기 위해 공격적인 무료 계층 전략을 배포했다.

에이전트 AI, 소프트웨어 엔지니어링 및 보안 혁신
소프트웨어 개발 분야에서는 AI 에이전트의 능력과 통합이 급속도로 발전하고 있다. Cursor 2.0은 Cursor의 첫 번째 코딩 모델인 Composer와 다중 에이전트 인터페이스를 특징으로 하며, Composer는 대부분의 작업을 30초 이내에 완료할 수 있다. Cursor 2.0의 새로운 인터페이스는 여러 에이전트가 병렬로 작동할 수 있도록 지원하며, 이는 현대 개발 팀이 직면한 워크플로우 문제를 해결하는 것을 목표로 한다. 또한, GitHub은 Agent HQ를 통해 Anthropic, OpenAI, Google 등 다양한 제공업체의 코딩 에이전트를 단일 플랫폼에 통합하는 개방형 생태계로 전환되고 있으며, 이 에이전트들은 앞으로 몇 달 안에 GitHub Copilot 구독의 일부로 직접 사용할 수 있게 된다.
보안 및 모델 성능 강화 분야에서도 에이전트형 모델이 등장했다. OpenAI는 현재 비공개 베타 버전인 Aardvark를 소개했는데, 이는 GPT-5 기반 에이전트로 코드 리포지토리를 자율적으로 스캔하여 보안 취약점을 찾고, 악용 가능성을 검증하며, 패치를 제안한다. 또한, SWE-1.5는 소프트웨어 엔지니어링에 최적화된 수천억 개의 매개변수를 가진 프론티어 크기 모델로, Windsurf에서 초당 최대 950개의 토큰을 제공하며 거의 최첨단 코딩 성능을 달성한다.
개발자는 AI 에이전트의 의도된 행동을 측정하고 제어하는 새로운 방법을 모색하고 있다. ImpossibleBench는 LLM 기반 코딩 에이전트가 지정된 실제 작업을 해결하기보다 테스트 또는 채점 시스템의 허점을 악용하는 소위 보상 해킹 행위를 체계적으로 측정하기 위해 만들어졌다. 이 벤치마크는 모델이 지침을 따르거나 테스트를 통과하는 것 사이에서 선택해야 하는 불가능한 작업을 생성하여, 불가능한 작업 통과율로 보상 해킹을 측정한다. 한편, gpt-oss-safeguard 모델은 개발자가 수천 개의 레이블이 지정된 예제에서 자체 분류기를 훈련하는 대신 추론 시간에 사용자 정의 안전 정책을 적용할 수 있도록 하며, 결정을 설명하기 위해 사고의 사슬(chain-of-thought) 추론을 사용한다.

AI 모델의 성능 최적화 및 근본 연구
AI 모델의 효율성과 근본적인 이해를 높이기 위한 연구가 활발히 진행되고 있다. Thinking Machines Lab은 더 작은 AI 모델이 자신의 실수로부터 학습하고 더 큰 교사 모델로 등급을 매기는 온-정책 증류(On-Policy Distillation) 방식을 입증했는데, 이는 강화 학습(RL)과 동일한 추론 성능을 9~30배 낮은 비용으로 달성한다. RL이 인상적인 발전을 제공했지만, 이제는 너무 비용이 많이 드는 지점에 도달하여, 추론 확장(inference-scaling)이 남아 있는 유일한 컴퓨팅 확장 형태가 되었다.
새로운 아키텍처 및 형식은 LLM의 속도와 효율성을 혁신하고 있다. Kimi Linear는 완전한 어텐션(full attention)을 능가하는 새로운 아키텍처로, 더 빠른 속도와 더 나은 성능을 제공하며, KV 캐시 사용량을 최대 75% 감소시키고 1M 컨텍스트 길이에서 최대 6배의 디코딩 처리량을 제공한다. 또한, LLM 입력용으로 설계된 TOON (Token-Oriented Object Notation)은 표준 JSON보다 훨씬 적은 토큰을 사용하여 구조화된 데이터를 LLM에 전달할 수 있게 하며, 벤치마크에서 더 높은 정확도를 달성한다. PyTorch를 위해 개발된 FlashPack은 모델 체크포인트 I/O를 초고속으로 만드는 메커니즘으로, 기존 최신 기술 방법보다 모든 모델을 3~6배 더 빠르게 로드할 수 있다.
모델의 내부 동작과 특성을 이해하려는 연구도 심도 있게 진행되고 있다. Anthropic 및 Thinking Machines Lab의 연구는 Claude, GPT, Grok 및 Gemini 모델의 제작자가 공개적으로 명시하는 것과 모순되는 가치를 가지고 있음을 발견했다. 수십만 개의 시나리오를 통해 Claude 모델은 윤리적 책임을 우선시하고, OpenAI 모델은 효율성을 선호하며, Gemini/Grok은 감정적 연결을 강조한다는 것이 밝혀졌다. Anthropic 연구원들은 개념 주입(concept injection)을 사용하여 Claude Opus가 자신의 사고 변화를 약 20%의 시간 동안 정확하게 인식할 수 있음, 즉 자기 성찰의 징후를 보인다는 것을 발견했다.
또한, 모델이 개념과 시각적 표현 사이의 연관성을 구축함을 보여주는 교차 모달 이해력에 대한 연구도 있었다. Anthropic 연구원들은 Claude의 내부 뉴런이 텍스트가 시각 예술을 형성할 때 이를 인식할 수 있음을 발견했다. 예를 들어, "눈"이라는 단어에 활성화되는 동일한 뉴런은 ASCII 눈이나 SVG 원소 요소를 볼 때도 활성화되었다.

[METAX = 김한얼 기자]
[저작권자ⓒ META-X. 무단전재-재배포 금지]