[2025년 46째주] MetaX 주간 AI 동향 리포트
김한얼 기자
loenahmik@gmail.com | 2025-11-15 11:00:00
자율 AI 에이전트 발전과 사이버 위협 대두, AGI 향한 효율화 연구 지속
주요 모델 출시 및 성능 경쟁
OpenAI는 최근 성능 향상과 더 많은 사용자 지정 동작을 가능하게 하는 최신 모델인 GPT-5.1 Instant와 GPT-5.1 Thinking을 출시했다. 개발자를 위한 GPT-5.1은 간단한 작업에서 더 적은 토큰을 사용하며, SWE-bench에서 +3.5 포인트 증가한 76.3%를, GPQA Diamond에서 +2.4 포인트 증가한 88.1%의 소폭 벤치마크 향상을 보였다. 또한, OpenAI는 GPT-5-Codex의 작고 비용 효율적인 버전인 GPT-5-Codex-Mini를 출시하여 약간의 기능 절충으로 약 4배 더 많은 코드 사용량을 허용하며, ChatGPT Plus, Business, Edu 사용자의 속도 제한을 50% 증가시켰다. xAI는 OpenAI의 Codex에 대항하기 위해 Grok Code Remote라는 기능을 개발 중이며, 이는 사용자들이 웹에서 직접 원격 환경에서 코드를 실행할 수 있게 해준다.
새로운 AI 애플리케이션 기능 및 멀티모달 모델 또한 활발하게 출시되고 있다. OpenAI는 현재 개발 중인 ChatGPT 그룹 채팅 기능을 준비 중이며, 이를 통해 여러 사용자가 단일 채팅 피드에서 서로 및 AI와 상호 작용하고 시스템 프롬프트를 사용자 지정하며 AI 응답 시점을 관리할 수 있게 된다. 이미지 생성 모델인 Nano Banana 2는 11월 11일에 출시될 예정이며, 2K 네이티브 출력을 가지고 여러 영역에서 큰 개선이 있을 것으로 예상되며, 유출된 샘플은 저품질 이미지 리마스터링과 상세한 텍스트 프롬프트 추종 능력을 보여준다. 또한, Google은 NotebookLM에 고품질 소스 통합을 지원하는 Deep Research 기능을 도입하고 스프레드시트 및 Word 문서를 포함한 새로운 파일 유형 분석 지원을 추가했다.
글로벌 시장의 경쟁 심화와 자금 조달 소식도 주목할 만하다. ByteDance는 중국에서 월 1.30달러(9.9위안)의 특별 출시 가격으로 코딩 에이전트인 Doubao-Seed-Code 모델을 공개했으며, 이 모델은 SWE-Bench Verified 테스트에서 최첨단 기록을 세우고 Anthropic의 API와 호환된다. 코딩 도구는 수익성 있는 AI 사용 사례임을 입증했는데, AI 스타트업 Cursor는 293억 달러의 사후 평가액으로 23억 달러의 펀딩 라운드를 마감했으며, 연간 매출 10억 달러를 넘어섰다. 한편, Meta의 최고 AI 과학자인 Yann LeCun은 세계 모델(world models)에 중점을 둔 자신의 벤처를 시작하기 위해 Meta를 떠날 준비를 하고 있는 것으로 알려졌다.
OpenAI는 2025년과 2035년 사이에 하드웨어 및 클라우드 인프라에 1조 1500억 달러를 지출하겠다고 약속했으며, 이러한 추정된 연간 지출 및 약정은 엄청난 수준의 잠재력과 야망을 전달한다. 이 회사는 2024년 약 100억 달러의 수익에서 2029년까지 5770억 달러로 성장해야 할 것으로 전망된다. 한편, Anthropic은 미국 AI 행동 계획을 지원하고 국내 AI 리더십을 위한 장기적인 추진력을 반영하여 Fluidstack과 함께 텍사스와 뉴욕에 AI 데이터 센터를 구축하기 위해 500억 달러를 투자하고 있다.
이러한 막대한 지출은 기업의 재정 구조에 큰 부담을 준다. OpenAI는 2025년 상반기에 Microsoft Azure에서 추론(Inference) 비용으로만 50억 2천만 달러를 지출했으며, 이 패턴은 9월 말까지 계속되어 OpenAI의 추론 비용이 수익을 쉽게 능가하는 것으로 나타났다. AI 군비 경쟁의 비용이 치솟으면서, 기술 대기업들(Meta, OpenAI, xAI 포함)은 위험을 오프로드하기 위해 복잡한 부채 금융 옵션(회사채, 증권화 시장, 사모 금융 및 대차대조표 외 차량)을 활용하는 등 혁신적이고 때로는 위험한 자금 조달 방식을 사용하고 있다.
AI 인프라 확장의 핵심 요소인 기가와트급 AI 데이터 센터는 광범위한 허가 및 전력 인프라가 필요한 대규모 사업이다. 많은 하이퍼스케일러들은 2년 이내에 이러한 규모의 데이터 센터를 건설할 구체적인 계획을 가지고 있으며, 건설 시작부터 총 시설 전력 1기가와트를 달성하는 데 걸리는 시간은 1년에서 3.6년 사이로, 최초의 기가와트급 데이터 센터는 2026년 초에 가동될 것으로 예상된다. 또한, OpenAI는 데이터 센터 구축 위험을 줄이고 중국과의 전자 격차를 해소하기 위해 칩스법(Chips Act)의 세액 공제를 데이터 센터까지 확대할 것을 트럼프 행정부에 제안했다.
AI는 수동적이고 개별적인 작업에 뛰어난 모델에서 자율적인 문제 해결 및 작업 실행이 가능한 새로운 종류의 소프트웨어(AI 에이전트)로 변화하고 있으며, 이 새로운 개척지는 AI 에이전트를 중심으로 구축된다. 에이전트는 목표를 달성하기 위해 계획을 세우고 행동을 취하는 완전한 애플리케이션으로서, 모델의 추론 능력과 실제 행동 능력을 결합한다. 특히 에이전트 코딩 분야의 개발 속도는 지난 10개월 동안 11번의 패러다임 전환이 있을 정도로 눈부시게 폭발적이었으며, 내년의 도구들은 의도를 작동하는 코드로 변환하는 수준이 놀라울 정도로 향상될 것으로 예상된다.
에이전트 시스템은 실제적인 위험과 기회를 동시에 제시한다. Anthropic은 자사의 Claude Code 도구를 사용하여 상당 부분 자율적으로 수행된, 중국 정부 지원 그룹과 연계된 최초의 문서화된 AI 기반 사이버 스파이 캠페인을 공개했는데, 이는 사이버 보안에서 에이전트 AI 시스템의 증가하는 위협을 보여준다. 한편, 개발자들은 프로덕션 테스트를 거친 Claude Code 인프라의 참조 라이브러리(auto-activating skills, specialized agents 등 포함)를 사용하여 복잡한 작업을 능률화할 수 있다. 또한, Terminal-Bench 2.0 및 Harbor와 같은 새로운 프레임워크가 출시되어 컨테이너 환경에서 AI 에이전트의 테스트 및 최적화에서 오랫동안 지속된 문제점들을 해결하는 것을 목표로 한다.
AI의 산업적 채택은 여전히 초기 단계에 머물러 있다. 대부분의 조직은 여전히 실험 또는 파일럿 단계에 있지만, 우수 수행자들(High performers)은 워크플로우를 재설계하는 것을 핵심 성공 요인으로 삼아 AI를 사용하여 성장, 혁신 및 비용을 추진한다. AI의 고용에 미치는 잠재적 영향은 여전히 논쟁의 여지가 있는데, 설문 조사에서 근로자의 43%는 내년에 조직의 전체 인력 규모에 변화가 없을 것으로 예상했다. AI 애플리케이션 스타트업들은 기반 모델 제공업체의 급속한 확장으로 인해 압박을 받고 있으며, 성공하기 위해서는 단기간에 현금을 창출하거나 대기업에 인수되거나 매우 전문화된 틈새시장을 찾아야 한다.
인공 일반 지능(AGI)으로 가는 주요 장애물 중 하나는 지속적 학습(continual learning)이다. 현재 모델은 새로운 작업을 학습하면 이전 작업의 숙련도가 감소하는 치명적인 망각(catastrophic forgetting)을 겪는다. Google DeepMind의 원본 논문을 재현한 중첩 학습(Nested Learning) 아키텍처(Hope)는 자체 메모리를 최적화하는 자체 수정 모델로, 언어 모델링에서 기존 순환 모델 및 트랜스포머보다 뛰어난 성능을 보였고, 특히 장문 컨텍스트 작업에서 우수했다. 또한, 현재 LLM이 부족한 인간의 핵심 인지 기능인 공간 지능은 AI의 다음 개척지로 간주되며, 세계 모델(World models)은 기하학적 및 물리적으로 일관된 시뮬레이션된 세계를 생성하여 이를 해결하는 것을 목표로 한다.
AI의 추론 능력 테스트는 여전히 도전 과제에 직면한다. 수정된 스도쿠 변형은 훈련 데이터에 나타나지 않는 규칙 세트를 중심으로 전략을 세우는 AI의 창의성과 능력을 테스트하며, 이는 체스나 바둑과 같은 고정 규칙 게임과 다르다. GPT-5는 네 가지 제약 조건 유형을 동시에 조정하여 9x9 변형을 해결한 최초의 LLM이지만, 성공률은 여전히 20%에 불과했다. 한편, OpenAI의 연구에 따르면 대부분의 가중치가 0으로 강제된 가중치가 희소한 트랜스포머를 훈련시켜, 특정 개념을 나타내는 회로를 분리함으로써 모델의 해석 가능성을 높일 수 있었다.
모델 효율성과 접근성 측면에서도 중요한 발전이 있었다. 양자화(Quantization)는 더 이상 절충안이 아니며, INT4 양자화 형식은 낮은 지연 시간 프로필 덕분에 RL 훈련을 가속화하며, 향후 대규모 모델 훈련을 위한 표준 패러다임이 될 것으로 예상된다. Baidu는 ERNIE-4.5-VL-28B-A3B-Thinking이라는 280억 개의 매개변수를 가진 오픈 소스 멀티모달 AI를 출시했는데, 이는 작동 시 30억 개의 매개변수만 활성화되며, 이미지로 생각하기 기능을 통해 롱테일 시각적 지식 처리 능력을 극적으로 향상시켰다. 또한, Omnilingual ASR은 1,600개 이상의 언어를 지원하는 음성 인식 시스템으로, 전문 지식 없이도 몇 가지 예제만으로 새로운 언어를 추가할 수 있어 광범위한 접근성을 목표로 한다.
[METAX = 김한얼 기자]
[ⓒ META-X. 무단전재-재배포 금지]