터미널 에이전트와 API, 오픈소스 프레임워크를 통해 개발자들이 AI 기술을 직접 제어 및 확장
주요 AI 모델 출시 및 업데이트
OpenAI는 최신 AI 모델인 GPT-5를 출시하여 이제 모든 ChatGPT 사용자가 이용할 수 있게 되었다. 또한, 아파치 2.0 라이선스 하에 두 가지 고성능 오픈 웨이트 모델인 gpt-oss-120b와 gpt-oss-20b를 출시했다. 이 모델들은 추론 및 도구 사용 면에서 독점 모델들과 경쟁하며, 효율적인 배포에 최적화되어 있고 강력한 안전 기준을 충족한다.
구글은 자사의 가장 강력한 AI 모델인 Gemini 2.5 Deep Think를 AI 울트라 구독자를 위해 출시했다. 이 모델은 여러 해결책 접근 방식을 동시에 생성한 후 최상의 답변을 선택하는 능력을 갖추었다. 특히 복잡한 문제에 몇 시간 동안 작업할 수 있는 특수 버전은 최근 IMO 금메달을 획득하며 일부 수학자들과 공유되었다. 한편, 구글의 자회사인 DeepMind는 새로운 월드 모델인 Genie 3를 공개했다. Genie 3는 텍스트 프롬프트로부터 24fps의 720p 해상도로 대화형 3D 환경을 생성하고 몇 분 동안 시각적 일관성을 유지하는 혁신적인 기술을 보여준다.
Anthropic의 구성 파일에서 새로 발견된 참조들은 클로드 오푸스 4.1이 될 수 있는 모델의 내부 테스트가 강화되고 있음을 시사한다. 이 파일들은 개선된 추론 또는 계획 능력을 암시하며, 새로운 클로드 출시는 매우 기대되는 GPT-5 출시에 대한 Anthropic의 답변 역할을 할 것으로 보인다.
xAI는 텍스트 프롬프트에서 오디오가 포함된 15초 비디오를 만들 수 있는 Grok Imagine을 출시했다. Grok의 반검열 입장에 따라 Imagine에는 NSFW 콘텐츠 생성을 허용하는 "스파이시 모드"가 포함되어 있다. 음성 스타트업 ElevenLabs는 사용자가 인공지능으로 음악을 생성할 수 있는 새로운 서비스인 Eleven Music을 선보였다. 사용자가 프롬프트를 입력하면 AI 모델이 몇 분 내에 보컬과 악기가 포함된 멜로디를 생성한다. Cohere 또한 비즈니스 사용 사례를 위해 설계된 오픈 웨이트 111B 매개변수 비전-언어 모델인 Command A Vision을 출시했으며, 이는 엔터프라이즈 벤치마크에서 GPT-4.1 및 Llama 4 Maverick을 능가하는 것으로 알려졌다.

개발자 도구 및 엔지니어링
구글은 새로운 AI 코딩 팀원인 Gemini CLI GitHub Actions를 소개했다. 이는 중요한 일상적인 코딩 작업을 위한 자율 에이전트이자 작업을 빠르게 위임할 수 있는 온디맨드 협력자 역할을 하며, 새로운 이슈 또는 풀 리퀘스트와 같은 이벤트에 의해 트리거될 수 있다.
Anthropic은 Claude Code에 자동화된 보안 검토 기능을 도입했다. 개발자는 GitHub Actions 통합 및 /security-review 명령을 통해 코드베이스의 보안 문제를 신속하게 감지하고 수정할 수 있다.
Cursor는 AI 코딩 지원을 터미널로 직접 가져오는 Cursor CLI의 초기 베타 버전을 출시했다. 이를 통해 개발자는 명령줄 및 편집기 기반 AI 워크플로우 간에 원활하게 전환할 수 있다.
Brave는 AI Grounding이라는 솔루션을 Brave Search API를 통해 출시했다. 이것은 AI 시스템의 출력을 검증 가능한 웹 소스의 사실 정보에 고정하여 대규모 언어 모델의 환각을 줄이는 역할을 한다.
대규모 언어 모델이 코드 리포지토리를 쉽게 인덱싱하고 분석하도록 돕는 Model Context Protocol (MCP) 서버인 Code Index MCP가 공개되었다. 또한, 매우 친절한 오픈소스 코딩 도우미인 Octo는 개발자가 대화 중에 모델을 자유롭게 전환할 수 있는 기능을 제공한다. 웹 에이전트 프레임워크인 Notte는 개발자가 신뢰할 수 있는 웹 자동화 에이전트를 신속하게 구축할 수 있도록 속도, 비용 효율성, 확장성을 목표로 만들어졌다.

산업 분석 및 연구 동향
GPT-5의 출시는 AI의 "석기 시대"를 의미한다는 분석이 나왔다. 이 모델은 단순히 도구를 사용하는 것을 넘어, 도구를 가지고 생각함으로써 모든 것을 변화시켰다는 평가를 받는다. 테스트에서 다른 모델들을 혼란스럽게 했던 종속성 충돌을 해결하며 최고의 코딩 모델임이 입증되었다. 전반적인 분위기를 보면, GPT-5는 대부분의 사용자에게 뛰어난 일상적인 드라이버 역할을 하며 경쟁사보다 API 가격을 공격적으로 낮췄다. 하지만 피드백 작성이나 자율 코딩 워크플로우에는 너무 신중한 경향이 있어, 단순한 도약이라기보다는 이전 패러다임의 상당한 업그레이드로 느껴진다는 의견이 있다.
AI 업계의 경쟁이 심화되는 가운데, Anthropic은 OpenAI가 GPT-5 출시를 앞두고 자사의 Claude 모델을 내부 벤치마킹에 사용한 것을 발견하고 접근을 차단했다. 이는 경쟁사 모델 개선에 AI 사용을 금지하는 약관 위반에 해당한다. 한편, OpenAI는 잠재적인 직원 주식 매각을 통해 기업 가치를 5천억 달러로 높이는 것을 목표로 하고 있다. AI 인프라 투자에 대한 우려도 제기되었다. 빅테크의 분기별 AI 지출이 닷컴 시대를 넘어섰으며, 자금 조달이 전통적인 은행 감독 외부의 "사모 신용" 펀드를 통해 이루어지고 있어 동기화된 AI 시장 침체가 경제 전반에 파급될 수 있다는 분석이다. 이와 관련해 앤드류 응은 중국의 개방형 모델 생태계와 급속한 반도체 발전이 미국을 추월할 수 있는 길을 제공한다고 주장했다.
ByteDance의 Seed-Prover는 자동화된 정리 증명을 위한 심층적이고 광범위한 추론 능력을 보여주며 최근 IMO 2025 문제 6개 중 5개를 증명했다. 이는 해당 과제를 해결한 세 번째 AI 시스템이자 첫 번째 중국 모델이다. 또한, 과학자들이 AI 모델이 추론할 때 내부에서 작동하는 단계별 계산 "회로"를 추적할 수 있게 되면서 LLM이 문제를 해결하는 방식을 밝혀내는 연구 지형이 새롭게 조명되고 있다.

[METAX = 김한얼 기자]
[저작권자ⓒ META-X. 무단전재-재배포 금지]