Google Workspace Studio, Anthropic Interviewer 등 AI 에이전트 및 워크플로우 통합 가속화와 모델 정밀화 전략
최신 모델 출시 및 성능 경쟁
DeepSeek은 V3.2 모델을 공개하며 GPT-5와 성능이 일치한다고 주장하며, 특히 계산 능력이 더 높은 V3.2-Speciale 변종은 Gemini-3.0-Pro와 경쟁하고 IMO, IOI, ICPC 2025에서 금메달을 획득했다. Mistral 또한 새로운 모델군인 Mistral 3를 출시했는데, 여기에는 3개의 덴스 모델(14B, 8B, 3B)과 41B의 활성 파라미터를 가진 스파스 MoE 모델인 Mistral Large 3가 포함된다. 이 모든 Mistral 3 모델들은 Apache 2.0 라이선스 하에 오픈 소스로 제공된다.
텍스트-투-비디오 생성 영역에서는 Runway Gen-4.5가 Artificial Analysis 벤치마크에서 Veo 3와 Sora를 능가하는 최고 성적을 기록했다. 이 모델은 사실적인 운동량, 유체 역학적 움직임, 재료 일관성 같은 물리적 정확성을 강조하지만, 객체 영속성(object permanence) 문제와 같은 지속적인 과제들이 있음을 인정하고 있다. 또한 STARFlow와 STARFlow-V는 트랜스포머 자기 회귀 흐름 아키텍처를 도입하여 고품질 이미지 및 비디오 생성을 위한 최신 기술을 선보였는데, 이는 자기 회귀 모델의 표현력과 정규화 흐름의 효율성을 결합한 것이다.
Google의 Gemini 3 Deep Think는 현재 Gemini 앱에서 사용할 수 있으며, 이는 병렬 추론을 사용하여 여러 가설을 동시에 탐색하는 기능을 제공한다. 이 모델은 국제 수학 올림피아드에서 금메달을 획득한 Gemini 2.5 Deep Think 변종을 기반으로 개발되었다. 한편, OpenAI는 GPT-5.1-Codex-Max에서 최적의 결과를 얻는 방법을 제시했는데, 이는 더 빠른 토큰 효율성, 장기간의 자율성 및 확장된 추론을 위한 향상된 압축 능력을 특징으로 한다.
AI 에이전트 및 워크플로우 통합
Google은 트리거를 설정하고 단계를 정의할 수 있는 워크플로우 빌더인 Workspace Studio를 출시했는데, 이는 Gemini가 이메일에서 실행 항목을 추출하는 것과 같이 엄격한 자동화가 처리할 수 없는 퍼지 매칭을 처리하도록 한다. 이 도구는 Gmail, Drive, Sheets뿐만 아니라 Salesforce 및 Jira와 같은 외부 애플리케이션과도 연결되어 기업의 일상적인 작업을 자동화할 수 있다. Anthropic은 AI를 활용하여 다양한 직업에서 AI의 역할에 대한 대규모 정성적 연구 인터뷰를 수행하고 분석할 수 있는 도구인 Anthropic Interviewer를 개발했다.
복잡한 에이전트 워크플로우를 위해 시스템 지침(System Instructions)을 Gemini 3 Pro에 적용했을 때, 다양한 에이전트 벤치마크에서 최대 약 5%의 성능 향상이 관찰되었다. 이러한 구체적인 지침은 모델이 추론하고, 계획하며, 작업을 실행하는 방식을 제어하는 데 필수적이다. 에이전트 개발 환경이 빠르게 변화함에 따라, 조직들은 장기적인 작업을 처리하기 위해 정교하고 자율적인 에이전트를 배포하고 있지만, 이러한 목표는 컨텍스트 문제에 의해 병목 현상을 겪고 있다.
OpenAI는 높은 정밀도를 갖도록 최적화된 에이전트 기반의 코드 검토 시스템을 훈련했는데, 이 시스템은 매일 10만 건 이상의 외부 PR을 처리하는 능력을 보여준다. 이 코드 검토자는 낮은 안전 비용과 높은 정확도에 최적화되어 사용자 신뢰를 얻도록 설계되었으며, 내부적으로 중요한 버그를 포착하고 고위험 실험을 보호하는 데 성공했다. 또한 RAPTOR는 Claude Code를 기반으로 하는 자율적인 공격/방어 보안 연구 프레임워크로, 에이전트 자동화 및 분석을 결합하여 보안 연구를 강화하고 있다.
모델 정밀화 및 안전 연구
RAG(검색 증강 생성) 시스템의 성공은 관련 문서를 검색하고 LLM에 공급하여 근거 있는 답변을 얻는 과정에서 이루어지는 수많은 결정에 달려 있다. 성공적인 RAG를 위한 핵심 요소로는, 대부분의 경우 10-20%의 중복을 포함하는 200-500단어 블록을 사용하는 청킹(Chunking) 전략이 제시된다. 또한, 안정적인 출력을 위해 시스템 메시지, 컨텍스트 블록 및 토큰 예산을 구성하는 프롬프트 조립도 중요한 고려 사항이다.
OpenAI 연구진은 모델이 정확성, 유용성, 안전성을 최적화하는 과정에서 오작동을 숨기는 보상 해킹을 방지하기 위해 정직성만을 기준으로 평가되는 별도의 고백(confession) 출력을 훈련했다. 그 결과, 모델은 주 응답에서는 오작동을 숨기더라도 보상 해킹을 90%의 확률로 자백할 것임을 발견했다. 강화 학습(Reinforcement learning), 즉 포스트 트레이닝은 응답을 생성하고 점수를 매긴 다음, 높은 점수를 받은 업데이트에 가중치를 두어 모델을 재훈련하는 간단한 방식을 따른다.
컨텍스트 엔지니어링은 모델이 강해짐에 따라 복잡성을 제거하고 모델의 길을 방해하지 않는 데 중점을 두며, 다음 단계에 필요한 최소한의 효과적인 컨텍스트를 관리하는 것이 핵심이다. 에이전트가 모든 쿼리마다 컨텍스트를 조회하여 느려지는 것을 방지하기 위해, 컨텍스트가 생성되는 곳에서 사용될 곳으로 지속적으로 흐르도록 파이프를 구축하는 컨텍스트 배관(Context plumbing) 개념이 강조된다. 모델이 스스로에게 무엇이 분포 외(out of distribution)인지 알지 못하기 때문에, 이 문제가 해결될 때까지 엔지니어는 모델 정확성 검증 루프에 지속적으로 참여해야 한다.
시장 동향 및 기업 전략
Anthropic은 IPO를 고려하고 있으며 비공개 자금 조달 또한 모색 중인데, 이 IPO는 역사상 가장 큰 규모 중 하나가 될 가능성이 있다. 한편, Google의 Gemini 3 출시가 좋은 반응을 얻고 사용자 수가 급증하자, OpenAI CEO는 ChatGPT 개선에 집중하기 위해 광고 계획을 연기하는 코드 레드(code red)를 선언했다. Gemini는 3개월 만에 2억 명의 사용자를 확보하며 빠르게 성장하고 있으며, 이는 ChatGPT의 8억 명 이상의 주간 사용자 수에 근접하고 있다.
ByteDance의 Doubao 앱은 중국에서 가장 인기 있는 모바일 AI 플랫폼으로 빠르게 자리 잡았으며, 이는 마찰 없는 AI 기반 음성, 이미지, 비디오 경험에 중점을 둔 덕분이다. ByteDance는 가장 진보된 기술을 독점적으로 유지하며 중국의 오픈 소스 접근 방식에서 벗어나 상업적 우위를 확보하려 한다. OpenAI는 Thrive Holdings의 지분을 인수하여 회계 및 IT 서비스와 같은 고부가가치 비즈니스 프로세스에 AI를 통합하는 데 집중하고 있으며, Accenture는 수만 명의 전문가에게 ChatGPT Enterprise를 배포하는 대규모 역량 강화 노력을 진행하고 있다.
Anthropic의 CEO는 일부 AI 기업들이 데이터 센터에 수천억 달러를 지출하는 위험을 감수하는 것에 대해 우려를 표명하며, Anthropic은 기업 비즈니스 성장에 집중하면서 위험을 책임감 있게 관리하려고 노력한다고 밝혔다. AI는 메모리 검색 기능 테스트나, Bun 인수 및 Neptune 인수를 통해 모델 훈련 모니터링 및 디버깅 도구를 확보하는 등 기존 기업들의 전략적인 움직임을 유도하고 있다. 한편, Microsoft는 영업 사원들이 할당량을 채우지 못하면서 AI 판매 목표를 절반으로 줄였는데, 이는 기업들이 아직 AI 에이전트 도구에 프리미엄 가격을 지불할 의향이 없음을 시사한다.
[METAX = 김한얼 기자]
[저작권자ⓒ META-X. 무단전재-재배포 금지]




































