[메타X(MetaX)] 구글 딥마인드가 고도화된 자율 연구 에이전트인 Gemini Deep Research를 개발자에게 공식 개방하며, 인공지능 기반 리서치 자동화의 패러다임을 한 단계 끌어올렸다.
구글은 2025년 12월 11일, Gemini Deep Research를 새로운 Interactions API를 통해 제공한다고 발표하는 한편, 복잡한 웹 연구 성능을 검증하기 위한 신규 벤치마크 DeepSearchQA를 오픈소스로 공개했다.

이번 발표는 생성형 AI가 단순한 질의응답 도구를 넘어, 장시간에 걸친 조사·분석·종합을 수행하는 ‘자율 연구원’으로 진화하고 있음을 보여주는 상징적 사건으로 평가된다. 구글 딥마인드는 Gemini Deep Research를 “장기적 맥락 수집과 고품질 종합 보고서 생성에 최적화된 에이전트”로 정의하며, 실제 연구·금융·과학 현장에서 즉각적인 생산성 향상을 만들어내고 있다고 설명했다.
Gemini Deep Research의 핵심은 추론 엔진에 있다. 해당 에이전트는 구글의 최신 고정확 모델인 Gemini 3 Pro를 기반으로 작동하며, 복잡한 과제 수행 과정에서 환각(hallucination)을 최소화하고 사실성을 극대화하도록 특화 학습됐다. 특히 다단계 강화학습을 검색(search) 영역에 확장 적용함으로써, 에이전트가 스스로 질의를 설계하고 결과를 분석하며 지식 공백을 찾아 재탐색하는 순환적 조사 과정을 수행한다는 점이 기존 AI 도구와의 가장 큰 차별점이다.
이번 버전에서는 웹 탐색 능력이 대폭 강화돼, 단순 요약 수준을 넘어 사이트 깊숙한 영역까지 탐색하며 특정 데이터와 근거를 정밀하게 수집할 수 있다. 구글은 이를 통해 Deep Research가 “사람 연구자가 수행하던 복잡한 조사 흐름을 자동으로 재현한다”고 설명했다.

성능 지표 역시 이를 뒷받침한다. Gemini Deep Research는 고난도 종합 추론 평가로 알려진 Humanity’s Last Exam(HLE) 전체 세트에서 46.4%를 기록하며 최고 수준의 성능을 달성했다. 또한 새롭게 공개된 DeepSearchQA에서는 66.1%, 웹 탐색 종합 벤치마크인 BrowseComp에서는 59.2%를 기록하며, 구글 내부 기준에서도 가장 뛰어난 연구 에이전트로 평가됐다. 구글은 이 같은 성능을 기존 대비 더 낮은 비용 구조로 구현했다는 점도 강조했다.
DeepSearchQA의 공개 역시 이번 발표의 중요한 축이다. 구글 딥마인드는 기존 벤치마크들이 현실 세계의 복잡한 웹 연구 과정을 충분히 반영하지 못한다고 판단해, 17개 분야에 걸쳐 900개의 ‘인과 체인(causal chain)’ 과제를 포함한 새로운 평가 체계를 설계했다. 이 벤치마크는 단일 정답을 맞히는 방식이 아니라, 에이전트가 얼마나 포괄적이고 누락 없이 정보를 수집·종합했는지를 평가한다는 점에서 기존 테스트와 근본적으로 다르다.
특히 DeepSearchQA는 에이전트에게 충분한 ‘생각 시간(thinking time)’을 허용했을 때 성능이 어떻게 달라지는지를 진단하는 도구로도 활용된다. 구글의 내부 실험에 따르면, 더 많은 탐색과 추론 단계를 허용할수록 성능이 유의미하게 개선되는 경향이 확인됐으며, 이는 향후 에이전트 설계 방향에도 중요한 시사점을 제공한다.

Gemini Deep Research는 이미 실제 산업 현장에서 활용 사례를 만들어내고 있다. 금융 분야에서는 초기 실사(due diligence) 과정의 자동화에 활용돼, 시장 신호 분석과 경쟁사 조사, 규제 리스크 파악을 수시간 내에 수행할 수 있게 했다. 벤처캐피털 GV의 파트너 KJ 시드베리는 “며칠이 걸리던 조사 주기가 품질 저하 없이 몇 시간으로 단축됐다”며, 이를 “전문가 군단을 즉시 투입하는 것과 같은 효과”라고 평가했다.
바이오·과학 분야에서도 반응은 유사하다. 독성 예측 AI를 개발하는 Axiom Bio는 Gemini Deep Research를 활용해 생의학 문헌 전반에서 전례 없는 수준의 초기 연구 깊이와 세밀함을 확보했다고 밝혔다. 공동창업자 알렉스 비트슨은 이 기술이 분자 기전에서 임상 결과에 이르는 복합 추론을 가능하게 하며, 더 안전한 신약 개발을 가속할 수 있는 기반이 된다고 설명했다.
개발자 관점에서 Gemini Deep Research의 가치는 ‘통합성’과 ‘제어 가능성’에 있다. 해당 에이전트는 PDF, CSV, 문서 파일과 웹 데이터를 동시에 분석할 수 있으며, 대규모 맥락 입력도 안정적으로 처리한다. 개발자는 프롬프트를 통해 보고서 구조와 출력 형식을 직접 설계할 수 있고, 모든 주장에 대해 세밀한 출처 인용을 제공받을 수 있다. 또한 JSON 스키마 기반 구조화 출력도 지원돼, 후속 애플리케이션과의 연계도 용이하다.
이 모든 기능은 새롭게 공개된 Interactions API를 통해 제공된다. 개발자는 Google AI Studio에서 발급받은 Gemini API 키를 활용해 Deep Research 에이전트를 자신의 서비스에 직접 통합할 수 있다. 구글은 향후 네이티브 차트 생성 기능과 모델 컨텍스트 프로토콜(MCP)을 통한 외부 데이터 소스 연동을 강화하고, 엔터프라이즈 환경을 위한 Vertex AI 연동도 추진할 계획이라고 밝혔다.
이번 Gemini Deep Research 공개는 AI가 ‘정보를 답하는 도구’에서 ‘연구를 수행하는 주체’로 전환되고 있음을 분명히 보여준다. 이는 지식 노동의 초기 단계 구조를 근본적으로 재편할 가능성을 내포하며, 특히 금융·과학·정책·시장 분석 등 고부가가치 영역에서 AI의 역할을 재정의하는 계기가 될 것으로 보인다.
[저작권자ⓒ META-X. 무단전재-재배포 금지]


































