아마존, 웹 탐색 가능한 AI 에이전트 ‘Nova Act’ 공개
김하영 기자
hashe@metax.kr | 2025-04-03 06:00:00
2025년 3월 31일, 아마존은 샌프란시스코에 있는 '아마존 AGI SF 연구소'를 통해 새로운 인공지능 에이전트 'Nova Act'를 공식 발표했다.
Amazon 'Nova Act'란?
단순한 대화형 챗봇을 넘어, 사용자의 지시에 따라 웹사이트를 탐색하고 클릭하며, 정보를 입력하거나 상품을 구매할 수 있는 '행동형 AI(Agentic AI)'이다.
예를 들어, 사용자가 "블루투스 이어폰을 찾아서 가장 저렴한 걸 장바구니에 담고, 필요 없는 보험 옵션은 제거한 뒤 결제해줘"라고 요청하면, Nova Act는 실제 웹 브라우저에서 이를 수행한다. 이는 생성형 AI의 다음 단계로, 실제로 디지털 공간에서 '행동'하는 인공지능이라는 점에서 기술 업계의 주목을 받고 있다.
'Nova Act'의 특징
Nova Act는 강화학습 기반의 AI 아키텍처를 바탕으로, 복잡한 다단계 작업을 순차적으로 이해하고 실행할 수 있도록 설계되었다. 실제 사용자의 웹 브라우징 행동을 모방해 마우스 클릭, 스크롤, 양식 입력 등 다양한 작업을 자동으로 수행할 수 있다. 이러한 자동화 기능은 단순한 명령 수행을 넘어, 상황에 따라 다양한 UI 요소를 해석하고 판단하여 의사결정을 내릴 수 있는 수준으로 진화하고 있다.
텍스트뿐 아니라 이미지, 버튼, 드롭다운 메뉴 등 다양한 시각적 정보를 인식하고 해석하는 멀티모달 처리 능력도 Nova Act의 강점 중 하나이다. 예를 들어, 사용자의 명령이 추상적일지라도 해당 웹페이지 구조를 이해하고 명령을 재해석해 그에 맞는 행동을 취할 수 있다.
성능 측면에서도 Nova Act는 두각을 나타내고 있다. AI가 얼마나 정확하게 지시된 작업을 수행하는지를 평가하는 테스트인 'ScreenSpot Web Text 벤치마크'에서 Nova Act는 약 94%의 정확도를 기록했다. OpenAI의 Computer Use Agent(CUA)가 기록한 88%, Anthropic의 Claude 3.7 Sonnet이 기록한 90%보다 높은 수치다.
또한 아마존은 Nova Act를 외부 개발자와 기업이 활용할 수 있도록 SDK(소프트웨어 개발 키트)와 API를 제공할 계획이다. 이를 이용하면, 누구나 Nova Act의 기능을 활용한 자체 에이전트를 구축하거나, 자사 플랫폼에 통합하는 방식으로 생태계를 확장할 수 있다는 뜻이다.
'Nova Act'의 차별점
경쟁사 대비 가장 큰 차별점은 Nova Act의 실행 중심 아키텍처에 있다. OpenAI의 GPT-4 Turbo 브라우저 플러그인, Anthropic의 Claude 웹 인터페이스, Adept의 Action Transformer 기반 모델이 특정 작업을 보조하는 수준에 그치는 반면, Nova Act는 실제 사용자의 브라우징 행동을 모방해 '탐색하고, 선택하고, 실행하는' 능동적 행위까지 수행한다. 이는 단순한 정보 검색을 넘어 실질적 디지털 행위 대리인으로서의 가능성을 열고 있다.
또한 아마존은 Nova Act를 단순한 기술 시연용 모델이 아닌, 자사 생태계와 긴밀히 통합 가능한 범용 AI 에이전트로 정의하고 있다. 전자상거래 플랫폼부터 시작해 음성비서 Alexa, 클라우드 인프라 AWS에 이르기까지 아마존의 다양한 서비스는 서로 유기적으로 연결되어 있으며, Nova Act 또한 이들 시스템에 자연스럽게 녹아들 수 있도록 설계되어 있기 때문이다.
이는 이미 방대한 디지털 생태계를 구축하고 있는 아마존이라 가능한 일이다. Nova Act는 이러한 생태계 안에서 독립적인 도구가 아니라, 사용자 경험의 전반을 매끄럽게 연결하는 ‘지능형 연결 조직(AI glue)’ 역할을 하도록 만들어졌다. 예를 들어, 사용자가 Alexa를 통해 음성 명령을 내리면 Nova Act는 그 명령을 해석한 후 아마존 쇼핑 페이지에서 관련 상품을 탐색하고 구매 절차까지 자동으로 수행할 수 있다. 또한 이러한 작업은 AWS 기반 서버에서 실행되며, 향후 기업 고객을 위한 커스터마이징도 가능해진다.
더불어 아마존은 Nova Act가 상업적 서비스에 활용되는 만큼, 사용자 보호와 투명성을 핵심 가치로 설정하고 있다. 이를 위해 워터마킹 기술, 행동 로그 기록, 작업 단계별 피드백 제공 등 다양한 신뢰 기반 기술을 병행 적용하고 있으며, 사용자가 AI의 행동을 명확히 추적하고 통제할 수 있도록 설계하고 있다.
'Nova Act'의 미래
AI 기술은 이제 단순한 텍스트 생성의 수준을 넘어, 실제 디지털 공간에서 인간을 대신해 '행동'하는 방향으로 진화하고 있다. Nova Act는 이러한 패러다임 전환의 시작점이자, 아마존의 AGI 전략을 구체화하는 상징적 프로젝트로 주목받고 있다. 특히 SDK 제공을 통한 외부 생태계 연동과 B2B 협업의 확장 가능성은 Nova Act의 실용성과 파급력을 더욱 확대시키고 있다.
업계에서는 Nova Act가 단순히 내부 서비스 자동화에 머무르지 않고, 업무 자동화, 사용자 접근성 향상, 커스터머 서비스 개선 등 다양한 영역에 응용될 수 있다는 점에 주목하고 있다. 실제로 사용자의 손과 눈을 대신해 온라인 상의 복잡한 절차를 수행할 수 있다는 점에서, Nova Act는 기존의 챗봇이나 보조 AI를 넘어선 '행동형 AI 에이전트'로 평가된다.
전문가들은 Nova Act가 아마존 생태계를 넘어 다양한 제3자 플랫폼 및 서비스와도 연계될 수 있을 것으로 전망하며, 이는 AI 에이전트 기술이 산업 전반의 인터페이스 구조와 사용자 경험을 재정의하는 계기가 될 수 있다고 말한다. 또한 Nova Act는 단순한 기술 진보가 아닌, 실생활 적용성, 투명성, 신뢰성 등을 검증할 수 있는 중요한 테스트베드로서의 역할도 수행할 것으로 기대된다.
향후 상용화가 본격화되면, 'AI가 클릭하고 행동하는' 자동화 시장은 지금보다 훨씬 더 현실적이고 확장된 형태로 구현될 가능성이 크며, 이는 사용자 경험의 새로운 전환점을 만들어낼 수 있다.
AI가 '말하는' 시대를 넘어 '행동하는' 시대로 접어든 지금, Nova Act는 그 흐름의 중심에 서 있다.
METAX / 김하영 기자 hashe@metax.kr
[ⓒ META-X. 무단전재-재배포 금지]