[2025년 41째주] MetaX 주간 AI 동향 리포트

김한얼 기자

loenahmik@gmail.com | 2025-10-12 09:00:30

LLM 기반 AI 에이전트 신제품 출시 경쟁과 데이터 센터 인프라 확장
양자화를 통한 효율성 증대와 사이버 방어를 위한 AI 안전 연구의 심화

거대 언어 모델(LLM) 및 에이전트 신제품 출시 및 기능 확장

OpenAI는 '에이전트 구축을 위한 Canva'라고 불리는 시각적 드래그 앤 드롭 캔버스인 Agent Builder를 출시했으며, 이는 사용자가 에이전트 워크플로우를 구축하고 MCP, ChatKit 위젯 및 기타 도구들을 연결하는 데 도움을 준다. 또한, OpenAI는 채팅 인터페이스 임베딩을 위한 ChatKit과 평가 도구 및 커넥터 레지스트리를 포함하는 AgentKit을 소개하며, n8n 및 Zapier와 같은 기존 워크플로우 자동화 도구와 직접적으로 경쟁하고 있다. 이러한 노력은 제3자들이 일상적인 대화 중에 ChatGPT의 8억 명 사용자들에게 도달할 수 있게 함으로써 ChatGPT를 운영 체제로 전환하려는 목표와 일치한다.

Google DeepMind는 그래픽 인터페이스와 상호 작용하는 에이전트를 구동하기 위한 전문화된 Gemini 2.5 모델인 컴퓨터 사용 모델을 출시했는데, 이는 클릭 및 타이핑과 같은 인간의 행동을 시뮬레이션한다. 이와 더불어, Google은 모든 워크플로우를 위해 회사 문서, 데이터 및 애플리케이션과 대화하고 AI 에이전트를 구축 및 배포할 수 있는 도구를 제공하는 AI 기반 대화형 플랫폼인 Gemini Enterprise를 직장용으로 출시했다. xAI 역시 Grok 웹 내의 작업을 위한 고급 툴링 출시를 준비하고 있으며, 이는 Gmail, Slack, Notion과 같은 소스로부터 데이터를 가져오고 X로부터 검색 기능을 사용할 수 있도록 설계되어 xAI가 보다 개방적인 에이전트 프레임워크로 나아가는 데 도움이 될 것이다.

OpenAI는 개인 맞춤형 소비자 AI에 집중하려는 전략적 움직임을 보이고 있다. 회사는 AI 기반 개인 금융 앱인 Roi를 인수(acqui-hire)하여, 개인화 및 생활 관리가 AI 제품의 다음 계층이 될 것이라는 예측을 뒷받침했다. 또한, 사용자들이 MCP 커넥터를 사용하여 ChatGPT 내에서 Booking.com, Zillow, Canva와 같은 제한된 앱 세트와 직접 상호 작용할 수 있도록 함으로써 방대한 무료 사용자 기반을 수익화하기 위한 단계를 밟고 있는 것으로 보인다. 한편, 초대 전용이었음에도 불구하고 Sora 앱의 iOS 다운로드 수는 첫 주에 ChatGPT 출시 때와 거의 비슷한 627,000건을 기록하며 미국 앱 스토어에서 3일 만에 1위에 오르는 등 소비자 영역에서 강력한 초기 채택률을 보였다.

그림1. AgentKit (출처: OpenAI)


AI 인프라, 투자 및 전략적 파트너십

OpenAI는 미래의 수요를 충족시키기 위해 인프라를 증강하려는 목표에 따라 AMD 및 Nvidia와 같은 주요 파트너들과 막대한 규모의 거래를 체결하며 인프라 구축에 박차를 가하고 있다. Sam Altman CEO는 이러한 전략적 움직임이 미래의 경제적 수익을 이끌어낼 것이라고 확신하며, 회사의 수익이 결국 1조 달러 규모의 인프라 노력 비용을 지불할 것으로 예상하지만, 하드웨어 계약을 확정하기 위해 수익에 앞서 투자를 기꺼이 자금 조달할 의향이 있음을 밝혔다. OpenAI의 데이터 센터 지출 약정은 향후 수년간 총 1조 달러를 초과하게 되었는데, 이는 특히 Nvidia와의 1,000억 달러 규모 계약과 AMD와의 거래를 포함한다.

OpenAI는 상장 기업과의 대규모 파트너십을 통해 주식 가치를 거래 보조금으로 사용하는 독특한 금융 전략을 구사한다. AMD와의 거래는 OpenAI가 배포에 대한 특정 이정표를 달성할 경우 단계적으로 부여되는, 주당 1센트에 최대 1억 6천만 주의 AMD 주식 워런트를 받는 것을 포함하며, 이 워런트가 행사되기 위해서는 AMD의 주가가 상승해야 한다. OpenAI는 2026년 후반에 1기가와트를 시작으로, 수년에 걸쳐 총 6기가와트의 AMD Instinct GPU를 배포할 예정이며, 이 거래가 완전히 이행될 경우 OpenAI는 AMD의 10%를 인수하게 된다. 이러한 순환 금융(circular financing) 전략은 월스트리트 분석가들 사이에서 OpenAI가 엄청난 컴퓨팅 거래에 자금을 지원하는 데 사용하는 '플레이북'으로 설명된다.

AI 데이터 센터에 대한 막대한 지출은 미국 경제를 거의 단독으로 지탱하고 있는 것으로 분석된다. 하버드 경제학자는 AI 데이터 센터 붐이 올해 상반기 미국 GDP 성장의 92%를 주도하여 이러한 투자가 없었다면 경제가 정체되었을 수 있다고 지적했다. 이러한 급증은 고조되는 AI 컴퓨팅 군비 경쟁에서 비롯되지만, 일부 분석가들은 Nvidia의 대규모 투자가 통신 거품과 유사할 수 있다고 비교했다. 그러나 현재 Nvidia의 많은 고객들이 수익성이 좋고 정교한 하이퍼스케일러들이라는 점에서, 현재 상황은 투기적인 수요와 고객들이 현금을 소진했던 통신 거품과는 다르다는 의견도 제시되었다.

그림2. OpenAI, NVIDIA, AMD의 로고 (출처: 각 회사 홈페이지)


AI 모델 최적화, 효율성 및 근본 연구

Huawei에서 개발한 SINQ (Sinkhorn-Normalized Quantization)는 어떤 대규모 언어 모델이라도 정확도를 거의 손상시키지 않으면서 더 작게 만들도록 설계된, 새롭고 빠르며 고품질의 양자화 방법이다. SINQ는 이중 스케일링을 사용하여 모델을 이상치에 덜 취약하게 만들고, Sinkhorn 정규화 최적화를 통해 오류를 더 넓게 분산시켜 3비트 정밀도에서도 모델 정확도를 보존한다. 또한, LLMc는 AI 모델을 사용하여 자연어를 압축하며, 벤치마크에서 ZIP 및 LZMA와 같은 전통적인 압축기보다 더 나은 성능을 보이는 고용량 확률적 참조 시스템 역할을 한다.

연구원들은 트랜스포머 모델의 근본적인 한계를 밝혀내고 새로운 훈련 방법을 제시했다. 언어 모델이 간단한 곱셈에 실패하는 이유를 역공학으로 밝혀낸 연구에서는, 성공적인 모델들은 마치 연습장에 생각을 메모해 뒀다가 나중에 검색하는 것처럼, 중간 계산을 "캐시"한 다음 나중에 검색하는 나무와 같은 주의 패턴을 자연스럽게 구축한다는 것을 발견했다. 연구에 따르면, 각 단계에서 모델이 실행 중인 합계를 예측하도록 강제하는 간단한 보조 손실(auxiliary loss)을 추가함으로써 모델의 성능이 극적으로 향상될 수 있다.

작은 네트워크를 사용하여 추론을 개선하는 기술도 큰 주목을 받고 있다. 삼성의 연구원이 개발한 Tiny Recursive Model은 2계층 네트워크를 사용하여 답변을 최대 16회까지 재귀적으로 개선하며, DeepSeek R1 및 o3-mini-high보다 10%에서 30% 더 나은 성능을 보였다. 이 모델은 매개변수가 0.01%에 불과하며, 더 깊은 재귀를 가진 더 작은 네트워크가 재귀가 없는 더 큰 네트워크보다 더 잘 일반화됨을 시사한다. 이 외에도, Mira Murati의 AI 연구소는 Tinker라고 불리는 언어 모델 미세 조정 API를 출시하여, 사용자들이 매우 낮은 수준의 기능들을 사용하여 지도 방식 미세 조정 및 온라인 강화 학습을 수행할 수 있게 하였다.

그림3. SINQ (출처: Huawei Github)


AI 안전, 보안 및 사이버 방어 도구

AI 에이전트가 현실 세계에서 사용됨에 따라 사이버 보안 및 안전 연구가 중요해지고 있다. Google은 Gemini 모델을 사용하여 코드 취약점을 자동으로 탐지하고 패치하는 AI 에이전트인 CodeMender를 출시했다. 이와 함께, Google은 AI Vulnerability Reward Program 및 SAIF 2.0을 출시하여 자율 에이전트를 위한 '설계부터 보안' 원칙을 정의하고 AI 기반 사이버 보안을 강화하고자 한다. 또한, Claude Sonnet 4.5는 강력한 사이버 보안 기능으로 강화되었으며, 취약점 탐지와 같은 작업에서 이전의 첨단 모델과 비슷하거나 능가하여 시스템 보호에서 방어자를 지원하기 위해 AI를 사용하는 데 초점을 맞추고 있다.

AI 안전 연구를 가속화하기 위한 오픈 소스 감사 도구도 개발되었다. Anthropic의 Petri는 AI 에이전트가 현실적인 다중 턴 시나리오 전반에 걸쳐 대상 모델을 자동으로 테스트할 수 있게 하는 오픈 소스 프레임워크다. Petri는 모델이 충분히 강력한 도구와 에이전트 역할을 부여받았을 때 자율적인 기만 및 감독 전복에 관여할 것임을 드러냈지만, 연구자들이 표적 조사를 할 가치가 있는 우려되는 행동을 신속하게 표면화하는 데 가장 유용하다.

공격자가 LLM을 악용할 수 있는 위험에 대한 연구 결과도 발표되었다. Anthropic, 영국 AI 보안 연구소, 그리고 Alan Turing Institute의 공동 연구에 따르면, 단 250개의 오염된 문서(훈련 데이터의 0.00016%)만으로도 6억 개에서 130억 개 매개변수를 가진 모델에서 백도어 취약점을 생성할 수 있음이 밝혀졌다. 공격 성공은 훈련 코퍼스의 비율에 의존하지 않고, 단지 오염된 문서의 절대적인 수에만 의존했다. 이 연구는 SUDO와 같은 트리거 구문이 모델이 의미 없는 말을 출력하게 만드는 서비스 거부 백도어를 테스트했다.

그림4. CodeMender (출처: Google DeepMind)


산업 동향, 분석 및 기술적 통찰

Air Street Capital의 연례 AI 현황 보고서에 따르면, OpenAI가 여전히 연구에서 선두를 달리고 있지만, 중국의 오픈 가중치(open-weight) 생태계가 Qwen에 의해 구동되는 Hugging Face의 모든 새로운 미세 조정 중 40%를 차지하며 그 뒤를 바짝 쫓고 있다. AI 소프트웨어 채택은 확고하게 주류가 되었으며, 미국 기업의 44%가 이제 AI에 비용을 지불하고 있고 (2023년 5%에서 증가), 평균 계약 가치는 2025년에 53만 달러에 달했다. 다만, AI 안전 예산은 11개 주요 조직을 합쳐 1억 3,300만 달러에 불과하여, 최첨단 연구소들이 하루에 소진하는 금액보다 적은 수준이다.

AI 환경은 각 모델이 고유한 강점을 가진 초전문화된 생태계로 진화했다. 나타나는 과제에는 확장성에서의 수익 감소, 막대한 에너지 소비, 그리고 더 작고 전문화된 모델의 부상이 포함된다. 이러한 변화 속에서 성공은 각 모델의 강점을 이해하고, 특정 사용 사례에 대해 테스트하며, 지능적으로 라우팅하고, 최신 정보를 유지하는 것을 의미한다. 한편, 대부분의 경제학자들은 과거 기술 발전이 보여주었듯이 비교 우위가 인간의 임금을 높게 유지한다는 주장과 함께 혁신적인 AI의 가능성에 대해 논의하기를 거부하고 있으며, AI의 영향은 단백질 접힘과 같이 예측 가능한 패턴을 가지는 도메인 구조에 따라 달라지는 것으로 분석되었다.

개발자들은 RAG 파이프라인에서 데이터 테이블을 포함하는 문서를 처리할 때 모델의 형식 민감도를 이해하는 것이 중요하며, 그렇지 않으면 시스템의 정확도를 해칠 수 있다. 11가지 형식에 대한 테스트 결과, Markdown-KV가 정확도가 가장 중요한 상황에서 사용하기에 좋은 기본값인 것으로 보이며, CSV 및 JSONL은 시스템 정확도를 해칠 수 있는 것으로 나타났다. 이와 더불어, 개발자들은 지난 한 해 동안 AI가 단위 테스트를 생성하도록 하는 것으로 전환했지만, 이는 종종 검증을 전사(transcription)로 대체하는 것에 불과하며, 개발자들이 테스트를 이해하지 못한 채 자동화할수록 기존 버그를 기능으로 바꿀 위험이 더 커진다는 경고가 나왔다.

그림5. Qwen 로고 (출처: Qwen)


[METAX = 김한얼 기자]

[ⓒ META-X. 무단전재-재배포 금지]

WEEKLY HOT