AI 기술의 진화는 이제 ‘훈련의 시대’를 넘어 ‘추론의 시대’로 접어들고 있다. 불과 몇 해 전까지만 해도 인공지능 경쟁의 중심은 더 큰 모델을 더 빠르게 학습시키는 데 있었다. 그러나 지금의 초점은 모델이 실제 서비스를 얼마나 효율적으로, 얼마나 저비용·저전력으로 수행할 수 있는가에 맞춰지고 있다.
이 흐름의 방향을 가장 명확히 드러낸 사례가 바로 구글이 2025년 11월 공개한 차세대 칩 ‘Ironwood TPU’의 7세대 버전이다.
Ironwood는 구글이 직접 “추론의 시대(Age of Inference)”라는 표현과 함께 내세운 첫 번째 전용 TPU로, 대규모 언어모델의 학습뿐 아니라 실제 서비스 단계에서의 추론 처리까지 아우르는 인프라를 목표로 한다. 전작인 TPU v5p 대비 최대 10배, Trillium(v6e) 대비 4배 이상 성능이 향상되었으며, 하나의 팟(pod) 안에 최대 9,216개의 칩을 연결해 이론상 42.5 ExaFLOPS급 연산 능력을 구현한다. 이는 초당 42.5 경(10¹⁸ × 42.5) 회의 연산을 처리할 수 있다는 뜻이다.
이 칩은 고성능 HBM 메모리와 확장된 inter-chip 네트워크를 통해 수천 개의 칩을 하나의 슈퍼컴퓨터처럼 동작하게 설계되었다. 구글은 이를 통해 학습 중심의 AI 인프라를 서비스·응답 중심 구조로 전환하겠다는 의지를 드러냈다. 실제로 이번 발표는 Google Cloud Next 2025에서 이루어졌으며, 구글은 모델 훈련보다 수백 배 많은 연산량을 요구하는 추론 트래픽 증가에 대응하기 위한 필수 기반으로 Ironwood를 제시했다.
또한 구글은 Ironwood를 자사 모델인 Gemini뿐 아니라 외부 파트너인 Anthropic 등에도 제공할 계획을 밝혔다. 이는 AI 산업 전반이 단일 모델 경쟁에서 벗어나, 효율적이고 지속가능한 추론 인프라 구축을 중심으로 재편되고 있음을 상징한다.
Ironwood TPU의 진화 연대기 Ironwood TPU의 등장은 단일 제품 출시를 넘어, 구글이 지난 몇 년간 추진해온 AI 인프라 전략의 변곡점을 상징한다. 그 흐름은 2023년부터 시작된다.
먼저 2023~2024년 사이 구글은 Trillium TPU(v6e) 와 TPU v5p 를 잇따라 상용화하며, 주로 대규모 모델 ‘훈련(training)’ 에 최적화된 아키텍처를 발전시켰다. 이 시기까지 TPU는 학습 효율과 연산 밀도를 높이는 데 초점이 맞춰져 있었고, 클라우드 인프라의 핵심 경쟁력으로 자리 잡았다.
이후 2025년 4월 9일, 구글은 Google Cloud Next 2025 행사에서 새로운 7세대 칩 “Ironwood TPU” 를 공식 발표했다. 발표의 핵심 문구는 “Age of Inference(추론의 시대)”였다. 이는 AI 산업의 무게중심이 학습에서 추론 으로 이동하고 있음을 선언적으로 보여준 사건이었다. 이날 공개된 Ironwood는 이전 세대 대비 4배 이상 향상된 성능과 9,216 개 칩을 하나의 팟(pod)으로 묶을 수 있는 확장 구조를 강조하며, 사실상 슈퍼컴퓨터 급 AI 플랫폼의 시대를 예고했다.
그로부터 한 달 뒤인 2025년 5월, AI 기업 Anthropic 이 구글 클라우드와 ‘1 GW 급 컴퓨트 용량’에 이르는 대형 계약을 체결했다는 보도가 나왔다 (Reuters, Tom’s Hardware 등). 이는 Ironwood TPU를 기반으로 한 실제 추론 서비스 운용의 첫 사례로, 구글이 자체 칩을 외부 AI 기업에 대규모로 공급하는 전환점이었다.
2025년 연말에는 일반 기업 고객을 대상으로 Ironwood TPU의 베타 서비스가 Google Cloud 상에서 제공될 예정이다. 이는 고성능 AI 추론 인프라를 클라우드 형태로 민간 시장에 개방하려는 단계적 상용화 전략의 일환이다.
마지막으로 2026년에는 Ironwood와 함께 소개된 새로운 Axion VM 이 TPU 기반 클라우드 인프라에 통합될 예정이다. 이를 통해 구글은 AI 훈련과 추론, 데이터 처리 전반을 하나의 플랫폼으로 엮는 “AI 컴퓨트 플랫폼화” 전략을 완성하려 하고 있다. 결국 Ironwood TPU의 등장은 단순한 칩의 세대 교체가 아니라, AI 산업의 경제적 구조와 클라우드 생태계 자체를 재편하려는 장기 프로젝트의 출발점으로 볼 수 있다.
Ironwood, 연산에서 정치까지: AI 시대의 새로운 구조
Ironwood TPU는 AI 산업의 무게중심이 훈련(training) 에서 추론(inference) 으로 이동하고 있음을 단적으로 보여준다. 지금까지 AI 인프라는 주로 거대 언어모델을 학습시키는 데 필요한 GPU 자원 확보 경쟁에 초점이 맞춰져 있었다. 그러나 모델이 서비스 단계에 진입하면서, 실제 사용자 요청을 실시간으로 처리하는 추론 연산의 효율이 새로운 경쟁 기준으로 부상했다.
이제 산업의 핵심은 “얼마나 빨리 학습시키느냐”가 아니라 “얼마나 많은 요청을 안정적으로, 저전력으로 감당하느냐”로 옮겨가고 있다. Ironwood는 이러한 시대적 요구에 대응하기 위해 개발된 전용 추론용 칩 아키텍처로, 고성능과 전력 효율을 동시에 극대화하며 ‘AI 인프라 경쟁의 새로운 전장’을 열고 있다.
나아가, Ironwood의 등장은 구글이 AI 공급망을 완전히 내재화하려는 전략의 일환이다. 그동안 구글 역시 NVIDIA의 GPU 생태계에 크게 의존해왔으나, 이번 세대부터는 자체 칩(하드웨어)–모델(소프트웨어)–클라우드(인프라) 를 아우르는 수직 통합 스택을 구축하고 있다. 이는 단순한 비용 절감이 아니라, 장기적으로 AI 산업의 주도권을 외부 반도체 기업이 아닌 클라우드 플랫폼 내부로 되돌려 오려는 움직임이다. 특히 Anthropic과의 장기 파트너십 체결은 Ironwood를 외부 개발사에 개방하는 첫 사례로, “TPU 생태계의 확장”이자 “AI 플랫폼 독립”의 신호탄으로 평가된다. 이로써 구글은 자사의 TPU 인프라를 하나의 글로벌 표준 플랫폼으로 자리매김시키려는 전략적 포석을 두고 있다.
또한 현재 전 세계 AI 서비스 운영비의 70~80%가 추론 단계에서 발생하는 전력 및 하드웨어 비용에 집중되어 있다는 점을 고려하면, Ironwood는 경제적 전환점이기도 하다. 훈련은 일회성이지만, 추론은 매 순간 발생하는 반복 연산이기 때문에 전력 효율이 곧 서비스 지속 가능성을 결정한다. Ironwood가 제시한 42.5 ExaFLOPS급의 이론 성능은 단순한 속도의 과시가 아니라, 연산 단가(Compute per Dollar) 와 전력당 효율(Performance per Watt)을 동시에 개선하려는 구조적 혁신이다. 결국 Ironwood는 “AI의 진짜 경쟁은 전력”이라는 시대적 인식을 공식화한 칩이다.
이렇듯, AI 인프라는 이제 기술기업의 도구를 넘어 국가 산업기반으로 격상되고 있다. 미국 내에서는 Google, Amazon, Microsoft 등 빅테크들이 각자 독자적인 AI 연산 체계를 구축하며 ‘컴퓨트 주권(Compute Sovereignty)’ 경쟁을 벌이고 있다. 이는 단순한 기업 간 경쟁이 아니라, 데이터·전력·반도체·정책이 맞물린 새로운 지정학적 경쟁 구도로 확장되고 있다. Ironwood는 이런 맥락에서 구글의 기술·경제·정치적 독립 선언에 가깝다. 즉, 더 이상 외부 칩 제조사나 특정 GPU 생태계에 의존하지 않고, 자사 데이터센터 안에서 AI 국가 인프라급 성능을 구현하겠다는 의지의 표현이다.
‘모델의 시대’를 넘어 ‘인프라의 시대’로
Ironwood TPU의 등장은 AI 산업의 경쟁 구조 자체를 바꾸고 있다. 그동안 인공지능의 우위를 가르는 기준은 모델의 크기와 정확도였다. 그러나 OpenAI, Anthropic, Google, Meta 등 주요 기업들의 모델 성능이 일정 수준 이상으로 수렴하면서, 이제 차별화의 무게중심은 인프라의 효율성으로 이동했다. 앞으로의 경쟁은 “누가 더 많은 데이터를 학습시키느냐”가 아니라, “누가 더 많은 요청을, 더 낮은 비용과 전력으로 처리하느냐”를 가늠하는 싸움이 될 것이다.
이 변화는 곧 AI 칩 생태계의 재편을 의미한다. Ironwood의 출시는 NVIDIA가 장악해온 GPU 독점 구조를 흔들며, Google–Amazon–OpenAI–Anthropic 등 거대 기술 기업 간의 새로운 연합과 경쟁 구도를 촉발했다. 특히 추론 전용 칩 시장은 향후 AI 클라우드의 표준을 좌우할 가능성이 높다. 그 경쟁의 핵심은 더 이상 하드웨어 성능만이 아니라, 소프트웨어 최적화·데이터 전송 구조·냉각·전력 효율 등 전체 인프라 아키텍처의 완성도에 달려 있다. AI는 점차 하나의 통합적 시스템으로 진화하고 있으며, 연산 효율이 곧 서비스 품질이자 산업 경쟁력으로 직결되는 국면에 들어섰다.
이러한 흐름은 한국과 아시아 기업에도 직접적인 시사점을 던진다. 이제 AI는 단순한 소프트웨어 산업이 아니라, 전력·반도체·데이터센터를 포괄하는 국가 기반산업이 되었다. 삼성전자와 SK하이닉스는 AI 연산 구조에 최적화된 메모리·칩 설계로 대응해야 하고, 네이버클라우드나 KT·LGU+ 등은 에너지 효율과 냉각 기술을 중심으로 한 추론 인프라 투자를 강화해야 한다. 결국 AI 서비스의 질은 “얼마나 효율적으로 연산 자원을 확보하고 운용할 수 있는가”, 다시 말해 컴퓨트 접근성(compute accessibility) 에 의해 결정될 것이다.
Ironwood 이후의 경쟁은 모델의 우열이 아니라, AI 인프라를 하나의 경제 생태계로 설계할 수 있는가의 문제로 전환되고 있다.
AI는 더 이상 하나의 소프트웨어 기술이 아니다 Ironwood TPU의 등장은 그 사실을 상징적으로 보여준다. 이는 단순한 연산칩의 진화가 아니라, AI 경제 전체의 기반 구조를 다시 설계하려는 시도이기 때문이다. 오늘날 데이터센터는 19세기 철도처럼 산업의 동맥이 되었고, AI 칩은 그 위를 달리는 기관차처럼 새로운 가치 흐름을 움직인다.
이제 AI의 경쟁은 알고리즘이나 모델을 넘어, 전력·연산·정책·산업이 맞물린 ‘컴퓨트 정치학’의 영역으로 확장되고 있다.
AI 인프라를 누가 설계하고, 통제하며, 공유할 것인가가 미래의 권력 지형을 결정할 것이다.
Ironwood는 그 새로운 시대의 서막을 알리는 장치이자, '기술이 곧 정치가 되는 순간'을 보여주는 상징이다.
[METAX = 김하영 기자]
[저작권자ⓒ META-X. 무단전재-재배포 금지]


































