Microsoft, AI 추론칩 ‘Maia 200’ 공개

이든 기자

metax@metax.kr | 2026-02-05 07:00:00

AI 추론 비용 구조를 다시 설계하다
하이퍼스케일러 실리콘 경쟁의 분기점

[메타X(MetaX)]Microsoft가 자체 설계한 AI 추론 전용 가속기 Maia 200을 공식 공개했다.

마이아 200은 대규모 언어모델의 학습이 아닌 ‘추론(inference)’에 최적화된 칩으로, AI 토큰 생성 비용을 획기적으로 낮추는 것을 목표로 설계됐다. 마이크로소프트는 이를 통해 AI 인프라 경쟁의 초점을 “누가 더 큰 모델을 학습하느냐”에서 “누가 더 싸고 효율적으로 추론하느냐”로 이동시키겠다는 전략을 분명히 했다.

마이아 200은 TSMC의 3나노 공정으로 제작된 마이크로소프트 최초의 본격적인 하이퍼스케일러 자체 실리콘이다. 칩 하나에 1,400억 개 이상의 트랜지스터가 집적됐으며, FP8·FP4 저정밀 연산을 네이티브로 지원하는 텐서 코어를 중심으로 설계됐다. 특히 추론에 최적화된 메모리 구조가 핵심이다.

216GB 용량의 HBM3e 메모리를 7TB/s 대역폭으로 연결하고, 272MB에 달하는 온칩 SRAM과 데이터 이동 전용 엔진을 결합해 대규모 모델이 연산 대기 없이 지속적으로 데이터를 공급받도록 했다.

[메타X(MetaX)] https://blogs.microsoft.com/blog/2026/01/26/maia-200-the-ai-accelerator-built-for-inference/

마이크로소프트는 성능 비교에서도 강한 자신감을 드러냈다. 마이아 200은 FP4 기준 성능에서 아마존의 3세대 Trainium 대비 약 3배 수준이며, FP8 성능에서도 구글의 7세대 TPU를 상회한다고 밝혔다. 여기에 더해, 현재 마이크로소프트가 운영 중인 최신 하드웨어 대비 토큰 생성 기준 성능 대비 비용 효율이 약 30% 개선됐다고 설명했다. 이는 단순한 최고 성능 경쟁이 아니라, “얼마나 싸게 추론을 제공할 수 있는가”라는 현실적인 질문에 대한 답변이라는 점에서 의미가 크다.

마이아 200은 마이크로소프트의 이기종 AI 인프라 전략의 핵심 축으로 배치된다. 이 칩은 OpenAI의 최신 GPT-5.2 계열 모델을 포함해 다수의 대규모 모델 추론에 사용되며, Microsoft Foundry와 Microsoft 365 Copilot 전반에 성능 대비 비용 우위를 제공하는 역할을 맡는다. 또한 사내 슈퍼인텔리전스 팀은 마이아 200을 활용해 합성 데이터 생성과 강화학습을 수행하며, 차세대 자체 모델 개선에도 활용할 계획이다.

특히 합성 데이터 파이프라인에서 마이아 200의 설계 철학이 분명히 드러난다. 마이크로소프트는 추론 가속이 단순한 응답 속도 개선을 넘어, 고품질·도메인 특화 데이터를 빠르게 생성하고 필터링해 학습 단계로 다시 공급하는 선순환 구조를 만든다고 설명했다. 이는 추론과 학습의 경계를 흐리며, 인프라가 모델 성능 개선의 직접적 수단이 되는 구조다.

시스템 차원에서도 마이아 200은 기존 가속기와 다른 접근을 택했다. 전용 독점 패브릭 대신 표준 이더넷 기반의 2단계 스케일업 네트워크를 도입하고, 커스텀 전송 계층과 NIC를 결합해 성능과 신뢰성을 확보했다. 각 가속기는 양방향 2.8TB/s의 전용 스케일업 대역폭을 제공하며, 최대 6,144개 가속기까지 예측 가능한 집단 연산 성능을 유지할 수 있도록 설계됐다. 이는 전력 소모와 총소유비용(TCO)을 동시에 낮추기 위한 선택이다.

마이크로소프트는 실리콘 설계 초기부터 소프트웨어와 데이터센터를 함께 설계하는 방식을 택했다. 실제 칩이 나오기 전부터 LLM의 연산·통신 패턴을 정밀하게 시뮬레이션하는 사전 환경을 구축해, 칩·네트워크·시스템 소프트웨어를 하나의 덩어리로 최적화했다. 그 결과 첫 패키지 실리콘 도착 후 며칠 만에 실제 AI 모델을 구동했고, 첫 실리콘에서 데이터센터 랙 배치까지 걸린 시간도 기존 AI 인프라 프로젝트 대비 절반 이하로 줄었다고 밝혔다.

마이아 200은 현재 미국 아이오와주 디모인 인근의 US Central 데이터센터에 배치됐으며, 애리조나주 피닉스 인근 US West 3 지역이 뒤를 잇는다. 향후 다른 지역으로도 순차 확대될 예정이다. 마이크로소프트는 동시에 마이아 SDK 프리뷰를 공개해, PyTorch 연동, Triton 컴파일러, 저수준 프로그래밍 언어, 시뮬레이터와 비용 계산 도구까지 포함한 개발 환경을 제공하기 시작했다.

마이크로소프트는 마이아 200을 단발성 제품이 아닌 다세대 실리콘 로드맵의 출발점으로 규정했다. AI 규모 확장의 시대에 결국 경쟁력을 결정하는 것은 모델만이 아니라 인프라라는 판단이다. 마이아 200의 등장은 하이퍼스케일러 간 AI 경쟁이 ‘누가 더 똑똑한 모델을 만들었는가’에서 ‘누가 더 싸고 안정적으로 AI를 운영할 수 있는가’로 이동하고 있음을 상징적으로 보여준다.

Microsoft, AI 추론칩 ‘Maia 200’ 공개

WEEKLY HOT