Microsoft Maia 200 (微软第二代 AI 推理加速器)

产品概述

Microsoft Maia 200 是微软于 2026年1月26日 发布的第二代自研 AI 加速器，专为超大规模 AI 推理打造。采用台积电 3nm 制程，集成超过 1,400 亿晶体管，单芯片 FP4 算力超过 10 PFLOPS，FP8 算力超过 5 PFLOPS。首次在微软自研芯片中引入原生 FP8/FP4 张量核心，并搭载 216GB HBM3e 内存和 7TB/s 超高带宽。

定位：Maia 200 是微软首个性能最高的自研硅芯片，也是 Azure 部署过的性价比最高的推理系统——相比 Azure fleet 中的最新一代硬件，每美元性能提升 30%。

核心规格

项目	参数
架构	Maia 200 SoC（Tile-Cluster-SoC 三级分层架构）
制程	TSMC 3nm（N3P）
晶体管数	超过 1,400 亿
FP4 算力	10+ PFLOPS（原生张量核心）
FP8 算力	5+ PFLOPS（原生张量核心）
HBM 类型	HBM3e
HBM 容量	216 GB
HBM 带宽	7 TB/s
片上 SRAM	272 MB
Scale-up 带宽	2.8 TB/s（单加速器双向）
TDP	750 W
集群规模	最多 6,144 个加速器
网络	基于标准以太网的两层 scale-up 网络
发布时间	2026年1月26日
首发部署	美国爱荷华州得梅因附近（US Central）
后续部署	美国亚利桑那州凤凰城附近（US West 3）

架构细节

Tile-Cluster-SoC 三级分层架构

Tile（瓦片）：基本计算单元，包含张量核心、SRAM、DMA 引擎
Cluster（集群）：多个 Tile 通过片上网络（NoC）连接，共享 L2 SRAM
SoC（系统级芯片）：多个 Cluster 通过全局 NoC 连接，外接 HBM3e 和高速网络

内存子系统优化

针对窄精度数据类型优化：FP4/FP8 数据宽度小，内存带宽是关键瓶颈
专用 DMA 引擎：高带宽数据传输，减少 CPU 干预
272MB 片上 SRAM：存储热点权重和激活值，减少 HBM 访问次数
专用片上网络（NoC）：高带宽、低延迟的片上通信

扩展网络设计

基于标准以太网：无需依赖专有网络架构（如 NVIDIA NVLink）
两层 scale-up 网络：通过自定义传输层和紧密集成的 NIC 实现
统一 Maia AI 传输协议：节点内、机架内、机架间的无差别通信，最小化网络跳数
支持最多 6,144 个加速器集群：可实现可预测的、高性能的集合通信操作

与竞品对比

指标	Maia 200	AWS Trainium 3	Google TPU v7	NVIDIA H200
FP4 算力	10+ PFLOPS	~3.3 PFLOPS	~5 PFLOPS（估算）	1.98 PFLOPS
FP8 算力	5+ PFLOPS	~6.6 PFLOPS	~5 PFLOPS	1.97 PFLOPS
HBM 容量	216 GB	128 GB（估算）	192 GB	141 GB
HBM 带宽	7 TB/s	~3.5 TB/s（估算）	~4 TB/s	4.8 TB/s
制程	TSMC 3nm	TSMC 4nm（估算）	TSMC 4nm	TSMC 4NP
集群规模	6,144	16,384（Trn2 UltraCluster）	9,216（Ironwood）	576（NVL576）
每美元性能	+30%（vs Azure 上一代）	—	—	—

关键优势：Maia 200 的 FP4 性能是 AWS Trainium 3 的 3 倍，FP8 性能超过 Google TPU v7。

Azure 部署与生态

首发部署区域

US Central（美国爱荷华州得梅因附近）：2026年1月起
US West 3（美国亚利桑那州凤凰城附近）：即将部署
未来扩展：更多 Azure 区域将陆续部署

支持的工作负载

OpenAI GPT-5.2 系列：为 Microsoft Foundry 和 Microsoft 365 Copilot 提供算力
微软超智能团队：用于合成数据生成和强化学习，优化下一代自研模型
合成数据管道：独特设计加速高质量、领域特定数据的生成和过滤

Maia SDK（预览版）

Triton 编译器：针对 Maia 200 架构优化的内核编译
PyTorch 支持：无缝迁移现有 PyTorch 模型
NPL 低级编程语言：细粒度控制需求
Maia 模拟器和成本计算器：在代码生命周期早期优化效率

能效与 TCO

指标	Maia 200	Azure 上一代硬件
每美元性能	+30%	基准
功耗（单加速器）	750W	~800-1,000W（估算）
散热方案	第二代闭环液冷换热器单元（HXU）	风冷/液冷混合
TCO（总拥有成本）	降低（能效提升 + 以太网标准网络）	基准

与前代 Maia 100 对比

指标	Maia 100（2023）	Maia 200（2026）	提升
制程	TSMC 5nm	TSMC 3nm	更先进
晶体管数	~500 亿（估算）	1,400 亿+	2.8×
FP4 支持	❌ 不支持	✅ 支持	新增
FP8 支持	✅ 支持（非原生）	✅ 原生张量核心	优化
HBM 容量	64 GB（估算）	216 GB	3.4×
HBM 带宽	~1.6 TB/s（估算）	7 TB/s	4.4×
TDP	500W（估算）	750W	1.5×
部署规模	数千（Azure）	6,144+	扩大

技术亮点

1. 原生 FP4/FP8 张量核心

FP4：4位浮点，模型显存占用减少 75%（vs FP16），推理吞吐量提升 4×
FP8：8位浮点，精度接近 FP16，算力比 FP16 提升 2×
稀疏优化：支持结构化稀疏，FP4 稀疏模式算力可达 20+ PFLOPS

2. 以太网标准网络

无需专有网络：基于标准以太网的 scale-up 设计，降低部署成本和复杂性
自定义传输层：针对 AI 工作负载优化，性能接近专有网络
两层网络拓扑：最小化网络跳数，提升大规模集群性能

3. 液冷原生设计

第二代 HXU：闭环液冷换热器单元，原生支持数据中心部署
芯片级遥测：实时监测温度、电压、频率，提升可靠性
Azure 控制平面集成：芯片和机架级别的安全、遥测、诊断和管理

发布时间与获取方式

官方发布：2026年1月26日（微软执行副总裁 Scott Guthrie 在官方博客发布）
首发部署：2026年1月起，US Central 区域
获取方式：仅通过 Azure 云服务（不单独销售物理芯片）
- Microsoft Foundry（原 Azure AI）
- Microsoft 365 Copilot
- Azure 虚拟机（Maia 200 实例）
Maia SDK 预览版：已开放申请

产品概述​

核心规格​

架构细节​

Tile-Cluster-SoC 三级分层架构​

内存子系统优化​

扩展网络设计​

与竞品对比​

Azure 部署与生态​

首发部署区域​

支持的工作负载​

Maia SDK（预览版）​

能效与 TCO​

与前代 Maia 100 对比​

技术亮点​

1. 原生 FP4/FP8 张量核心​

2. 以太网标准网络​

3. 液冷原生设计​

发布时间与获取方式​

外部链接​