Microsoft Maia 200 (微软第二代 AI 推理加速器)
产品概述
Microsoft Maia 200 是微软于 2026年1月26日 发布的第二代自研 AI 加速器,专为超大规模 AI 推理打造。采用台积电 3nm 制程,集成超过 1,400 亿晶体管,单芯片 FP4 算力超过 10 PFLOPS,FP8 算力超过 5 PFLOPS。首次在微软自研芯片中引入原生 FP8/FP4 张量核心,并搭载 216GB HBM3e 内存和 7TB/s 超高带宽。
定位:Maia 200 是微软首个性能最高的自研硅芯片,也是 Azure 部署过的性价比最高的推理系统——相比 Azure fleet 中的最新一代硬件,每美元性能提升 30%。
核心规格
| 项目 | 参数 |
|---|
| 架构 | Maia 200 SoC(Tile-Cluster-SoC 三级分层架构) |
| 制程 | TSMC 3nm(N3P) |
| 晶体管数 | 超过 1,400 亿 |
| FP4 算力 | 10+ PFLOPS(原生张量核心) |
| FP8 算力 | 5+ PFLOPS(原生张量核心) |
| HBM 类型 | HBM3e |
| HBM 容量 | 216 GB |
| HBM 带宽 | 7 TB/s |
| 片上 SRAM | 272 MB |
| Scale-up 带宽 | 2.8 TB/s(单加速器双向) |
| TDP | 750 W |
| 集群规模 | 最多 6,144 个加速器 |
| 网络 | 基于标准以太网的两层 scale-up 网络 |
| 发布时间 | 2026年1月26日 |
| 首发部署 | 美国爱荷华州得梅因附近(US Central) |
| 后续部署 | 美国亚利桑那州凤凰城附近(US West 3) |
架构细节
Tile-Cluster-SoC 三级分层架构
- Tile(瓦片):基本计算单元,包含张量核心、SRAM、DMA 引擎
- Cluster(集群):多个 Tile 通过片上网络(NoC)连接,共享 L2 SRAM
- SoC(系统级芯片):多个 Cluster 通过全局 NoC 连接,外接 HBM3e 和高速网络
内存子系统优化
- 针对窄精度数据类型优化:FP4/FP8 数据宽度小,内存带宽是关键瓶颈
- 专用 DMA 引擎:高带宽数据传输,减少 CPU 干预
- 272MB 片上 SRAM:存储热点权重和激活值,减少 HBM 访问次数
- 专用片上网络(NoC):高带宽、低延迟的片上通信
扩展网络设计
- 基于标准以太网:无需依赖专有网络架构(如 NVIDIA NVLink)
- 两层 scale-up 网络:通过自定义传输层和紧密集成的 NIC 实现
- 统一 Maia AI 传输协议:节点内、机架内、机架间的无差别通信,最小化网络跳数
- 支持最多 6,144 个加速器集群:可实现可预测的、高性能的集合通信操作
与竞品对比
| 指标 | Maia 200 | AWS Trainium 3 | Google TPU v7 | NVIDIA H200 |
|---|
| FP4 算力 | 10+ PFLOPS | ~3.3 PFLOPS | ~5 PFLOPS(估算) | 1.98 PFLOPS |
| FP8 算力 | 5+ PFLOPS | ~6.6 PFLOPS | ~5 PFLOPS | 1.97 PFLOPS |
| HBM 容量 | 216 GB | 128 GB(估算) | 192 GB | 141 GB |
| HBM 带宽 | 7 TB/s | ~3.5 TB/s(估算) | ~4 TB/s | 4.8 TB/s |
| 制程 | TSMC 3nm | TSMC 4nm(估算) | TSMC 4nm | TSMC 4NP |
| 集群规模 | 6,144 | 16,384(Trn2 UltraCluster) | 9,216(Ironwood) | 576(NVL576) |
| 每美元性能 | +30%(vs Azure 上一代) | — | — | — |
关键优势:Maia 200 的 FP4 性能是 AWS Trainium 3 的 3 倍,FP8 性能超过 Google TPU v7。
Azure 部署与生态
首发部署区域
- US Central(美国爱荷华州得梅因附近):2026年1月起
- US West 3(美国亚利桑那州凤凰城附近):即将部署
- 未来扩展:更多 Azure 区域将陆续部署
支持的工作负载
- OpenAI GPT-5.2 系列:为 Microsoft Foundry 和 Microsoft 365 Copilot 提供算力
- 微软超智能团队:用于合成数据生成和强化学习,优化下一代自研模型
- 合成数据管道:独特设计加速高质量、领域特定数据的生成和过滤
Maia SDK(预览版)
- Triton 编译器:针对 Maia 200 架构优化的内核编译
- PyTorch 支持:无缝迁移现有 PyTorch 模型
- NPL 低级编程语言:细粒度控制需求
- Maia 模拟器和成本计算器:在代码生命周期早期优化效率
能效与 TCO
| 指标 | Maia 200 | Azure 上一代硬件 |
|---|
| 每美元性能 | +30% | 基准 |
| 功耗(单加速器) | 750W | ~800-1,000W(估算) |
| 散热方案 | 第二代闭环液冷换热器单元(HXU) | 风冷/液冷混合 |
| TCO(总拥有成本) | 降低(能效提升 + 以太网标准网络) | 基准 |
与前代 Maia 100 对比
| 指标 | Maia 100(2023) | Maia 200(2026) | 提升 |
|---|
| 制程 | TSMC 5nm | TSMC 3nm | 更先进 |
| 晶体管数 | ~500 亿(估算) | 1,400 亿+ | 2.8× |
| FP4 支持 | ❌ 不支持 | ✅ 支持 | 新增 |
| FP8 支持 | ✅ 支持(非原生) | ✅ 原生张量核心 | 优化 |
| HBM 容量 | 64 GB(估算) | 216 GB | 3.4× |
| HBM 带宽 | ~1.6 TB/s(估算) | 7 TB/s | 4.4× |
| TDP | 500W(估算) | 750W | 1.5× |
| 部署规模 | 数千(Azure) | 6,144+ | 扩大 |
技术亮点
1. 原生 FP4/FP8 张量核心
- FP4:4位浮点,模型显存占用减少 75%(vs FP16),推理吞吐量提升 4×
- FP8:8位浮点,精度接近 FP16,算力比 FP16 提升 2×
- 稀疏优化:支持结构化稀疏,FP4 稀疏模式算力可达 20+ PFLOPS
2. 以太网标准网络
- 无需专有网络:基于标准以太网的 scale-up 设计,降低部署成本和复杂性
- 自定义传输层:针对 AI 工作负载优化,性能接近专有网络
- 两层网络拓扑:最小化网络跳数,提升大规模集群性能
3. 液冷原生设计
- 第二代 HXU:闭环液冷换热器单元,原生支持数据中心部署
- 芯片级遥测:实时监测温度、电压、频率,提升可靠性
- Azure 控制平面集成:芯片和机架级别的安全、遥测、诊断和管理
发布时间与获取方式
- 官方发布:2026年1月26日(微软执行副总裁 Scott Guthrie 在官方博客发布)
- 首发部署:2026年1月起,US Central 区域
- 获取方式:仅通过 Azure 云服务(不单独销售物理芯片)
- Microsoft Foundry(原 Azure AI)
- Microsoft 365 Copilot
- Azure 虚拟机(Maia 200 实例)
- Maia SDK 预览版:已开放申请
外部链接