AMD MI400 + Helios 机柜:432GB HBM4 + 260 TB/s UALoF 开放互联
· 5 min read
2026 年 AMD 推出 MI400(CDNA Next) + Helios 72-GPU 机柜,这是 AMD 对标 NVIDIA NVL72 的旗舰方案。本文将分析 MI400 的关键规格、Helios 机柜的开放互联(UALoF)战略,以及与 Rubin R200 的对比。
MI400 核心规格
| 项目 | MI400 | 上一代 MI350 | 提升 |
|---|---|---|---|
| 架构 | CDNA Next | CDNA 4 | 新一代 |
| 制程 | TSMC 3nm / 2nm | TSMC 3nm | 更先进 |
| 显存 | 432 GB HBM4 | 288 GB HBM3e | 1.5× |
| 显存带宽 | 19.6 TB/s | 8 TB/s | 2.45× |
| FP4 Tensor (dense) | 40 PFLOPS | 20 PFLOPS | 2× |
| FP8 Tensor (dense) | 20 PFLOPS | 10 PFLOPS | 2× |
| TDP | ~1,000 W | ~1,000 W | 持平 |
| PCIe | Gen 6 | Gen 5 | 2× |
| 发布时间 | 2026 | 2025 | — |
432 GB HBM4 = 全球单卡最大显存。相比 NVIDIA Rubin R200 的 288 GB,多 50%。这对超大模型推理是关键优势。
CDNA Next 架构亮点
AMD 在 CDNA Next 上的关键演进:
- FP4 矩阵引擎:原生支持 MXFP4 / NVFP4
- 增强的稀疏计算:比 CDNA 4 提升 2× sparse throughput
- 更大的 Infinity Cache:~512 MB
- 异构调度器:CPU+GPU 协同优化(EPYC Venice 协同)
Helios 机柜:AMD 的 NVL72 回应
Helios 是 AMD 的机柜级方案,对标 NVIDIA GB300 NVL72 / Rubin NVL72:
| 项目 | Helios 机柜 | NVIDIA Rubin NVL72 |
|---|---|---|
| GPU 数 | 72 颗 MI400 | 72 颗 Rubin |
| CPU 数 | 36 颗 EPYC Venice | 36 颗 Vera |
| HBM 总量 | 31.1 TB HBM4 | 20.7 TB HBM4 |
| Scale-up 互联 | UALoF 260 TB/s | NVLink 6 252 TB/s |
| Scale-out 网络 | Pensando Vulcano 800G | ConnectX-9 14.4 Tbps |
| FP4 算力 (dense) | 2.88 EFLOPS | 3.6 EFLOPS (sparse) |
| FP4 dense 折算 | 2.88 EF | 1.8 EF |
| TDP(机柜) | ~80 kW | ~130 kW |
| 散热 | 液冷必需 | 液冷必需 |
AMD Helios 在 dense 算力上超越 NVIDIA Rubin NVL72(2.88 vs 1.8 EFLOPS)。但 NVIDIA 的 sparse 算力翻倍后达到 3.6 EFLOPS,所以是"互有胜负"。
UALoF:开放互联挑战 NVLink
Ultra Accelerator Link(UALoF / UALink) 是 AMD + Broadcom + Intel 共同推动的开放标准 scale-up 互联协议:
- 目标:取代 NVLink 单家封闭生态
- 2026 首发:AMD Helios 72-GPU 机柜
- 后续:Intel Jaguar Shores、AWS UltraServers
UALoF 关键特性:
| 特性 | UALoF | NVLink 6 |
|---|---|---|
| 标准化 | 开放标准 | NVIDIA 私有 |
| 带宽(机柜级) | 260 TB/s | 252 TB/s |
| 厂商 | AMD/Broadcom/Intel | NVIDIA only |
| 生态 | ROCm + Open | CUDA only |
| 未来扩展性 | 高 | 受限 |
UALoF 的真正威胁不是当下,而是未来。如果 UALoF 能在 2-3 年内构建完整生态,NVIDIA 的封闭互联优势将被削弱。
ROCm 8 软件生态
AMD 在 ROCm 上持续投入:
- ROCm 7.x(2025 GA):PyTorch / JAX / Triton 全优化
- ROCm 8.x(2026):CDNA Next 首发,全面支持 FP4 / FP8
- vLLM 0.7+(AMD-SGLang 优化版)
- AMD Composable Kernel (CK):类比 CUDA Cores,开源
- MIGraphX / ONNX-Runtime:推理引擎
- Infinity Hub:AMD 官方参考实现
部署推荐
| 场景 | 推荐配置 |
|---|---|
| 700B+ 模型训练 | Helios 机柜(72 GPU,单机柜可运行 700B 模型) |
| 1T+ 巨型模型训练 | 多机柜 + UALoF 跨机柜互联 |
| 超低延迟推理 | MI400 + FP4 + vLLM/AMD-SGLang |
| 科学计算 | MI400 + ROCm 7/8 + OpenMP |
| 多模态生成 | MI400(432GB 完整保留) |
| 偏好开放生态 | UALoF + ROCm 8(避免 NVIDIA 锁定) |
MI400 vs Rubin R200(同期旗舰对比)
| 指标 | MI400 (CDNA Next) | Rubin R200 |
|---|---|---|
| 显存 | 432 GB HBM4 ✅ | 288 GB HBM4 |
| 显存带宽 | 19.6 TB/s | 22 TB/s ✅ |
| FP4 dense | 40 PF ✅ | 25 PF |
| FP8 dense | 20 PF | 12.5 PF |
| 每 GPU 互联 | UALoF (开放) ✅ | NVLink 6 (封闭) |
| 每 GPU 网络 | Pensando 800G | ConnectX-9 14.4 Tbps ✅ |
| CPU | EPYC Venice | Vera ARM 88 核 ✅ |
| 生态 | ROCm 8 (开源) ✅ | CUDA 13 (成熟) ✅ |
| 标准化 | UALoF ✅ | NVLink ❌ |
| TDP | 1,000 W ✅ | 1,800 W |
AMD 优势:显存大、FP4 dense 算力领先、开放互联、功耗较低 NVIDIA 优势:HBM 带宽、CPU 集成、DC 网络、CUDA 生态
详细产品页
总结
AMD MI400 + Helios 是 AMD 在 AI 算力上的最强反击:
- CDNA Next + 432 GB HBM4 在硬件规格上不输 NVIDIA
- Helios 72-GPU 机柜 在 dense 算力上甚至超过 NVIDIA NVL72
- UALoF 开放互联 是对 NVLink 封闭的真正威胁
- ROCm 8 生态 持续改善,但仍需时间
2026 年,AMD 是唯一能正面挑战 NVIDIA 的 GPU 厂商。