Skip to main content

AMD Instinct MI355X (288GB HBM3E)

产品概述

AMD Instinct MI355XMI350 系列的 288GB HBM3E 升级版本2025 H2 发布(MI350 是 192GB HBM3E)。基于 CDNA 4 架构TSMC 3nm 制程288GB HBM3E 内存(业界最大 HBM 容量),8 TB/s 内存带宽业界最高带宽),4.6 PFLOPS FP8 dense 算力。是 AMD 在 NVIDIA B200/MI400 之间的关键产品,瞄准 AI 大模型训练与推理市场。

关键升级(vs MI350X 192GB)

  • HBM 容量:192GB → 288GB(+50%)
  • 内存带宽:6.4 TB/s → 8 TB/s(+25%)
  • FP8 dense:3.6 PF → 4.6 PF(+28%)
  • 支持 FP4 / FP6 新精度(MI350 仅 FP8)
  • 互联:UALoF(Ultra Accelerator Link Fabric)600 GB/s(MI350 仅 200 GB/s PCIe)

核心规格

项目参数
架构AMD CDNA 4(与 MI350 相同架构)
制程TSMC 3nm (N3)
GPU 核心304 个 CDNA 4 Compute Units
HBM288 GB HBM3E业界最大
HBM 通道8 个 stack × 36GB HBM3E
内存带宽8 TB/s业界最高
FP4 sparse9.2 PFLOPS
FP6 sparse6.9 PFLOPS
FP8 dense4.6 PFLOPS
BF16 dense2.3 PFLOPS
FP16 dense2.3 PFLOPS
FP32115 TFLOPS
TDP~750 W
板卡形态OAM / PCIe Gen5 ×16
互联UALoF 600 GB/s(对标 NVLink 5)
量产时间2025 H2
单价(OAM)~$25,000(推测)

与 MI350X 192GB 对比

指标MI355X 288GBMI350X 192GB提升
制程3nm3nm
HBM 容量288GB192GB+50%
HBM 带宽8 TB/s6.4 TB/s+25%
FP8 dense4.6 PF3.6 PF+28%
FP4 支持(9.2 PF sparse)新增
FP6 支持(6.9 PF sparse)新增
互联UALoF 600 GB/sPCIe 5.0 200 GB/s
TDP750W750W
价格(推测)~$25K~$20K+25%

与 NVIDIA B200 对比

指标AMD MI355XNVIDIA B200差异
内存288GB HBM3E192GB HBM3EMI355X +50%
带宽8 TB/s8 TB/s
FP8 dense4.6 PF4.5 PF sparseMI355X 略胜(dense vs sparse)
FP4 sparse9.2 PF9 PF sparse
BF162.3 PF dense2.25 PF sparseMI355X 略胜
互联UALoF 600 GB/sNVLink 5 1.8 TB/sB200 3×
TDP750W1000WMI355X -25%
软件ROCm 7 + OpenCUDA + 私有AMD 开放
价格~$25K$30-40KMI355X -25%

MI355X 优势最大 HBM 容量(288GB)+ 最低 TDP(750W)+ 开放互联(UALoF),是 大模型推理最优 H/W 之一

8 TB/s 内存带宽技术

维度实现方式
HBM3E8 个 stack × 1024-bit wide
时钟9.2 Gbps(业界最高)
PHYAMD 自研 Infinity Fabric 内存控制器
预取自适应预取算法
错误纠正On-die ECC + Side-band ECC
维度规格
带宽600 GB/s 双向
拓扑全互联 / Dragonfly+
协议自研(类 NVLink 但开放)
延迟~1 μs
支持MI300X / MI325X / MI350X / MI355X / MI400 全系列
管理UALink Consortium(2024-Q3 成立,AMD / Intel / Meta / Microsoft / Google 等)
2025 成员30+ 公司
vs NVLink带宽 1/3,但 完全开放(NVLink 私有)

UALoF 战略意义打破 NVIDIA NVLink 垄断。B200 1.8 TB/s NVLink 是 UALoF 3×,但 UALoF 可与 任何厂商加速器互联(NVIDIA / Groq / Habana / Tenstorrent),是 未来 AI 数据中心互联标准

厂商信息

项目内容
公司Advanced Micro Devices (AMD)
产品页https://www.amd.com/en/products/accelerators/instinct-mi350.html
CEOLisa Su(苏姿丰)
代工TSMC 3nm
2025 H2 量产
2026 路线图MI400 (3nm+, 432GB HBM4)
2025 营收(MI 业务)~$8B(+80% YoY)
主要客户Microsoft Azure(MAI 平台)、Meta、Oracle、Anthropic、Tenstorrent、刚启动的 LaminiAI

AMD Instinct 产品线

产品发布内存FP8 dense状态
MI250X2021-Q4128GB HBM2E0 (FP16: 383 TF)EOL
MI300X2023-Q4192GB HBM31.3 PF量产
MI325X2024-Q4256GB HBM3E2.6 PF量产
MI350X2025-Q3192GB HBM3E3.6 PF量产
MI355X2025 H2288GB HBM3E4.6 PF新品
MI4002026432GB HBM440 PF FP4 dense路线图中

关键特性

  • 288GB HBM3E:业界最大 HBM 容量,超过 NVIDIA B200 192GB
  • 8 TB/s 带宽:业界最高内存带宽
  • FP4 / FP6 / FP8 多精度:新代低精度支持(NVIDIA Blackwell 同期)
  • UALoF 600 GB/s:开放互联,对标 NVLink
  • Helios 机柜:72× MI355X + 36× EPYC Venice + Pensando NIC(2025 H2)
  • 开放 ROCm 软件:vs CUDA 私有
  • 缺点:ROCm 软件成熟度仍落后 CUDA 2-3 年

Helios 机柜(72-GPU)

项目配置
GPU 数72× MI355X
CPU 数36× EPYC Venice (256 核 Zen 6)
NICPensando Vulcano 800GbE
GPU 互联UALoF 全互联
CPU-GPUPCIe Gen5 x16 + Infinity Fabric
总内存20.7 TB HBM3E
总算力331 PF FP8 dense
机柜 TDP~80 kW
发布2025 H2(与 MI355X 同步)

适用场景

  • 大模型训练(288GB 容纳更大模型,UALoF 互联多卡)
  • LLM 推理(288GB 装 Llama 3 405B FP16 + 大 KV Cache)
  • 多模态 AI(Stable Diffusion 3, Sora 训练)
  • HPC + AI 融合(ROCm + MPI 兼容)
  • 云服务商(开放生态,多云部署)
  • 政府/国企(AMD 美国品牌)
  • ❌ CUDA-only 专有工作负载
  • ❌ NVLink 紧密耦合代码

MI355X vs MI400(2026)

指标MI355X (2025 H2)MI400 (2026)提升
内存288GB HBM3E432GB HBM4+50%
带宽8 TB/s19.6 TB/s2.45×
FP4 dense4.6 PF FP840 PF FP4~9×
互联UALoF 600 GB/sUALoF 1.3 TB/s2.2×
制程3nm3nm+ (N3P)略新
TDP750W~1000W+33%

相关卡