NVIDIA GB300 (Grace Blackwell 300)

产品概述

NVIDIA GB300 (Grace Blackwell 300) 是 NVIDIA 第三代 Grace Blackwell 超级芯片（Superchip），2025 H2 发布。将 B300 Ultra GPU（升级版 Blackwell）通过 NV-HBI 高速接口与 Arm Grace CPU 配对，单 Superchip 算力 = 1 GPU + 1 CPU。72 颗 GB300 组成 NVL72 机柜，NVLink 5 + ConnectX-9 1.6T 网络 互联，是 NVIDIA 数据中心 AI 的旗舰机柜级产品。

代际演进：

GH200（2023-Q3）：Grace Hopper，H100 + 72-core Arm Grace
GB200（2024-Q4）：Grace Blackwell，B200 + 72-core Arm Grace
GB300（2025 H2）：B300 Ultra + Arm Grace 72 核 CPU + ConnectX-9 1.6T

核心规格

项目	参数
架构	Grace Blackwell 300 Superchip
GPU 芯片	1× B300 Ultra（升级 Blackwell）
CPU 芯片	1× Arm Grace（72 核 Neoverse V2）
NV-HBI	900 GB/s 双向 CPU-GPU 互联
CPU-GPU 一致性内存	统一寻址（Grace 上 480GB LPDDR5X + B300 上 288GB HBM3E）
GPU 内存	288GB HBM3E（B300 Ultra 升级）
GPU 带宽	10 TB/s
CPU 内存	480GB LPDDR5X
CPU 带宽	512 GB/s
FP4 sparse	15 PFLOPS（B300 Ultra 单 GPU）
FP8 dense	3.75 PFLOPS
BF16 dense	1.875 PFLOPS
TDP（单 Superchip）	1600 W（B300 Ultra 1400W + Grace 200W）
板卡形态	主板集成（不可拆）
量产时间	2025 H2
单价	~$70,000-80,000（Superchip 模块）
发布	2025-01-07

GB300 NVL72 机柜

项目	配置
Superchip 数	72× GB300
GPU 数	72× B300 Ultra
CPU 数	72× Arm Grace (72 核 × 72 = 5,184 核)
HBM 总量	20.7 TB HBM3E
LPDDR5X 总量	34.6 TB
NVLink 5 域内	130 TB/s 全互联
ConnectX-9 出口	72× 1.6T = 115 Tb/s
FP4 sparse 总算力	1.08 EFLOPS
FP8 dense 总算力	270 PFLOPS
机柜 TDP	~120 kW（含冷却）
机柜数	8（标准数据中心 row）
价格	~$3.3M / 机柜（推测）

代际对比

指标	GB300 (2025 H2)	GB200 (2024-Q4)	GH200 (2023-Q3)	备注
GPU	B300 Ultra	B200	H100	升级
CPU	Arm Grace 72 核	Arm Grace 72 核	Arm Grace 72 核	同
GPU 内存	288GB HBM3E	192GB HBM3E	96GB HBM3	+50%
GPU 带宽	10 TB/s	8 TB/s	3.35 TB/s	+25%
NV-HBI	900 GB/s	900 GB/s	900 GB/s	同
NVLink 互联	130 TB/s	130 TB/s	60 TB/s	同/2×
网络	ConnectX-9 1.6T	ConnectX-8 800G	ConnectX-7 400G	2×/4×
FP4 sparse	15 PF (per GPU)	10 PF	N/A (FP8 2 PF)	1.5×
FP8 dense	3.75 PF	2.25 PF	1 PF	1.67×/3.75×
TDP	1600W	1000W	1000W	+60%

NVL72 vs NVL576 机柜级对比

维度	NVL72 (1 机柜)	NVL576 (8 机柜)
Superchip 数	72	576
GPU 数	72 B300 Ultra	576 B300 Ultra
CPU 数	72 Grace	576 Grace
HBM 总量	20.7 TB	165 TB
FP8 dense 总算力	270 PF	2.16 EF
FP4 sparse 总算力	1.08 EF	8.64 EF
NVLink 域	单机柜 130 TB/s	跨机柜 130 TB/s
域规模	72 GPU	576 GPU
机柜 TDP	120 kW	960 kW
价格	$3.3M	$26M

GB300 NVL576 优势：8 个机柜组成 1 个 NVLink 域，576 GPU 共享 130 TB/s 互联，是 业界最大 NVLink 域，对超大 LLM（万亿参数）训练至关重要。

ConnectX-9 1.6T 网络

维度	规格
速率	1.6 Tb/s 单端口
端口数	2-4 per Superchip
协议	InfiniBand NDR / NDR400 + RoCE v2
延迟	< 0.5 μs
GPUDirect	GPU-NIC 直接 DMA
拥塞控制	SHARP v4
PCIe	Gen6 ×16（GB300 升级 Gen6）
2025 部署	主流超算（ORNL Frontier 后续）

vs ConnectX-8 800G：

带宽 2×
延迟 -50%
GPUDirect RDMA 3.0
支持 NVLink over IB（跨机柜 NVLink）

厂商信息

项目	内容
公司	NVIDIA Corporation
产品页	https://www.nvidia.com/en-us/data-center/grace-blackwell/
CEO	Jensen Huang（黄仁勋）
代工	TSMC 4NP（B300 Ultra）+ TSMC N3（Grace）
2025 H2 量产	是
2026 路线图	Rubin + Vera Rubin（RV200）
价格	Superchip ~$70-80K, NVL72 机柜 ~$3.3M

关键特性

NVL576 域：8 机柜 576 GPU 共享 130 TB/s 互联（业界最大）
ConnectX-9 1.6T：单端口 1.6 Tb/s 跨机柜网络
FP4 15 PFLOPS：单 GPU 算力（sparse），对推理优化
统一内存：GPU 288GB HBM + CPU 480GB LPDDR5X 一致性寻址
缺点：TDP 1600W（单 Superchip），软件栈仅 CUDA 兼容

NVL72 适用场景

✅ 万亿参数 LLM 训练（576 GPU 域，130 TB/s NVLink）
✅ MoE 模型训练（专家并行 + 张量并行混合）
✅ 超大规模 RLHF（576 GPU 同步）
✅ 多模态大模型（视频 + 文本 + 图像）
✅ AI for Science（气候、材料、生命科学）
❌ 小规模推理（成本过高）
❌ 中国市场（出口管制）

GB300 vs AMD MI400 (2026)

指标	NVIDIA GB300 (2025 H2)	AMD MI400 (2026)	差异
GPU	B300 Ultra (单卡)	MI400 (单卡)	-
内存	288GB HBM3E	432GB HBM4	MI400 +50%
带宽	10 TB/s	19.6 TB/s	MI400 2×
FP4 dense	7.5 PF	40 PF	MI400 5×
互联	NVLink 5 1.8 TB/s	UALoF 1.3 TB/s	GB300 1.4×
网络	ConnectX-9 1.6T	Pensando 800G	GB300 2×
软件	CUDA	ROCm	NVIDIA 优势
TDP	1600W (Superchip)	1000W	MI400 -38%

注：MI400 是单 GPU vs GB300 Superchip（含 CPU）。纯 GPU 对比 MI400 优势明显（开放 HBM4 + 开放 UALoF），但 NVL72 机柜 + ConnectX-9 仍是 NVIDIA 优势。

产品概述​

核心规格​

GB300 NVL72 机柜​

代际对比​

NVL72 vs NVL576 机柜级对比​

ConnectX-9 1.6T 网络​

厂商信息​

关键特性​

NVL72 适用场景​

GB300 vs AMD MI400 (2026)​

相关卡​