NVIDIA GB300 (Grace Blackwell 300)
产品概述
NVIDIA GB300 (Grace Blackwell 300) 是 NVIDIA 第三代 Grace Blackwell 超级芯片(Superchip),2025 H2 发布。将 B300 Ultra GPU(升级版 Blackwell)通过 NV-HBI 高速接口与 Arm Grace/Vera CPU 配对,单 Superchip 算力 = 1 GPU + 1 CPU。72 颗 GB300 组成 NVL72 机柜,NVLink 5 + ConnectX-9 1.6T 网络 互联,是 NVIDIA 数据中心 AI 的旗舰机柜级产品。
代际演进:
- GH200(2023-Q3):Grace Hopper,H100 + 72-core Arm Grace
- GB200(2024-Q4):Grace Blackwell,B200 + 72-core Arm Grace
- GB300(2025 H2):B300 Ultra + Arm Vera 88-core CPU + ConnectX-9 1.6T
核心规格
| 项目 | 参数 |
|---|
| 架构 | Grace Blackwell 300 Superchip |
| GPU 芯片 | 1× B300 Ultra(升级 Blackwell) |
| CPU 芯片 | 1× Arm Vera(88 核 Olympus 核心) |
| NV-HBI | 900 GB/s 双向 CPU-GPU 互联 |
| CPU-GPU 一致性内存 | 统一寻址(Grace 上 480GB LPDDR5X + B300 上 288GB HBM3E) |
| GPU 内存 | 288GB HBM3E(B300 Ultra 升级) |
| GPU 带宽 | 10 TB/s |
| CPU 内存 | 480GB LPDDR5X |
| CPU 带宽 | 512 GB/s |
| FP4 sparse | 15 PFLOPS(B300 Ultra 单 GPU) |
| FP8 dense | 3.75 PFLOPS |
| BF16 dense | 1.875 PFLOPS |
| TDP(单 Superchip) | 1200 W(B300 1000W + Vera 200W) |
| 板卡形态 | 主板集成(不可拆) |
| 量产时间 | 2025 H2 |
| 单价 | ~$70,000-80,000(Superchip 模块) |
GB300 NVL72 机柜
| 项目 | 配置 |
|---|
| Superchip 数 | 72× GB300 |
| GPU 数 | 72× B300 Ultra |
| CPU 数 | 72× Arm Vera (88 核 × 72 = 6,336 核) |
| HBM 总量 | 20.7 TB HBM3E |
| LPDDR5X 总量 | 34.6 TB |
| NVLink 5 域内 | 130 TB/s 全互联 |
| ConnectX-9 出口 | 72× 1.6T = 115 Tb/s |
| FP4 sparse 总算力 | 1.08 EFLOPS |
| FP8 dense 总算力 | 270 PFLOPS |
| 机柜 TDP | ~120 kW(含冷却) |
| 机柜数 | 8(标准数据中心 row) |
| 价格 | ~$3.3M / 机柜(推测) |
代际对比
| 指标 | GB300 (2025 H2) | GB200 (2024-Q4) | GH200 (2023-Q3) | 备注 |
|---|
| GPU | B300 Ultra | B200 | H100 | 升级 |
| CPU | Arm Vera 88 核 | Arm Grace 72 核 | Arm Grace 72 核 | 新代 |
| GPU 内存 | 288GB HBM3E | 192GB HBM3E | 96GB HBM3 | +50% |
| GPU 带宽 | 10 TB/s | 8 TB/s | 3.35 TB/s | +25% |
| NV-HBI | 900 GB/s | 900 GB/s | 900 GB/s | 同 |
| NVLink 互联 | 130 TB/s | 130 TB/s | 60 TB/s | 同/2× |
| 网络 | ConnectX-9 1.6T | ConnectX-8 800G | ConnectX-7 400G | 2×/4× |
| FP4 sparse | 15 PF (per GPU) | 10 PF | N/A (FP8 2 PF) | 1.5× |
| FP8 dense | 3.75 PF | 2.25 PF | 1 PF | 1.67×/3.75× |
| TDP | 1200W | 1000W | 1000W | +20% |
NVL72 vs NVL576 机柜级对比
| 维度 | NVL72 (1 机柜) | NVL576 (8 机柜) |
|---|
| Superchip 数 | 72 | 576 |
| GPU 数 | 72 B300 Ultra | 576 B300 Ultra |
| CPU 数 | 72 Vera | 576 Vera |
| HBM 总量 | 20.7 TB | 165 TB |
| FP8 dense 总算力 | 270 PF | 2.16 EF |
| FP4 sparse 总算力 | 1.08 EF | 8.64 EF |
| NVLink 域 | 单机柜 130 TB/s | 跨机柜 130 TB/s |
| 域规模 | 72 GPU | 576 GPU |
| 机柜 TDP | 120 kW | 960 kW |
| 价格 | $3.3M | $26M |
GB300 NVL576 优势:8 个机柜组成 1 个 NVLink 域,576 GPU 共享 130 TB/s 互联,是 业界最大 NVLink 域,对超大 LLM(万亿参数)训练至关重要。
Arm Vera CPU 88 核
| 维度 | 规格 |
|---|
| 架构 | Arm Olympus(Armv9.4) |
| 核心数 | 88 核(vs Grace 72 核) |
| L3 Cache | 共享 256 MB |
| LPDDR5X | 480GB |
| 带宽 | 512 GB/s |
| TDP | 200W |
| PCIe | Gen5 ×32 |
| 特性 | SVE2 增强 + 硬件机密计算 |
| 代际 | Armv9.4 继 Grace v9.0 |
Vera vs Grace 升级:核心数 +22%(72→88),L3 Cache +33%(192→256MB),内存 +20%(384→480GB)。关键改进是内存子系统(LLM 推理 CPU 解码步骤关键)。
ConnectX-9 1.6T 网络
| 维度 | 规格 |
|---|
| 速率 | 1.6 Tb/s 单端口 |
| 端口数 | 2-4 per Superchip |
| 协议 | InfiniBand NDR / NDR400 + RoCE v2 |
| 延迟 | < 0.5 μs |
| GPUDirect | GPU-NIC 直接 DMA |
| 拥塞控制 | SHARP v4 |
| PCIe | Gen6 ×16(GB300 升级 Gen6) |
| 2025 部署 | 主流超算(ORNL Frontier 后续) |
vs ConnectX-8 800G:
- 带宽 2×
- 延迟 -50%
- GPUDirect RDMA 3.0
- 支持 NVLink over IB(跨机柜 NVLink)
厂商信息
关键特性
- NVL576 域:8 机柜 576 GPU 共享 130 TB/s 互联(业界最大)
- ConnectX-9 1.6T:单端口 1.6 Tb/s 跨机柜网络
- Arm Vera 88 核:每 Superchip 1 颗,CPU 性能 +30%
- FP4 15 PFLOPS:单 GPU 算力(sparse),对推理优化
- 统一内存:GPU 288GB HBM + CPU 480GB LPDDR5X 一致性寻址
- 缺点:TDP 1200W(单 Superchip),软件栈仅 CUDA 兼容
NVL72 适用场景
- ✅ 万亿参数 LLM 训练(576 GPU 域,130 TB/s NVLink)
- ✅ MoE 模型训练(专家并行 + 张量并行混合)
- ✅ 超大规模 RLHF(576 GPU 同步)
- ✅ 多模态大模型(视频 + 文本 + 图像)
- ✅ AI for Science(气候、材料、生命科学)
- ❌ 小规模推理(成本过高)
- ❌ 中国市场(出口管制)
GB300 vs AMD MI400 (2026)
| 指标 | NVIDIA GB300 (2025 H2) | AMD MI400 (2026) | 差异 |
|---|
| GPU | B300 Ultra (单卡) | MI400 (单卡) | - |
| 内存 | 288GB HBM3E | 432GB HBM4 | MI400 +50% |
| 带宽 | 10 TB/s | 19.6 TB/s | MI400 2× |
| FP4 dense | 7.5 PF | 40 PF | MI400 5× |
| 互联 | NVLink 5 1.8 TB/s | UALoF 1.3 TB/s | GB300 1.4× |
| 网络 | ConnectX-9 1.6T | Pensando 800G | GB300 2× |
| 软件 | CUDA | ROCm | NVIDIA 优势 |
| TDP | 1200W (Superchip) | 1000W | MI400 -17% |
注:MI400 是单 GPU vs GB300 Superchip(含 CPU)。纯 GPU 对比 MI400 优势明显(开放 HBM4 + 开放 UALoF),但 NVL72 机柜 + ConnectX-9 仍是 NVIDIA 优势。
相关卡