Skip to main content

NVIDIA GB300 (Grace Blackwell 300)

产品概述

NVIDIA GB300 (Grace Blackwell 300) 是 NVIDIA 第三代 Grace Blackwell 超级芯片(Superchip),2025 H2 发布。将 B300 Ultra GPU(升级版 Blackwell)通过 NV-HBI 高速接口Arm Grace/Vera CPU 配对,单 Superchip 算力 = 1 GPU + 1 CPU。72 颗 GB300 组成 NVL72 机柜NVLink 5 + ConnectX-9 1.6T 网络 互联,是 NVIDIA 数据中心 AI 的旗舰机柜级产品

代际演进

  • GH200(2023-Q3):Grace Hopper,H100 + 72-core Arm Grace
  • GB200(2024-Q4):Grace Blackwell,B200 + 72-core Arm Grace
  • GB300(2025 H2):B300 Ultra + Arm Vera 88-core CPU + ConnectX-9 1.6T

核心规格

项目参数
架构Grace Blackwell 300 Superchip
GPU 芯片1× B300 Ultra(升级 Blackwell)
CPU 芯片1× Arm Vera(88 核 Olympus 核心)
NV-HBI900 GB/s 双向 CPU-GPU 互联
CPU-GPU 一致性内存统一寻址(Grace 上 480GB LPDDR5X + B300 上 288GB HBM3E)
GPU 内存288GB HBM3E(B300 Ultra 升级)
GPU 带宽10 TB/s
CPU 内存480GB LPDDR5X
CPU 带宽512 GB/s
FP4 sparse15 PFLOPS(B300 Ultra 单 GPU)
FP8 dense3.75 PFLOPS
BF16 dense1.875 PFLOPS
TDP(单 Superchip)1200 W(B300 1000W + Vera 200W)
板卡形态主板集成(不可拆)
量产时间2025 H2
单价~$70,000-80,000(Superchip 模块)

GB300 NVL72 机柜

项目配置
Superchip 数72× GB300
GPU 数72× B300 Ultra
CPU 数72× Arm Vera (88 核 × 72 = 6,336 核)
HBM 总量20.7 TB HBM3E
LPDDR5X 总量34.6 TB
NVLink 5 域内130 TB/s 全互联
ConnectX-9 出口72× 1.6T = 115 Tb/s
FP4 sparse 总算力1.08 EFLOPS
FP8 dense 总算力270 PFLOPS
机柜 TDP~120 kW(含冷却)
机柜数8(标准数据中心 row)
价格~$3.3M / 机柜(推测)

代际对比

指标GB300 (2025 H2)GB200 (2024-Q4)GH200 (2023-Q3)备注
GPUB300 UltraB200H100升级
CPUArm Vera 88 核Arm Grace 72 核Arm Grace 72 核新代
GPU 内存288GB HBM3E192GB HBM3E96GB HBM3+50%
GPU 带宽10 TB/s8 TB/s3.35 TB/s+25%
NV-HBI900 GB/s900 GB/s900 GB/s
NVLink 互联130 TB/s130 TB/s60 TB/s同/2×
网络ConnectX-9 1.6TConnectX-8 800GConnectX-7 400G2×/4×
FP4 sparse15 PF (per GPU)10 PFN/A (FP8 2 PF)1.5×
FP8 dense3.75 PF2.25 PF1 PF1.67×/3.75×
TDP1200W1000W1000W+20%

NVL72 vs NVL576 机柜级对比

维度NVL72 (1 机柜)NVL576 (8 机柜)
Superchip 数72576
GPU 数72 B300 Ultra576 B300 Ultra
CPU 数72 Vera576 Vera
HBM 总量20.7 TB165 TB
FP8 dense 总算力270 PF2.16 EF
FP4 sparse 总算力1.08 EF8.64 EF
NVLink 域单机柜 130 TB/s跨机柜 130 TB/s
域规模72 GPU576 GPU
机柜 TDP120 kW960 kW
价格$3.3M$26M

GB300 NVL576 优势8 个机柜组成 1 个 NVLink 域576 GPU 共享 130 TB/s 互联,是 业界最大 NVLink 域,对超大 LLM(万亿参数)训练至关重要。

Arm Vera CPU 88 核

维度规格
架构Arm Olympus(Armv9.4)
核心数88 核(vs Grace 72 核)
L3 Cache共享 256 MB
LPDDR5X480GB
带宽512 GB/s
TDP200W
PCIeGen5 ×32
特性SVE2 增强 + 硬件机密计算
代际Armv9.4 继 Grace v9.0

Vera vs Grace 升级:核心数 +22%(72→88),L3 Cache +33%(192→256MB),内存 +20%(384→480GB)。关键改进是内存子系统(LLM 推理 CPU 解码步骤关键)。

ConnectX-9 1.6T 网络

维度规格
速率1.6 Tb/s 单端口
端口数2-4 per Superchip
协议InfiniBand NDR / NDR400 + RoCE v2
延迟< 0.5 μs
GPUDirectGPU-NIC 直接 DMA
拥塞控制SHARP v4
PCIeGen6 ×16(GB300 升级 Gen6)
2025 部署主流超算(ORNL Frontier 后续)

vs ConnectX-8 800G

  • 带宽 2×
  • 延迟 -50%
  • GPUDirect RDMA 3.0
  • 支持 NVLink over IB(跨机柜 NVLink)

厂商信息

项目内容
公司NVIDIA Corporation
产品页https://www.nvidia.com/en-us/data-center/grace-blackwell/
CEOJensen Huang(黄仁勋)
代工TSMC 4NP(B300 Ultra)+ TSMC N3(Vera)
2025 H2 量产
2026 路线图Rubin + Vera Rubin(RV200)
价格Superchip ~$70-80K, NVL72 机柜 ~$3.3M

关键特性

  • NVL576 域:8 机柜 576 GPU 共享 130 TB/s 互联(业界最大)
  • ConnectX-9 1.6T:单端口 1.6 Tb/s 跨机柜网络
  • Arm Vera 88 核:每 Superchip 1 颗,CPU 性能 +30%
  • FP4 15 PFLOPS:单 GPU 算力(sparse),对推理优化
  • 统一内存:GPU 288GB HBM + CPU 480GB LPDDR5X 一致性寻址
  • 缺点:TDP 1200W(单 Superchip),软件栈仅 CUDA 兼容

NVL72 适用场景

  • 万亿参数 LLM 训练(576 GPU 域,130 TB/s NVLink)
  • MoE 模型训练(专家并行 + 张量并行混合)
  • 超大规模 RLHF(576 GPU 同步)
  • 多模态大模型(视频 + 文本 + 图像)
  • AI for Science(气候、材料、生命科学)
  • ❌ 小规模推理(成本过高)
  • ❌ 中国市场(出口管制)

GB300 vs AMD MI400 (2026)

指标NVIDIA GB300 (2025 H2)AMD MI400 (2026)差异
GPUB300 Ultra (单卡)MI400 (单卡)-
内存288GB HBM3E432GB HBM4MI400 +50%
带宽10 TB/s19.6 TB/sMI400 2×
FP4 dense7.5 PF40 PFMI400 5×
互联NVLink 5 1.8 TB/sUALoF 1.3 TB/sGB300 1.4×
网络ConnectX-9 1.6TPensando 800GGB300 2×
软件CUDAROCmNVIDIA 优势
TDP1200W (Superchip)1000WMI400 -17%

注:MI400 是单 GPU vs GB300 Superchip(含 CPU)。纯 GPU 对比 MI400 优势明显(开放 HBM4 + 开放 UALoF),但 NVL72 机柜 + ConnectX-9 仍是 NVIDIA 优势。

相关卡