产品概述
NVIDIA H100 是基于 Hopper 架构 GH100 芯片的旗舰级数据中心 GPU,2022 年发布,是当前(2025 年)大语言模型训练和推理的事实标准。它引入了 Transformer Engine(FP8 精度动态加速)和 DPX 指令集(动态规划算法加速)。
核心规格
| 项目 | 参数 |
|---|
| 架构 | Hopper GH100 |
| 制程 | TSMC 4N(定制 5nm) |
| 晶体管数 | 800 亿 |
| 显存 | 80 GB HBM3 |
| 显存带宽 | 3.35 TB/s(3,352 GB/s) |
| CUDA Core | 16,896 |
| Tensor Core | 528 个(第四代) |
| FP32 | 60 TFLOPS |
| FP64 | 34 TFLOPS(双精度 HPC 重要) |
| TF32 Tensor Core | 989 TFLOPS(稀疏) |
| FP16/BF16 Tensor Core | 1,979 TFLOPS(稀疏) |
| FP8 Tensor Core | 3,958 TFLOPS(稀疏) |
| INT8 Tensor Core | 3,958 TOPS(稀疏) |
| TDP | 700 W(SXM5) |
| 互联 | NVLink 4.0(900 GB/s),PCIe 5.0 |
| MIG | 最多 7 个实例 |
| 形式 | SXM5 / PCIe 5.0 |
厂商信息
软件与驱动
关键特性
- Transformer Engine:自动在 FP8 与 FP16 之间切换,加速 Transformer 训练
- 第四代 Tensor Core:支持 FP8(E4M3、E5M2)
- DPX 指令:硬件加速动态规划算法
- MIG:单卡虚拟化为最多 7 个独立 GPU
- NVLink 4.0 + NVSwitch 3.0:服务器内 900 GB/s 互联
适用场景
- LLM 训练与微调
- 推荐系统与多模态 AI
- HPC 科学计算
- 大规模分布式训练集群
相关产品对比