GPU (Graphics Processing Unit) 架构
什么是 GPU
GPU(Graphics Processing Unit) 最初为图形渲染设计,并行架构(数千个小型 ALU)天然适合 AI 矩阵运算。2007 年 NVIDIA 发布 CUDA,将 GPU 通用化为 GPGPU(General-Purpose GPU),开启 AI 加速时代。
当前 90%+ AI 训练和 70%+ 推理 在 GPU 上完成,CUDA 生态 是最大护城河。
GPU vs 其他 AI 芯片
| 维度 | GPU | TPU | ASIC | NPU |
|---|
| 通用性 | 最强 | 中(Google Cloud 限定) | 弱 | 中 |
| 算力密度 | 高 | 极高 | 高 | 中 |
| 生态 | CUDA 垄断 | JAX/TF | 厂商自研 | 分散 |
| 编程模型 | CUDA/OpenCL/SYCL | XLA | 厂商 SDK | 厂商 SDK |
| 价格 | 高 | 高(仅云) | 中 | 中 |
| 适用 | 通用 AI / 训练 / 推理 | 数据中心训练 | 推理优化 | 端侧/边缘 |
主要厂商
NVIDIA(占 AI GPU 市场 ~90%)
- 数据中心:H100 / H200 / B100 / B200 / B300 / A100
- 推理:L2 / L4 / L40S / T4
- 工作站/消费:RTX 4090 / RTX 5090 / RTX 5080 / RTX 6000 Ada
- 边缘:Jetson Orin / Jetson Thor
AMD(占 AI GPU 市场 ~5%)
- 数据中心训练:MI250 / MI300X / MI300A / MI325X / MI350
- 生态:ROCm(CUDA 替代,性能落后)
Intel(占 AI GPU 市场 ~3%)
- 数据中心:Intel Max Series (Ponte Vecchio) / Flex Series
- 消费级:Arc 系列
- 集成 GPU:Meteor Lake / Lunar Lake NPU
主流 GPU 规格对比
| GPU | 架构 | 显存 | FP16 Tensor | TDP | 用途 |
|---|
| NVIDIA B300 Ultra | Blackwell Ultra | 288GB HBM3e | 15 PFLOPS | 1,400W | 顶级训练 |
| NVIDIA B200 | Blackwell | 192GB HBM3e | 2.25 PFLOPS | 1,000W | 数据中心 |
| NVIDIA H200 | Hopper | 141GB HBM3e | 1.98 PFLOPS | 700W | 训练/推理 |
| NVIDIA H100 | Hopper | 80GB HBM3 | 1.98 PFLOPS | 700W | 训练/推理 |
| NVIDIA RTX 5090 | Blackwell | 32GB GDDR7 | 419 TFLOPS | 575W | 消费级旗舰 |
| AMD MI355X | CDNA 4 | 288GB HBM3E | 10 PFLOPS | 1,400W | 训练 |
| AMD MI300X | CDNA 3 | 192GB HBM3 | 1.5 PFLOPS | 750W | 训练 |
编程模型
CUDA(NVIDIA)
- CUDA C/C++ — 底层 API
- cuDNN — 神经网络原语
- cuBLAS — 矩阵运算
- Triton — Python 高级编译器
- 生态:PyTorch / TensorFlow / JAX / vLLM
ROCm(AMD)
- HIP — CUDA 兼容 API
- MIOpen — 深度学习库
- 性能:约 NVIDIA 70-90%(取决于工作负载)
SYCL / oneAPI(Intel)
- DPC++ — C++ + SYCL
- oneMKL — 数学库
- 生态较小,但开源
GPU 适用场景
- ✅ 通用 AI 训练 / 推理(CUDA 生态成熟)
- ✅ LLM 训练(GPT-3 / LLaMA / Mixtral)
- ✅ Stable Diffusion 训练
- ✅ 科学计算(HPC)
- ✅ 数据中心多任务负载
- ❌ 极致能效(应使用 ASIC)
- ❌ 端侧(应使用 NPU)
选型建议
| 工作负载 | 推荐 GPU |
|---|
| 训练 GPT-4 类超大模型 | B200 / B300 / H200 |
| 训练 70B LLM | H100 8-way / MI300X 8-way |
| 训练 13B LLM | H100 / A100 |
| 推理 70B+ LLM | H100 NVL / H200 |
| 推理 13B LLM | L40S / L4 |
| Stable Diffusion XL | RTX 4090 / RTX 5090 |
| 边缘 AI 推理 | Jetson Orin / Thor |
| HPC + AI 联合 | MI300A / H100 |
详细产品页
NVIDIA 数据中心(H 系列 / A 系列)
NVIDIA Blackwell(B 系列)
NVIDIA Vera Rubin 平台(2026 H2)
- NVIDIA Vera Rubin R200 - 6 芯片 CoWoS-L 封装, 288GB HBM4 22 TB/s, 50 PFLOPS FP4 sparse, ConnectX-9 28.8 TB/s
- Rubin NVL72 (1 机柜): 72×R200 + 36×Vera, 1.4 EFLOPS FP4 sparse
- Rubin NVL576 (8 机柜): 576×R200 + 288×Vera, 28.8 EFLOPS FP4 sparse, 1.1 MW 单机房
NVIDIA 推理 / 边缘
AMD
Intel
相关架构