2026 H2 顶级 AI 芯片选型指南:从 H100 到 Rubin、MI400、TPU 8t、TPU 8i
· 阅读需 8 分钟
2026 H2 是 AI 算力市场最丰富的时代:NVIDIA Rubin R200、AMD MI400、Trainium 3、TPU 8t/8i、Ascend 920、Groq 3 LPX 全部就位。本文提供完整选型树,帮助你根据模型规模、训练/推理、延迟要求、预算、地区选择最合适的产品。
选型决策树
开始
├─ 任务类型?
│ ├─ 训练 ──────────── [训练选型]
│ └─ 推理 ──────────── [推理选型]
└─ 地区?
├─ 北美 / 欧洲 ──── 全产品可选
├─ 中国 ────────── Huawei Ascend 系列
└─ AWS Cloud ───── Trainium / Inferentia
训练选型
100B+ LLM 训练
| 优先级 | 方案 | 单机柜算力 | 100B 模型训练时间 |
|---|---|---|---|
| 1 | NVIDIA Rubin NVL72 | 3.6 EF FP4 | ~1-2 天(300B tokens) |
| 2 | AWS Trn3 UltraServer (2+) | 104 PF FP8 | ~3-5 天 |
| 3 | AMD Helios | 2.88 EF FP4 dense | ~1-2 天 |
| 4 | Google TPU 8t pod (大 pod) | 590+ EF FP8 dense | ~数小时(Google 内部) |
推荐:
- 商业云端:NVIDIA Rubin NVL72
- 成本敏感:AWS Trn3 UltraServer
- 开放生态:AMD Helios
- Google Cloud:TPU 8t pod
70B LLM 训练
| 方案 | 配置 | 价格 | 推荐场景 |
|---|---|---|---|
| NVIDIA H200 | 8 卡 H200 | ~$264K | 主流 |
| NVIDIA B200 | 8 卡 B200 | ~$400K | 高端 |
| NVIDIA B300 Ultra | 8 卡 B300 | ~$500K | 最新 |
| AMD MI300X | 8 卡 MI300X | ~$120K | 性价比 |
| AMD MI325X | 8 卡 MI325X | ~$160K | 高显存 |
| Trainium 2 | trn2.48xlarge × 4 | ~$32/hr | AWS 客户 |
| Trainium 3 | trn3 UltraServer | ~$5M | 超大规模 |
推荐:
- 商业主流:NVIDIA H200 8 卡
- 性能优先:NVIDIA B300 Ultra 8 卡
- 性价比:AMD MI300X 8 卡
- AWS 云:Trainium 3 UltraServer
7B-13B LLM 训练
| 方案 | 配置 | 价格 | 推荐 |
|---|---|---|---|
| NVIDIA A100 80GB | 8 卡 A100 | ~$160K | 主流 |
| NVIDIA H100 | 8 卡 H100 | ~$240K | 高端 |
| NVIDIA RTX 6000 Ada | 4-8 卡 | ~$27K | 工作站 |
| AMD MI300X | 8 卡 MI300X | ~$120K | 性价比 |
| Intel Gaudi 3 | 8 卡 Gaudi 3 | ~$80K | 预算敏感 |
推荐:
- 商业主流:NVIDIA A100 80GB
- 高端:NVIDIA H100
- 工作站:NVIDIA RTX 6000 Ada
- 性价比:AMD MI300X
- 预算敏感:Intel Gaudi 3
1B-3B LLM 训练
| 方案 | 配置 | 推荐 |
|---|---|---|
| NVIDIA RTX 4090 | 单卡 | 本地 |
| NVIDIA RTX 5090 | 单卡 | 本地高端 |
| NVIDIA A100 40GB | 4 卡 | 商业 |
| Intel Gaudi 2 | 8 卡 | 预算 |
| Apple M3 Ultra | 单工作站 | 本地 LLM |
推理选型
70B+ LLM 推理(单卡)
| 方案 | FP16 70B 可装? | 算力 | 推荐 |
|---|---|---|---|
| NVIDIA B300 Ultra (288 GB) | ✅ 装 1 个 | 7 PF FP8 | 首选 |
| Google TPU 8i (288 GB HBM) | ✅ 装 1 个 | 11 PF FP8 | Google Cloud |
| AMD MI400 (432 GB HBM4) | ✅ 装 1 个 | 20 PF FP8 dense | 2026 |
| NVIDIA H200 (141 GB) | ❌ 需 TP2 | 1.0 PF FP8 | 上一代 |
| AMD MI325X (256 GB) | ✅ 装 1 个 | 2.6 PF FP8 | 上一代 |
| NVIDIA Groq 3 LPX (128 GB SRAM/机柜) | ✅ 装 1 个 | 5.5 PF (机柜) | 超低延迟 |
推荐:
- 商业云:NVIDIA B300 Ultra 或 TPU 8i
- 大显存:AMD MI400 / TPU 8i
- 超低延迟:Groq 3 LPX
- 性价比:AMD MI325X
7B-30B LLM 推理
| 方案 | 显存 | 算力 | 价格 | 推荐 |
|---|---|---|---|---|
| NVIDIA L40S | 48 GB | 733 TF FP8 | ~$8K | 通用 |
| NVIDIA A100 80GB | 80 GB | 624 TOPS INT8 | ~$15K | 大模型 |
| NVIDIA H100 | 80 GB | 4 PF FP8 | ~$30K | 高性能 |
| Google TPU 8i | 288 GB | 11 PF FP8 | 仅云 | Google Cloud |
| AWS Inferentia 2 | 32 GB | 190 TOPS | Inf2 实例 | AWS |
| Apple M3 Ultra | 192 GB | 80 核 GPU | ~$5K | 本地 |
推荐:
- 商业云:NVIDIA L40S / A100
- AWS 云:Inferentia 2
- Google Cloud:TPU 8i
- 本地:Apple M3 Ultra
超低延迟推理(Agentic AI)
| 方案 | TTFT | TPOT | 价格 | 推荐 |
|---|---|---|---|---|
| Groq 3 LPX | < 20ms | < 5ms | $8-10M/机柜 | 首选 |
| Groq LPU v1 | ~50ms | ~10ms | $1.8M/机柜 | 备选 |
| TPU 8i | ~100ms | ~15ms | 云端 | Google Cloud |
| NVIDIA H200 | ~200ms | ~30ms | $30K | 通用 |
| AWS Inferentia 2 | ~200ms | ~30ms | AWS 实例 | AWS |
推荐:
- Agentic AI(1000+ 调用/秒):Groq 3 LPX(唯一选择)
- Real-time Code Gen:Groq 3 LPX
- 中等延迟需求:TPU 8i / H200
模型规模速查
| 模型规模 | 单卡可装(FP16) | 推荐训练 | 推荐推理 |
|---|---|---|---|
| 1B-3B | 任何 8GB+ GPU | RTX 4090 / A100 | RTX 4090 / L4 |
| 7B | 24 GB | A100 40GB × 4 | L4 / L40S |
| 13B | 32 GB | A100 40GB × 4 | L4 / L40S |
| 30B | 64 GB | A100 80GB × 4 | L40S / H100 |
| 70B | 141 GB | H200 × 8 | B300 Ultra 单卡 / TPU 8i |
| 405B | 800 GB | NVL72 | B300 Ultra × 4 / Rubin R200 |
| 1T+ | 2 TB | Rubin NVL576 | Rubin R200 × 多卡 / LPX 协同 |
预算速查
| 月预算 | 推荐训练配置 | 推荐推理配置 |
|---|---|---|
| < $5K | RTX 4090 / 集群 | L4 / T4 |
| $5K-20K | 8× A100 80GB | L40S / H100 单卡 |
| $20K-100K | 8× H100 / MI300X | H200 / B200 |
| $100K-500K | 8× B200 / NVL72 | B300 Ultra / TPU 8i |
| $500K-5M | Rubin NVL72 / Helios | Rubin NVL72 / Helios |
| $5M-50M | Rubin NVL576 (8+) | Groq 3 LPX 机柜 |
| $50M+ | 多数据中心 | 混合方案 |
地区速查
中国市场(必须国产)
| 场景 | 推荐 | 理由 |
|---|---|---|
| 政府/电信 | Huawei Ascend 920 | 国产最强 |
| 互联网大模型 | Huawei Ascend 920 + CloudMatrix 384 Ultra | 系统级 |
| 边缘 AI | Huawei Ascend 310 | 国产 |
| 国家级 AI | Huawei CloudMatrix 384 Ultra | 单系统 345 PFLOPS |
北美 / 欧洲(自由选择)
| 优先级 | 厂商 | 理由 |
|---|---|---|
| 1 | NVIDIA | 生态成熟、性能最强 |
| 2 | AMD | 性价比、开放生态 |
| 3 | AWS | 仅在 AWS 云 |
| 4 | 仅在 Google Cloud |
AWS Cloud(仅 AWS 生态)
| 场景 | 推荐 |
|---|---|
| 训练 | Trainium 3 UltraServer(3nm, 4.4×) |
| 推理 | Inferentia 2(便宜) |
| 通用 | NVIDIA H100(p5.48xlarge) |
Google Cloud(仅 Google 生态)
| 场景 | 推荐 |
|---|---|
| 训练 | TPU 8t pod(9,216 chip) |
| 推理 | TPU 8i(288GB HBM) |
| 通用 | NVIDIA H100 / A100 |
延迟要求速查
| 延迟要求 | 训练 | 推理 |
|---|---|---|
| > 1s | 任何方案 | 任何方案 |
| 100ms-1s | 任何方案 | NVIDIA H200 / TPU 8i |
| 50-100ms | — | TPU 8i / H200 NVL |
| 20-50ms | — | Groq 3 LPX |
| < 20ms | — | Groq 3 LPX rack |
2026 H2 选型速查表
| 需求 | 推荐方案 | 备选 |
|---|---|---|
| 万亿参数 LLM 训练 | NVIDIA Rubin NVL72 | AMD Helios |
| 700B LLM 训练 | AMD Helios (open) 或 NVIDIA Rubin NVL72 | Trainium 3 |
| 70B LLM 推理(单卡) | NVIDIA B300 Ultra | TPU 8i / MI400 |
| 70B LLM 训练 | NVIDIA H200 / B200 | AMD MI300X / MI325X |
| 7B-13B LLM 训练 | NVIDIA A100 / H100 | AMD MI300X / Gaudi 3 |
| 本地 7B LLM | NVIDIA RTX 4090 / 5090 | Apple M3 Ultra |
| 超低延迟 LLM 推理 | Groq 3 LPX | TPU 8i |
| Agentic AI | Groq 3 LPX rack | 唯一选择 |
| 中国市场 | Huawei Ascend 920 | Ascend 910C |
| AWS 云 | Trainium 3 | NVIDIA H100 |
| Google Cloud | TPU 8t (训练) + 8i (推理) | NVIDIA H100 |
| 机器人 / 物理 AI | Jetson AGX Thor T5000 | Jetson Orin |
| 工业边缘 | Jetson AGX Orin 64GB | Hailo-15 |
| 性价比深度学习 | AMD MI300X | Intel Gaudi 3 |
| Intel 生态保留 | Intel Jaguar Shores (2027-2028) | Gaudi 3 |
| 超低延迟 AI | Groq 3 LPX (256 LPU) | 唯一 |
详细产品页索引
训练 GPU
训练 ASIC
推理 GPU
推理 ASIC
晶圆级
其他
总结
2026 H2 选型核心原则:
- 训练 + 推理 = 同一芯片?多数场景用 NVIDIA B300 Ultra / H200 同时解决。
- 超低延迟推理?选 Groq 3 LPX,无替代。
- AWS 云?选 Trainium 3,每美元性能 2-3×。
- Google Cloud?选 TPU 8t (训练) + TPU 8i (推理)。
- 中国市场?Huawei Ascend 920 + CloudMatrix 384 Ultra。
- 开放生态?AMD Helios(UALoF 开放互联)。
- 预算敏感?AMD MI300X 或 Intel Gaudi 3。
- 本地 LLM?Apple M3 Ultra (192GB UMA)。
没有最好,只有最合适。结合你的模型规模、延迟要求、预算、地区,参考本文的选型树和速查表。