Skip to main content

2026 H2 顶级 AI 芯片选型指南:从 H100 到 Rubin、MI400、TPU 8t、TPU 8i

· 8 min read
AI Compute Cards Wiki Editorial
Industry Research Team

2026 H2 是 AI 算力市场最丰富的时代:NVIDIA Rubin R200、AMD MI400、Trainium 3、TPU 8t/8i、Ascend 920、Groq 3 LPX 全部就位。本文提供完整选型树,帮助你根据模型规模、训练/推理、延迟要求、预算、地区选择最合适的产品。

选型决策树

开始
├─ 任务类型?
│ ├─ 训练 ──────────── [训练选型]
│ └─ 推理 ──────────── [推理选型]
└─ 地区?
├─ 北美 / 欧洲 ──── 全产品可选
├─ 中国 ────────── Huawei Ascend 系列
└─ AWS Cloud ───── Trainium / Inferentia

训练选型

100B+ LLM 训练

优先级方案单机柜算力100B 模型训练时间
1NVIDIA Rubin NVL723.6 EF FP4~1-2 天(300B tokens)
2AWS Trn3 UltraServer (2+)104 PF FP8~3-5 天
3AMD Helios2.88 EF FP4 dense~1-2 天
4Google TPU 8t pod (大 pod)590+ EF FP8 dense~数小时(Google 内部)

推荐

  • 商业云端:NVIDIA Rubin NVL72
  • 成本敏感:AWS Trn3 UltraServer
  • 开放生态:AMD Helios
  • Google Cloud:TPU 8t pod

70B LLM 训练

方案配置价格推荐场景
NVIDIA H2008 卡 H200~$264K主流
NVIDIA B2008 卡 B200~$400K高端
NVIDIA B300 Ultra8 卡 B300~$500K最新
AMD MI300X8 卡 MI300X~$120K性价比
AMD MI325X8 卡 MI325X~$160K高显存
Trainium 2trn2.48xlarge × 4~$32/hrAWS 客户
Trainium 3trn3 UltraServer~$5M超大规模

推荐

  • 商业主流:NVIDIA H200 8 卡
  • 性能优先:NVIDIA B300 Ultra 8 卡
  • 性价比:AMD MI300X 8 卡
  • AWS 云:Trainium 3 UltraServer

7B-13B LLM 训练

方案配置价格推荐
NVIDIA A100 80GB8 卡 A100~$160K主流
NVIDIA H1008 卡 H100~$240K高端
NVIDIA RTX 6000 Ada4-8 卡~$27K工作站
AMD MI300X8 卡 MI300X~$120K性价比
Intel Gaudi 38 卡 Gaudi 3~$80K预算敏感

推荐

  • 商业主流:NVIDIA A100 80GB
  • 高端:NVIDIA H100
  • 工作站:NVIDIA RTX 6000 Ada
  • 性价比:AMD MI300X
  • 预算敏感:Intel Gaudi 3

1B-3B LLM 训练

方案配置推荐
NVIDIA RTX 4090单卡本地
NVIDIA RTX 5090单卡本地高端
NVIDIA A100 40GB4 卡商业
Intel Gaudi 28 卡预算
Apple M3 Ultra单工作站本地 LLM

推理选型

70B+ LLM 推理(单卡)

方案FP16 70B 可装?算力推荐
NVIDIA B300 Ultra (288 GB)✅ 装 1 个7 PF FP8首选
Google TPU 8i (288 GB HBM)✅ 装 1 个11 PF FP8Google Cloud
AMD MI400 (432 GB HBM4)✅ 装 1 个20 PF FP8 dense2026
NVIDIA H200 (141 GB)❌ 需 TP21.0 PF FP8上一代
AMD MI325X (256 GB)✅ 装 1 个2.6 PF FP8上一代
NVIDIA Groq 3 LPX (128 GB SRAM/机柜)✅ 装 1 个5.5 PF (机柜)超低延迟

推荐

  • 商业云:NVIDIA B300 Ultra 或 TPU 8i
  • 大显存:AMD MI400 / TPU 8i
  • 超低延迟:Groq 3 LPX
  • 性价比:AMD MI325X

7B-30B LLM 推理

方案显存算力价格推荐
NVIDIA L40S48 GB733 TF FP8~$8K通用
NVIDIA A100 80GB80 GB624 TOPS INT8~$15K大模型
NVIDIA H10080 GB4 PF FP8~$30K高性能
Google TPU 8i288 GB11 PF FP8仅云Google Cloud
AWS Inferentia 232 GB190 TOPSInf2 实例AWS
Apple M3 Ultra192 GB80 核 GPU~$5K本地

推荐

  • 商业云:NVIDIA L40S / A100
  • AWS 云:Inferentia 2
  • Google Cloud:TPU 8i
  • 本地:Apple M3 Ultra

超低延迟推理(Agentic AI)

方案TTFTTPOT价格推荐
Groq 3 LPX< 20ms< 5ms$8-10M/机柜首选
Groq LPU v1~50ms~10ms$1.8M/机柜备选
TPU 8i~100ms~15ms云端Google Cloud
NVIDIA H200~200ms~30ms$30K通用
AWS Inferentia 2~200ms~30msAWS 实例AWS

推荐

  • Agentic AI(1000+ 调用/秒):Groq 3 LPX(唯一选择)
  • Real-time Code Gen:Groq 3 LPX
  • 中等延迟需求:TPU 8i / H200

模型规模速查

模型规模单卡可装(FP16)推荐训练推荐推理
1B-3B任何 8GB+ GPURTX 4090 / A100RTX 4090 / L4
7B24 GBA100 40GB × 4L4 / L40S
13B32 GBA100 40GB × 4L4 / L40S
30B64 GBA100 80GB × 4L40S / H100
70B141 GBH200 × 8B300 Ultra 单卡 / TPU 8i
405B800 GBNVL72B300 Ultra × 4 / Rubin R200
1T+2 TBRubin NVL576Rubin R200 × 多卡 / LPX 协同

预算速查

月预算推荐训练配置推荐推理配置
< $5KRTX 4090 / 集群L4 / T4
$5K-20K8× A100 80GBL40S / H100 单卡
$20K-100K8× H100 / MI300XH200 / B200
$100K-500K8× B200 / NVL72B300 Ultra / TPU 8i
$500K-5MRubin NVL72 / HeliosRubin NVL72 / Helios
$5M-50MRubin NVL576 (8+)Groq 3 LPX 机柜
$50M+多数据中心混合方案

地区速查

中国市场(必须国产)

场景推荐理由
政府/电信Huawei Ascend 920国产最强
互联网大模型Huawei Ascend 920 + CloudMatrix 384 Ultra系统级
边缘 AIHuawei Ascend 310国产
国家级 AIHuawei CloudMatrix 384 Ultra单系统 345 PFLOPS

北美 / 欧洲(自由选择)

优先级厂商理由
1NVIDIA生态成熟、性能最强
2AMD性价比、开放生态
3AWS仅在 AWS 云
4Google仅在 Google Cloud

AWS Cloud(仅 AWS 生态)

场景推荐
训练Trainium 3 UltraServer(3nm, 4.4×)
推理Inferentia 2(便宜)
通用NVIDIA H100(p5.48xlarge)

Google Cloud(仅 Google 生态)

场景推荐
训练TPU 8t pod(9,216 chip)
推理TPU 8i(288GB HBM)
通用NVIDIA H100 / A100

延迟要求速查

延迟要求训练推理
> 1s任何方案任何方案
100ms-1s任何方案NVIDIA H200 / TPU 8i
50-100msTPU 8i / H200 NVL
20-50msGroq 3 LPX
< 20msGroq 3 LPX rack

2026 H2 选型速查表

需求推荐方案备选
万亿参数 LLM 训练NVIDIA Rubin NVL72AMD Helios
700B LLM 训练AMD Helios (open) 或 NVIDIA Rubin NVL72Trainium 3
70B LLM 推理(单卡)NVIDIA B300 UltraTPU 8i / MI400
70B LLM 训练NVIDIA H200 / B200AMD MI300X / MI325X
7B-13B LLM 训练NVIDIA A100 / H100AMD MI300X / Gaudi 3
本地 7B LLMNVIDIA RTX 4090 / 5090Apple M3 Ultra
超低延迟 LLM 推理Groq 3 LPXTPU 8i
Agentic AIGroq 3 LPX rack唯一选择
中国市场Huawei Ascend 920Ascend 910C
AWS 云Trainium 3NVIDIA H100
Google CloudTPU 8t (训练) + 8i (推理)NVIDIA H100
机器人 / 物理 AIJetson AGX Thor T5000Jetson Orin
工业边缘Jetson AGX Orin 64GBHailo-15
性价比深度学习AMD MI300XIntel Gaudi 3
Intel 生态保留Intel Jaguar Shores (2027-2028)Gaudi 3
超低延迟 AIGroq 3 LPX (256 LPU)唯一

详细产品页索引

训练 GPU

训练 ASIC

推理 GPU

推理 ASIC

晶圆级

其他

总结

2026 H2 选型核心原则:

  1. 训练 + 推理 = 同一芯片?多数场景用 NVIDIA B300 Ultra / H200 同时解决。
  2. 超低延迟推理?选 Groq 3 LPX,无替代。
  3. AWS 云?选 Trainium 3,每美元性能 2-3×。
  4. Google Cloud?选 TPU 8t (训练) + TPU 8i (推理)
  5. 中国市场Huawei Ascend 920 + CloudMatrix 384 Ultra
  6. 开放生态AMD Helios(UALoF 开放互联)。
  7. 预算敏感AMD MI300XIntel Gaudi 3
  8. 本地 LLMApple M3 Ultra (192GB UMA)。

没有最好,只有最合适。结合你的模型规模、延迟要求、预算、地区,参考本文的选型树和速查表。