跳到主要内容

Google TPU 8t + 8i:首次拆分训练/推理的 TPU 时代

· 阅读需 5 分钟
AI Compute Cards Wiki Editorial
Industry Research Team

2026 年 4 月 22 日,Google 在 Cloud Next 大会上公布了 TPU 8t + TPU 8i——首次将 TPU 拆分为训练/推理两条独立产品线。TPU 8t 专注训练,TPU 8i 专注推理。这是 Google 应对 AI 推理时代的关键产品调整。

为什么要拆分 TPU?

过去 7 代 TPU(v1 → v7 Ironwood)都是训练/推理通用的:

  • v4-v6e:训练为主、推理辅助
  • v7 Ironwood:开始偏向推理,但仍是通用

但 2025-2026 年的 AI 行业发生根本变化:

  1. 训练需求:仅几家头部公司(OpenAI、Anthropic、Google DeepMind、Meta、xAI)需要
  2. 推理需求所有 AI 应用都需要,是 100× 更大的市场
  3. 推理优化方向与训练截然不同
    • 训练:算力 + 互联优先(compute-bound)
    • 推理:显存 + 带宽 + 散热灵活优先(memory-bound + TCO 敏感)

Google 因此决定将 TPU 拆分为两条产品线

产品定位核心优化
TPU 8t训练专用算力 + 互联 + 集成 Axion CPU
TPU 8i推理专用显存 + 带宽 + 散热灵活

TPU 8t:训练专用

项目参数
架构TPU 8t(Trillium 2)
形态训练专用
BF16 算力(密集)~3,500 TFLOPS
FP8 算力(密集)~7,000 TFLOPS
HBM 容量216 GB
HBM 带宽6,528 GB/s
ICI 互联1,400 GB/s(双向)
集成 CPUArm Axion(Google 自研,64 核)
Pod 规模9,216 芯片
拓扑3D Torus
散热液冷

Arm Axion 是 Google 自研的 64 核 ARM CPU,首次进入 TPU 节点。这让 TPU 8t 节点成为 TPU + Axion CPU 协同系统,对标 NVIDIA Vera CPU。

TPU 8i:推理专用

项目参数
架构TPU 8i(Trillium 2)
形态推理专用
BF16 算力(密集)~5,500 TFLOPS
FP8 算力(密集)~11,000 TFLOPS
INT8 算力~22,000 TOPS
HBM 容量288 GB
HBM 带宽8,601 GB/s
散热风冷 / 液冷均可
Pod 规模256 芯片

TPU 8i 单卡 288GB HBM = 当前最大显存推理 ASIC。单卡可装 FP16 70B 模型(不需张量并行),非常适合长上下文 RAG、Agentic AI

TPU 8t vs 8i 关键差异

指标TPU 8t(训练)TPU 8i(推理)
定位训练推理
BF16 算力~3,500 TFLOPS~5,500 TFLOPS(更强)
HBM 容量216 GB288 GB(更大)
HBM 带宽6,528 GB/s8,601 GB/s(更高)
散热液冷风冷/液冷
Pod 规模9,216 颗256 颗
集成 CPUArm Axion无(独立)
价格

拆分目的:训练强调算力 + 互联,推理强调显存 + 带宽 + 散热灵活性。

TPU 8i 推理范式优化

TPU 8i 专门为推理场景优化:

优化方向内容
超低延迟TTFT < 100ms(首 Token 延迟)
高吞吐10,000+ tok/s(70B 模型 FP8)
Long-context KV288GB 完整保留 1M+ token 上下文
MoE 推理Expert Parallel 原生支持
Speculative Decoding内部 speculative 加速
BatchingContinuous batching + PagedAttention
Continuous KV CacheKV Cache 跨请求共享(同 prefix 优化)

TPU 8t 训练范式优化

TPU 8t 专门为训练场景优化:

优化方向内容
MoE 训练Expert Parallel 原生支持(DeepSeek / Mixtral 风格)
Long-context 训练1M+ token 上下文训练优化
RLHF / 后训练Online RL(DPO / PPO / GRPO)原生优化
多模态训练视觉-语言联合训练(ViT + LLM 同步)
AXIOMArm Axion CPU 协同(数据预处理 / 权重初始化)

TPU 8i 推理服务定价

实例每小时价格(推测)
TPU 8i v6e-equivalent~$3-5 / chip
TPU v7 Ironwood~$6-8 / chip
TPU 8i vs TPU v7+50% 价格 / +150% 算力

TPU 8i 单美元 BF16 算力比 TPU v7 Ironwood 高 70%(按 2.4× 算力 / 1.5× 价格)。

软件生态

TPU 8t

  • JAX 0.5+:Google 主力训练框架
  • PyTorch/XLA 2.5+:PyTorch 兼容
  • TensorFlow 2.17+:旧框架
  • Paxml / Orbax:Google 内部 LLM 训练栈
  • MaxText:Google 参考实现

TPU 8i

  • JAX 0.5+:推理
  • PyTorch/XLA 2.5+:推理
  • vLLM 0.8+(TPU 后端):低延迟推理
  • Vertex AI Inference:Google 托管推理服务
  • Gemini API:内部最大用户

与同期竞品对比

指标TPU 8tTPU 8iNVIDIA B300 UltraGroq 3 LPX
定位训练推理训练+推理超低延迟推理
HBM/SRAM216 GB HBM288 GB HBM288 GB HBM3e128 GB SRAM
带宽6.5 TB/s8.6 TB/s8 TB/s40 PB/s
BF16 算力3.5 PF5.5 PF3.5 PF (FP8 dense)320 PF (机柜)
互联3D Torus3D TorusNVLink 5GroqSync
散热液冷风冷液冷液冷
客户Google DeepMindGemini / Vertex AIAWS / AzureNVIDIA 客户

详细产品页

总结

Google TPU 8t + 8i 拆分是 AI 推理时代的标志性事件:

  1. 首次拆分训练/推理 TPU——TPU 进入"专用化"时代
  2. TPU 8i 288GB HBM——单卡可装 70B 模型
  3. TPU 8i 风冷——降低数据中心部署门槛
  4. Arm Axion 集成——Google 自研 CPU 进入 TPU
  5. JAX 训练范式——Google 押注 JAX 作为下一代训练标准

Google 现在有"全场景 AI 算力覆盖"

  • 训练:TPU 8t pod
  • 通用推理:TPU 8i
  • Gemini API:TPU 8i 集群
  • Vertex AI:TPU 8i 商用