跳到主要内容

TPU (Tensor Processing Unit) 架构

什么是 TPU

TPU(Tensor Processing Unit)Google 自研的专用 AI 加速器,2015 年首次部署(用于 AlphaGo),2018 年对外开放 Google Cloud。专为神经网络矩阵运算设计,核心是 MXU(Matrix Multiply Unit)——128×128 矩阵乘法器。

最新 TPU v7 Ironwood(2025)单芯片 192GB HBM,专为 LLM 推理时代设计。

TPU 历代演进

年份算力(BF16)内存Pod 规模特点
TPU v1201523 TOPS INT88GB256推理
TPU v22017180 TFLOPS16GB HBM256训练推理 fungible
TPU v32018420 TFLOPS32GB HBM1024液冷
TPU v42021275 TFLOPS32GB HBM40962D Torus
TPU v5e2023197 TOPS INT816GB HBM256推理优化
TPU v5p2023459 TFLOPS95GB HBM38960训练旗舰
TPU v6e (Trillium)2024918 TFLOPS32GB HBM256训练推理 fungible
TPU v7 (Ironwood)20254,614 TOPS FP8192GB HBM9,216推理时代旗舰

核心架构:MXU

矩阵乘法单元(MXU)

  • 128×128 脉动阵列(Systolic Array)
  • 每周期完成 16,384 次乘加(INT8)
  • BF16 / INT8 / FP8 支持
  • 稀疏加速:跳过 0 值

HBM Memory

  • 高带宽内存(HBM2 / HBM2e / HBM3)
  • TPU v7 达 192GB(单芯片)
  • 7,380 GB/s 带宽

SparseCore

  • 第二代(TPU v4+)
  • 加速 embedding lookup(推荐系统)
  • 用于 Google Search、YouTube

互联拓扑

2D Torus(TPU v4)

  • 单 Pod 4,096 chips = 32×32 网格
  • ICI(Inter-Chip Interconnect)800 GB/s
  • 数据在 2D 网格上循环流动

3D Torus(TPU v5p, v7)

  • 单 Pod 8,960-9,216 chips
  • 3D 立方体拓扑
  • 6 个方向互联(vs 2D 4 方向)
  • 减少长距离通信延迟

TPU vs GPU

维度TPUGPU (NVIDIA)
算力MXU 128×128 脉动阵列Tensor Core 矩阵乘法
内存HBM(中等)HBM(更大)
互联2D/3D Torus(超大 Pod)NVLink(较小 Pod)
编程XLA 编译CUDA 解释执行
生态JAX / TensorFlowPyTorch / TF / JAX
部署仅 Google Cloud任意部署
价格按小时租赁一次性 / 云
适用超大模型训练 / 推理通用 AI

软件栈

编程模型

  • XLA(Accelerated Linear Algebra)编译器
  • JAX(Google 推荐框架)
  • TensorFlow(原生支持)
  • PyTorch/XLA(官方后端)

高级 API

  • Pathways(异构 TPU 调度)
  • MaxText(LLM 训练参考实现)
  • TPU VM(v4+ 专用运行时)

TPU 适用场景

  • 超大模型训练(PaLM 540B 用 2 个 Pod)
  • ✅ LLM 推理(v7 Ironwood 192GB)
  • ✅ 推荐系统(DLRM,embedding 加速)
  • ✅ Google Cloud 客户
  • ❌ 自有数据中心(仅 Google Cloud 访问)
  • ❌ 低延迟小模型(GPU 更灵活)

详细产品页

训练 / 训练推理 fungible

推理优化 / 拆分架构

  • Google TPU v5e - 2023-Q2 推理 Lite, 16GB HBM2 400 TF FP8 $1.20/小时
  • Google TPU 8t - 2026-04 首次拆分训练, 训练专用 ASIC
  • Google TPU 8i - 2026-04 首次拆分推理, 288GB HBM 单卡当前最大推理 ASIC

边缘

相关架构