TPU (Tensor Processing Unit) 架构

什么是 TPU

TPU（Tensor Processing Unit） 是 Google 自研的专用 AI 加速器，2015 年首次部署（用于 AlphaGo），2018 年对外开放 Google Cloud。专为神经网络矩阵运算设计，核心是 MXU（Matrix Multiply Unit）——128×128 矩阵乘法器。

最新 TPU v7 Ironwood（2025）单芯片 192GB HBM，专为 LLM 推理时代设计。

TPU 历代演进

代	年份	算力（BF16）	内存	Pod 规模	特点
TPU v1	2015	23 TOPS INT8	8GB	256	推理
TPU v2	2017	180 TFLOPS	16GB HBM	256	训练推理 fungible
TPU v3	2018	420 TFLOPS	32GB HBM	1024	液冷
TPU v4	2021	275 TFLOPS	32GB HBM	4096	2D Torus
TPU v5e	2023	197 TOPS INT8	16GB HBM	256	推理优化
TPU v5p	2023	459 TFLOPS	95GB HBM3	8960	训练旗舰
TPU v6e (Trillium)	2024	918 TFLOPS	32GB HBM	256	训练推理 fungible
TPU v7 (Ironwood)	2025	4,614 TOPS FP8	192GB HBM	9,216	推理时代旗舰

核心架构：MXU

矩阵乘法单元（MXU）

128×128 脉动阵列（Systolic Array）
每周期完成 16,384 次乘加（INT8）
BF16 / INT8 / FP8 支持
稀疏加速：跳过 0 值

HBM Memory

高带宽内存（HBM2 / HBM2e / HBM3）
TPU v7 达 192GB（单芯片）
7,380 GB/s 带宽

SparseCore

第二代（TPU v4+）
加速 embedding lookup（推荐系统）
用于 Google Search、YouTube

互联拓扑

2D Torus（TPU v4）

单 Pod 4,096 chips = 32×32 网格
ICI（Inter-Chip Interconnect）800 GB/s
数据在 2D 网格上循环流动

3D Torus（TPU v5p, v7）

单 Pod 8,960-9,216 chips
3D 立方体拓扑
6 个方向互联（vs 2D 4 方向）
减少长距离通信延迟

TPU vs GPU

维度	TPU	GPU (NVIDIA)
算力	MXU 128×128 脉动阵列	Tensor Core 矩阵乘法
内存	HBM（中等）	HBM（更大）
互联	2D/3D Torus（超大 Pod）	NVLink（较小 Pod）
编程	XLA 编译	CUDA 解释执行
生态	JAX / TensorFlow	PyTorch / TF / JAX
部署	仅 Google Cloud	任意部署
价格	按小时租赁	一次性 / 云
适用	超大模型训练 / 推理	通用 AI

软件栈

编程模型

XLA（Accelerated Linear Algebra）编译器
JAX（Google 推荐框架）
TensorFlow（原生支持）
PyTorch/XLA（官方后端）

高级 API

Pathways（异构 TPU 调度）
MaxText（LLM 训练参考实现）
TPU VM（v4+ 专用运行时）

TPU 适用场景

✅ 超大模型训练（PaLM 540B 用 2 个 Pod）
✅ LLM 推理（v7 Ironwood 192GB）
✅ 推荐系统（DLRM，embedding 加速）
✅ Google Cloud 客户
❌ 自有数据中心（仅 Google Cloud 访问）
❌ 低延迟小模型（GPU 更灵活）

详细产品页

训练 / 训练推理 fungible

Google TPU v4 - 2021 旗舰, 2D Torus 4096 chip Pod
Google TPU v5p - 2023 训练旗舰, 95GB HBM3 3D Torus 8960 chip Pod
Google TPU v6p (Pathway) - 2024-12, 96GB HBM2 2.7 PF FP8 9216 chip Pod, Gemini 训练主力
Google TPU v6e (Trillium) - 2024 训练推理 fungible, 918 TFLOPS BF16
Google TPU v7 (Ironwood) - 2025 推理旗舰, 192GB HBM 4614 FP8 TFLOPS 9216 chip Pod

推理优化 / 拆分架构

Google TPU v5e - 2023-Q2 推理 Lite, 16GB HBM2 400 TF FP8 $1.20/小时
Google TPU 8t - 2026-04 首次拆分训练, 训练专用 ASIC
Google TPU 8i - 2026-04 首次拆分推理, 288GB HBM 单卡当前最大推理 ASIC

边缘

Google Edge TPU (Coral) - 2019 边缘 4 TOPS / 2 TOPS/W USB $59.99, TF Lite 6 形态

什么是 TPU​

TPU 历代演进​

核心架构：MXU​

矩阵乘法单元（MXU）​

HBM Memory​

SparseCore​

互联拓扑​

2D Torus（TPU v4）​

3D Torus（TPU v5p, v7）​

TPU vs GPU​

软件栈​

编程模型​

高级 API​

TPU 适用场景​

详细产品页​

训练 / 训练推理 fungible​

推理优化 / 拆分架构​

边缘​

相关架构​