Skip to main content

LPU (Language Processing Unit) 架构

什么是 LPU

LPU(Language Processing Unit)Groq 自研的语言处理单元,2016 年由前 Google TPU 团队创立。专为 LLM 推理的极致低延迟设计,单芯片 SRAM 228MB(vs GPU HBM 80GB),通过片上 SRAM + 编译器调度实现确定性延迟

核心创新编译器定义硬件(Compiler-Defined Hardware)——无缓存、无乱序执行,所有延迟可预测

核心架构:TSP

Tensor Streaming Process(TSP)

  • 功能单元:Matrix Multiply、ReLU、Add、Multiply、Transpose、Shuffle
  • 编译器预先调度所有操作
  • 数据在 TSP 单元间流过(streaming),无中间存储

编译器

  • GroqWare SDK(Python / C++)
  • 完全离线编译
  • 数据流图直接映射到硬件

片上 SRAM

  • 228 MB SRAM(GroqChip v1)
  • 80 TB/s 带宽(vs HBM 3 TB/s)
  • 决定性访问延迟(无缓存缺失)

LPU vs GPU vs TPU

维度LPU (Groq)GPU (H100)TPU (v4)
架构编译器定义流处理SIMT 通用并行脉动阵列
内存228MB SRAM80GB HBM32GB HBM
带宽80 TB/s3.35 TB/s1.2 TB/s
延迟确定性、亚毫秒受内存/调度影响中等
适用模型规模小(多芯片聚合)大(80GB 显存)大(Pod 聚合)
编译完全离线即时(JIT)XLA 离线
生态小(GroqWare)CUDA 成熟JAX/TF

适用场景

  • 超低延迟 LLM 推理(GroqCloud API 已支持 Llama 3 70B、Mixtral 8x7B)
  • ✅ 实时对话 AI(首个 token 延迟 < 100ms)
  • ✅ 批处理 LLM 推理(高吞吐)
  • ✅ 多模态实时推理
  • ❌ 大模型训练(不适用)
  • ❌ 通用 GPU 计算

Groq 商业化

  • GroqCloud(API 服务,2024 起)
  • GroqRack(8 颗 GroqChip 服务器,$1.8M/机柜)
  • 客户:Meta(Llama 推理)、Anthropic、Instagram、Substack

2026-Q1 NVIDIA 收购 Groq(重大事件)

时间事件详情
2025-12投资NVIDIA 投资 Groq 2.5 亿美元
2026-Q1全资收购NVIDIA 以约 200 亿美元全资收购 Groq
2026 H2产品整合Groq 3 LPU 重命名为 NVIDIA Groq 3 LPX,整合到 Vera Rubin 平台
2026 H2+协同生态LPX rack 作为 Rubin GPU 的超低延迟推理 co-processor

💡 收购战略意义

  • NVIDIA 在 GPU 算力领先的基础上,**通过 LPU 补全了"超低延迟推理"**的能力
  • Rubin GPU + LPX 协处理 = 全场景 AI 算力覆盖(训练 + 推理 + 极致低延迟推理)
  • 客户:OpenAI、Anthropic、Meta、Mistral 等
  • GroqCloud 继续运营(OpenAI 兼容 API)

Groq 3 LPX 机柜(2026 H2)

项目参数
芯片数256 颗 Groq 3 LPU / 机柜
片上 SRAM(机柜)128 GB 聚合
SRAM 带宽(机柜)40 PB/s
互联GroqSync + NVLink-Network,640 TB/s
INT8 算力(机柜)~640,000 TOPS
TDP(机柜)~80 kW
perf/W35× H100(官方)
TTFT(首 Token 延迟)< 20ms
TPOT(单 Token 延迟)< 5ms

Groq 3 LPX = 当前唯一专为 Agentic AI 设计的机柜级 LPU 系统。40 PB/s SRAM 带宽 ≈ 5,000× H100 HBM 带宽(80GB HBM3 = 3.35 TB/s)。

详细产品页

Groq (独立)

Groq (NVIDIA 旗下)

  • Groq LPU v2 - 2024-Q3, 4nm 80GB SRAM 200W GroqCloud 服务, 收购前最后一代
  • NVIDIA Groq 3 LPX - 2026 H2 256 LPU 机柜, 128GB 聚合 SRAM 40 PB/s, 收购后整合到 Vera Rubin 平台

相关架构