跳到主要内容

NVIDIA Rubin CPX (Context Processing Unit)

产品概述

NVIDIA Rubin CPX(全称 Rubin Context Processing Unit)是 NVIDIA 于 2025年9月9日 发布的业界首款专为超长上下文 AI 推理设计的 GPU2026 年下半年出货。采用单片式(Monolithic)设计,配备 128GB GDDR7 内存,FP4 算力达 30 PFLOPS,内存带宽仅 2 TB/s——刻意为上下文处理阶段(Compute-bound)优化,而非生成阶段(Memory-bandwidth-bound)。

Rubin CPX 与 Rubin GPU(负责生成阶段)和 Vera CPU(负责调度)配合,组成解耦式推理架构。在 Vera Rubin NVL144 CPX 机架中,144 颗 CPX + 144 颗 Rubin GPU + 36 颗 Vera CPU 提供 8 EFLOPS 总算力,是 GB300 NVL72 的 7.5×

核心规格

项目参数
架构Rubin(CPX 专用变体)
制程TSMC 3NP(推测)
封装单片式(Monolithic),非 MCM
显存128 GB GDDR7(消费级显存,非 HBM)
显存带宽2 TB/s
FP4(NVFP4)30 PFLOPS(稀疏,官方标称)
FP8 / FP16未公开
注意力加速3×(vs GB300 NVL72)
TDP500 W
板卡形态独立 GPU(与 Rubin GPU 配对使用)
发布时间2025-09-09(发布)
出货时间2026 H2

⚠️ 设计哲学:CPX 的 2 TB/s 带宽远低于 HBM 方案(B200: 8 TB/s,Rubin R200: 22 TB/s),因为上下文处理阶段是 Compute-bound(算力瓶颈),而非 Memory-bandwidth-bound(生成阶段)。低带宽 GDDR7 大幅降低成本。

解耦式推理架构

阶段执行单元瓶颈类型CPX 角色
上下文阶段(Context / Pre-fill)Rubin CPXCompute-bound处理 1M+ token 输入
生成阶段(Generation / Decode)Rubin GPUMemory-bandwidth-bound逐 token 生成输出
调度/预处理Vera CPUI/O bound请求调度 + KV Cache 管理

传统方案(GB200/B200):同一 GPU 处理两阶段,上下文阶段浪费高带宽内存。 CPX 方案:专用 CPX 处理上下文,Rubin GPU 专注生成,总吞吐量提升 6.5×(NVIDIA 官方数据)。

Vera Rubin NVL144 CPX 机架

项目参数
CPX GPU 数144
Rubin GPU 数144
Vera CPU 数36
总 FP4 算力8 EFLOPS
总高带宽内存100 TB
总内存带宽1.7 PB/s
对比 GB300 NVL72算力 7.5×,内存容量 ~14×
组网Quantum-X800 InfiniBand / Spectrum-X 以太网 + ConnectX-9
调度软件NVIDIA Dynamo 平台

与 Rubin R200 对比

指标Rubin CPXRubin R200(训练 GPU)
定位推理上下文专用训练 + 推理通用
显存128GB GDDR7288GB HBM4
带宽2 TB/s22 TB/s
FP4 算力30 PFLOPS50 PFLOPS(稀疏)
设计单片式6 芯片 MCM
TDP~500–600W(推测)~1,800W
成本(GDDR7 vs HBM4)

适用场景

  • 超长上下文推理(1M+ token,代码生成、视频理解)
  • 多轮对话系统(Context 阶段吞吐量 critical)
  • RAG(检索增强生成)(大量文档输入)
  • 推理专用集群(与训练集群分离)
  • ❌ 大模型训练(非目标场景)
  • ❌ 高带宽需求工作负载(生成阶段仍由 Rubin GPU 处理)

投资回报率(ROI)

NVIDIA 官方数据(SemiAnalysis 引用):

  • 单机架(NVL144 CPX):~$50M
  • 年收入贡献:$1.5B–2.5B(推理即服务)
  • ROI30–50×

相关卡

参考资料