Skip to main content

RPU / RDU (可重构数据流) 架构

什么是 RPU / RDU

RPU(Reconfigurable Processing Unit)Tenstorrent 推出的可重构处理单元,RDU(Reconfigurable Dataflow Unit)SambaNova 提出的类似架构。

核心思想:通过编译器自动并行化映射神经网络到大量小型张量核(tensor core),无传统 SIMT 调度开销,性能/瓦特优于传统 GPU。

代表产品

  • Tenstorrent Grayskull(2021):150W 入门
  • Tenstorrent Wormhole(2023):16 核,200W
  • Tenstorrent Blackhole(2024):120 核,300W
  • SambaNova SN40L(2023):1,020 核,1,000 TFLOPS

RPU/RDU vs GPU

维度RPU/RDUGPU (H100)
编程模型编译器自动并行CUDA 手工优化
核结构小型张量核 × 数百Tensor Core × 132
控制流静态数据流动态 SIMT
灵活(每核可独立编程)中(warp 调度)
性能/瓦特(编译器优化)
生态小(自研 SDK)CUDA 成熟
价格

Tenstorrent 系列

Grayskull (e75 / e150)

  • 2021-07 发布
  • 120 核 Tensix(每核含 5 个 RISC-V + 1 个张量引擎)
  • 150W TDP
  • 主要面向开发者

Wormhole (n150 / n300)

  • 2023 发布
  • 8 / 16 核 Tensix
  • 200W TDP
  • 边缘服务器

Blackhole (p100a / p150a)

  • 2024 发布
  • 120 核 Tensix
  • 300W TDP
  • 数据中心级

SambaNova SN40L

  • 2023 发布
  • 40 GB HBM / 1,020 RDU 核
  • 600 TFLOPS BF16
  • 150W TDP(难以置信)
  • 客户:圣地亚哥超算中心(SDSC)
  • 适合单卡 70B+ LLM 推理(40GB HBM + RDU 高效执行)

软件生态

Tenstorrent

  • TT-Buda(编译器,原 Buda 收购)
  • TT-Metalium(底层 SDK)
  • PyTorch / TensorFlow 集成
  • 开源生态

SambaNova

  • SambaFlow(编译器)
  • DataScale SN40L 系统
  • 企业级 LLM 推理服务

适用场景

  • 大模型推理(SN40L 单卡 70B+)
  • ✅ LLM 训练(Tenstorrent Blackhole 多卡)
  • ✅ 数据中心能效优化(编译器自动并行)
  • ✅ 科研 / HPC(开源 RISC-V 架构)
  • ❌ 通用 GPU 计算(生态小)
  • ❌ 主流深度学习(CUDA 性能更成熟)

详细产品页

Tenstorrent(RISC-V 张量核 RDU)

SambaNova(Dataflow RDU)

其他 RPU/RDU 架构

相关架构