跳到主要内容

Tenstorrent Blackhole (RISC-V 2nd Gen, 2024)

产品概述

Tenstorrent Blackhole 是 Tenstorrent 第二代 RISC-V AI 芯片2024 H1 发布6nm 制程(TSMC),120 个 Tensix 核Wormhole 80 核的 1.5×),8GB SRAM业界最大 AI 芯片 SRAM 之一),16 BF16 PFLOPS 集群算力8 卡互联)。架构由传奇 CPU 设计师 Jim Keller(前 Apple A14/M1、AMD Zen、Tenstorrent CTO)领导设计。

关键定位:Tenstorrent 是 唯一同时具备 RISC-V + 自研 ASIC + 高级架构师的 AI 创业公司。Blackhole 是公司 2024 旗舰客户:富士康(代工)、LG AI Research、RIKEN(日本理研)、Bosch、Mercedes-Benz

核心规格

项目参数
架构Tenstorrent Tensix + RISC-V
制程TSMC 6nm(vs Wormhole 12nm)
Tensix 核数120 个(vs Wormhole 80 个)
每 Tensix 核5 个小型 RISC-V 核 + 1 个 NoC + 1 MB SRAM
片上 SRAM8GB(120 Tensix × 1MB = 120MB,可能有 L2 共享)
LPDDR4X24GB(可能 16GB/32GB 版本)
内存带宽307 GB/s(LPDDR4X)
BF16单卡 1.2 PFLOPS(8 卡 = 16 PFLOPS
INT8单卡 4.8 POPS(推测)
TDP~300W
板卡形态PCIe Gen5 ×16
互连Ethernet(标准,开放)
量产2024 H2
单价~$1,500-3,000

Tensix 核架构

维度规格
每核5× RISC-V Baby + 1× NoC 核
Baby RISC-V1 个 32-bit scalar + 2 个 32-bit SIMD + 2 个 32-bit DSP
NoC 核Network on Chip 调度
每核 SRAM1 MB
单核 BF16~10 TFLOPS
单卡 BF16120 × 10 = 1.2 PFLOPS
Tensix 核内部:
┌──────────────────────────────────────┐
│ RISC-V 1 │ RISC-V 2 │ RISC-V 3 │ 32-bit scalar/SIMD/DSP
│ │ │ │
│ RISC-V 4 │ RISC-V 5 │ NoC 核 │
│ │ │ │
│ 1 MB SRAM (双端口) │
│ Tensix Compute: 矩阵 + 向量 + 标量 │
└──────────────────────────────────────┘

Tensix 创新5 个 RISC-V + 1 个 NoC 共享 1MB SRAM,比传统 GPU 的"CUDA core + Tensor core + shared memory"更灵活,可独立运行 6 个 RISC-V 线程(vs GPU 仅 32 线程/warp)。

8GB 片上 SRAM 优势

维度优势
LLM 推理7B FP16 = 14GB 略超,7B INT4 = 3.5GB 可全 SRAM
13B LLMINT4 = 6.5GB 可全 SRAM
70B LLMINT4 = 35GB 需 LPDDR4X,但权重加载到 SRAM 后推理无 HBM 等待
延迟矩阵乘在 SRAM 内,延迟 < 1ms
能效SRAM 比 HBM 省 10× 功耗

Blackhole 8GB SRAM 优势7B/13B LLM 完全片上推理比 H100 装 80GB 慢但能效更高(待定测试)。

8 卡集群 16 PFLOPS

项目配置
Blackhole 卡数8
BF16 算力16 PFLOPS(8 × 1.2 PF)
总 SRAM64GB
总 LPDDR4X192GB
互联标准 Ethernet(100G/200G 开放)
机柜 TDP~2.4 kW
机柜价格~$30K

Tenstorrent Wormhole 4U 服务器(标准化):

  • Grayskull (1st gen) — 2021, 120W, 32 GB
  • Wormhole (2nd gen) — 2023, 200W, 80 Tensix
  • Blackhole (3rd gen) — 2024, 300W, 120 Tensix

与 NVIDIA H100 对比

指标Tenstorrent Blackhole 8 卡NVIDIA H100 单卡差异
BF16 算力16 PF1.5 PF (FP8 sparse)Blackhole 10×
TDP2400W700WBlackhole 3.4×
能效6.7 TOPS/W2.16 TOPS/WBlackhole 3×
内存192GB LPDDR4X80GB HBM3Blackhole 2.4×
带宽2.5 TB/s3.35 TB/sH100 1.3×
软件TT-MetaliumCUDAH100 成熟
价格~$30K (8 卡)~$25-30K相当

Blackhole 8 卡集群 vs H100 单卡集群算力 10× 但功耗 3.4×(能效 3×),适合超大规模 LLM 推理(Llama 3 405B 拆分到 8 卡)。

厂商信息

项目内容
公司Tenstorrent Inc.
CTOJim Keller(前 Apple A14/M1、AMD Zen、Intel、特斯拉 AI 芯片)
CEOLjubisa Bajic(前 AMD)
成立2016
总部美国加州圣何塞 + 多伦多
融资$700M+(B 轮 2024-Q1 领投:Bezos Expeditions + Samsung Securities)
估值(2025)$3B+(独角兽)
2024 营收~$80M
员工~500 人
代工TSMC 6nm + 三星 4nm(路线图)
战略合作富士康(代工 + 服务器)、LG AI ResearchRIKEN 日本理研BoschMercedes-BenzLGRapidus(日本 2nm)
状态未上市(考虑 2026-2027 IPO)

Tenstorrent 产品线

产品发布Tensix 核制程BF16客户
Grayskull202112012nm368 TF早期客户
Wormhole20238012nm600 TFLG / RIKEN
Blackhole2024 H11206nm1.2 PF富士康 / LG / Bosch
Quasar (推测)2025 H22005nm3 PF路线图
Grendel (推测)20262564nm6 PF长期

软件栈 TT-Metalium / TT-Forge

层级工具说明
AI 框架TT-ForgePyTorch 1:1 兼容(自动映射到 Tensix)
TT-Metalium低级 C++ 编程(直接控制 Tensix 核)
JAX / TensorFlow兼容(实验)
编译器TT-Forge Compiler模型 → Tensix 二进制
运行时TT-Runtime多卡协调(标准 Ethernet)
开源完全开源(GitHub 10K+ stars)与 CUDA 私有对立

Tenstorrent 杀手锏完全开源软件栈(vs CUDA 18 年私有),6 个 RISC-V 线程 / Tensix(vs GPU 32 线程/warp 黑盒),标准 Ethernet 互联(vs NVLink 私有)。

适用场景

  • RISC-V 软件生态(完全开源 + 异构 RISC-V)
  • 大企业 LLM 推理(Jim Keller 品牌)
  • 汽车 AI(Bosch、Mercedes-Benz 客户)
  • 政府 / 国家实验室 HPC(RIKEN 日本、LG 韩国)
  • 代工客户(富士康生产线部署)
  • 预算敏感(~$1,500 / 卡,远低于 H100 $25K)
  • AI 训练为主(Blackhole 弱训练生态)
  • CUDA 专有工作负载(需 TT-Forge 移植)
  • 延迟极敏感(HBM 带宽优势)

关键特性

  • 120 Tensix 核 + 5 RISC-V/核:业界最大 RISC-V 核数(600 个 RISC-V)
  • 8GB SRAM:业界最大 AI 芯片 SRAM 之一
  • 完全开源软件:vs CUDA 私有
  • 标准 Ethernet 互联:vs NVLink 私有
  • Jim Keller 架构:传奇设计师(Apple A14、AMD Zen)
  • 缺点:LPDDR4X 慢、训练生态弱、量产仅 1 年

Jim Keller 职业轨迹

公司角色贡献
DEC Alpha架构师Alpha 21264
AMD K8首席架构师Athlon 64
AMD K8/K10主架构师Barcelona
Apple芯片架构师Apple A4/A5
AMD Zen主架构师Zen / Zen 2(Ryzen 1000-3000)
Tesla硬件副总裁自研 AI 芯片(未发布)
Intel高级副总裁短暂任职
TenstorrentCTOGrayskull/Wormhole/Blackhole

Jim Keller 在 Tenstorrent公司技术 + 品牌核心,每代芯片均由他领导设计。

美国 AI 芯片创业四小龙

公司架构2024 旗舰融资状态
SambaNovaDataflowSN40L$1.1B+商业化领先
Cerebras晶圆级WSE-3$1.5B+2026 IPO
GroqLPULPU v2$1B+2026 NVIDIA 收购
TenstorrentRISC-VBlackhole$700M+2026-2027 IPO

相关卡