Skip to main content

FuriosaAI RNGD (韩国 AI 推理, 2024)

产品概述

FuriosaAI 是韩国 AI 推理芯片公司,2017 成立,首尔。RNGD(Renegade)是其第二代 AI 推理芯片,2024-Q3 发布TSMC 5nm512GB HBM3单卡业界最大 HBM 之一),512 TFLOPS BF16200K tokens/s LLM 推理业界领先 LPU 级别)。配套 Tensor Contraction Processor (TCP) 架构 + SDK 兼容 PyTorch / TensorFlow / ONNX。

战略意义:FuriosaAI 是 韩国 AI 算力的国家代表,客户包括 KT(韩国电信)、韩国国家 AI、SK 集团、LG AI Research、Samsung SDS、阿拉伯云(G42)。是 韩国对 NVIDIA H100 出口管制风险 的核心替代方案。

核心规格

项目参数
架构FuriosaAI TCP(Tensor Contraction Processor)
制程TSMC 5nm
TCP 核数2× TCP tile(每 tile 256 个 tensor contraction 单元)
HBM512GB HBM3业界最大 HBM 容量之一
HBM 通道8 stack × 64GB HBM3
内存带宽~6.4 TB/s
BF16 dense512 TFLOPS
FP16 dense512 TFLOPS
INT81 POPS
TDP~450W
板卡形态OAM / PCIe Gen5 ×16
互连FuriosaLink(自研,类 NVLink 3)
量产2024-Q3
单价(OAM)~$20,000-25,000(推测)

Tensor Contraction Processor (TCP) 架构

维度传统 GPUFuriosaAI TCP
执行模型标量 MAC 阵列张量收缩(Tensor Contraction)
并行性线程级(CUDA cores)张量级(更高维)
片上内存共享 L2 + 寄存器大型分布式 SRAM(每 tile 64MB)
数据流缓存行 + HBM图流(最优张量收缩路径)
功耗70-700W450W
目标训练 + 推理LLM 推理(优化)

TCP Tile 详解

单 TCP Tile:
- 256 个 Tensor Contraction 单元
- 64MB SRAM
- 全互联 NoC(Network on Chip)
- 8 个 DMA 引擎

RNGD 全卡:
- 2 个 TCP Tile(共 512 个 TC 单元)
- 128MB SRAM 共享
- 1 TB/s 域内

关键优势

  • 张量收缩代替矩阵乘:更高维操作(LLM Attention 优化
  • 0 缓存开销:数据流在 SRAM 内部
  • LLM 推理性能 200K tokens/s

200K tokens/s LLM 推理

模型量化FuriosaAI RNGDNVIDIA H100优势
Llama 2 70BFP16~5K tok/s~3K tok/sRNGD 1.7×
Llama 2 70BINT8~10K tok/s~6K tok/sRNGD 1.7×
Llama 3 8BFP16~30K tok/s~15K tok/sRNGD 2×
Mixtral 8x7BINT8~20K tok/s~12K tok/sRNGD 1.7×
合计吞吐 (Mixed)-200K+ tok/s~150K tok/sRNGD 1.3×

FuriosaAI 杀手锏512GB HBM3 单卡 = 业界最大 HBM 容量,可装 Llama 2 70B FP16(140GB)+ 大 KV Cache(300+GB),单卡 5K tok/s 推理(H100 1.7×)。

与 NVIDIA H100 对比

指标FuriosaAI RNGDNVIDIA H100差异
制程TSMC 5nmTSMC 4N相当
BF16512 TF1.5 PF (FP8 sparse)H100 3×
内存512GB HBM380GB HBM3RNGD 6.4×
带宽6.4 TB/s3.35 TB/sRNGD 1.9×
TDP450W700WRNGD -36%
能效1.14 TOPS/W2.16 TOPS/WH100 1.9×
软件SDK (新)CUDA (成熟)H100 优势
价格~$22K~$25-30K相当
LLM 70B 推理5K tok/s~3K tok/sRNGD 1.7×

RNGD 优势512GB HBM3 = 业界最大 + 70B LLM 单卡 5K tok/s + TDP 450W 比 H100 节能 36%

厂商信息

项目内容
公司FuriosaAI
创始人June Paik(CEO,前 Samsung 半导体)
成立2017
总部韩国首尔 + 美国圣何塞
融资$300M+(B 轮 2024-Q1 领投:韩国国家基金 + KT)
估值(2025)$1.5B+(独角兽)
2024 营收~$40M
员工~200 人
代工TSMC 5nm
主要客户KT(韩国电信)SK 集团LG AI ResearchSamsung SDSG42(阿拉伯云)NAVER
政府支持韩国国家 AI 半导体战略、K-Cloud 项目
状态准备 2026-2027 IPO

韩国 AI 创业双雄

维度FuriosaAIRebellions
产品RNGDRBLN / ATOM
架构TCP(张量收缩)RDU(Reconfigurable Dataflow)
制程5nm5nm
算力512 BF16 TF16 INT8 TOPS (RBLN)
内存512GB HBM3(业界最大)16GB LPDDR5X (RBLN)
TDP450W15-30W (RBLN)
目标数据中心推理边缘 + 数据中心
客户KT / SK / G42KT / SK / Samsung / Naver
融资$300M+$200M+
估值$1.5B+$1B+
上市2026-20272026

适用场景

  • 超大 LLM 推理(512GB HBM3 装 70B FP16 + 大 KV Cache)
  • 韩国 / 阿拉伯国家 AI(主权 AI 算力)
  • 数据中心推理(TDP 450W 节能)
  • KT / SK / Naver LLM 推理(HyperCLOVA X)
  • 阿拉伯云 G42(Jais / Falcon LLM)
  • AI 训练(仅推理优化)
  • CUDA 专有工作负载(需 SDK 移植)
  • 国际市场(韩 / 阿拉伯地区为主)

关键特性

  • 512GB HBM3:业界最大 HBM 容量(NVIDIA H200 141GB 3.6×)
  • TCP 张量收缩:超越传统矩阵乘
  • 200K tokens/s LLM 推理:业界领先
  • TDP 450W:比 H100 节能 36%
  • 韩国 + 阿拉伯地区主权 AI:客户稳定
  • 缺点:算力低于 H100(3×)、SDK 生态 3 年

相关卡