跳到主要内容

d-Matrix CORSair (数字存内计算推理加速卡)

产品概述

d-Matrix CORSair 是 d-Matrix 公司于 2024年11月19日 在 SC24 超算会议上发布的数据中心 AI 推理加速卡,采用业界首创的数字存内计算(Digital In-Memory Compute, DIMC)架构。每张卡搭载 2GB 高性能片上 SRAM 和最高 256GB 片外 LPDDR5X 内存,提供 2,400 TFLOPS FP8 算力,内存带宽高达 150 TB/s(DIMC 架构优势)。

核心创新:CORSair 打破传统"计算与内存分离"的架构,将矩阵运算尽可能靠近存储发生,从根本上解决大模型推理的内存带宽瓶颈。相比 GPU 方案,可实现最高 10× 交互速度3× TCO 性能比3× 能效提升

核心规格

项目参数
架构DIMC(数字存内计算)+ Chiplet
算力(FP8)2,400 TFLOPS(8位峰值)
算力(FP4)未公开(支持 Micro-scaling/MX 格式)
片上内存2GB 高性能 SRAM
片外内存最高 256GB LPDDR5X
内存带宽150 TB/s(DIMC 架构)
互联DMX Link(芯粒间)+ DMX Bridge(跨卡)
形态PCIe Gen5 全高全长(FHFL)
TDP未公开(风冷/液冷均支持)
制程未公开(Chiplet 多芯片封装)
发布时间2024年11月19日(SC24)
上市时间2025年Q2(广泛上市)
早期送样2024年Q4

DIMC 架构详解

传统架构 vs DIMC 架构

维度传统 GPU 架构d-Matrix DIMC 架构
计算与内存分离(HBM 与 GPU 核心通过接口连接)集成(矩阵运算在内存内部完成)
内存带宽瓶颈严重(HBM3e 最高 8TB/s)突破(DIMC 提供 150TB/s)
数据搬运能耗高(占总能耗 60-80%)(计算在数据存储位置执行)
推理延迟较高(1-10 ms/token)极低(1 ms/token @ Llama 3 8B)

Chiplet 封装设计

  • 每张卡包含 2 颗芯片
  • 每颗芯片由 4 个 Chiplet 组成
  • 每个 Chiplet 配备
    • 2GB SRAM(高性能内存)
    • LPDDR5X 通道(连接片外 256GB 内存)
    • RISC-V 调度引擎(管理任务调度和数据流)
  • DMX Link:封装内芯粒间高能效 die-to-die 互联
  • DMX Bridge:跨卡互联(两张卡可通过 DMX Bridge 连接)

推理性能

真实工作负载性能

模型CORSair 性能vs GPU 方案
Llama 3 8B60,000 tokens/秒(单服务器)10× 交互速度
Llama 3 70B30,000 tokens/秒(单机架)3× TCO 性能比
延迟(8B)1 ms/token10× 降低
延迟(70B)2 ms/token3× 降低
能效未公开(TDP 未公开)3× 提升

关键优势:CORSair 专门针对推理密集型企业级 AI 工作负载优化,解决大模型推理的"高延迟、高功耗、高成本"痛点。

与竞品对比

指标d-Matrix CORSairNVIDIA H200NVIDIA B200Groq LPU
FP8 算力2,400 TFLOPS1,970 TFLOPS4,500 TFLOPS~1,000 TFLOPS(估算)
内存容量256GB LPDDR5X141GB HBM3e192GB HBM3e~100GB(估算)
内存带宽150TB/s(DIMC)4.8TB/s8TB/s~10TB/s(SRAM)
推理延迟1-2 ms/token5-10 ms/token3-5 ms/token<1 ms/token
TDP未公开700W1,000W~500W(估算)
成本(LPDDR5X vs HBM)
定位推理(存内计算)训练+推理训练+推理推理(SRAM)

软件栈与生态

Aviator 软件栈

  • 统一管理:所有 d-Matrix 硬件创新通过 Aviator 软件栈统一管理
  • 生态兼容:为 AI 开发者提供与现有生态一致的使用体验与工具链
  • PyTorch 支持:无缝迁移现有 PyTorch 模型
  • ONNX 支持:支持 ONNX 格式模型导入
  • Micro-scaling/MX 格式:业界首批原生支持块浮点数值格式(已成为 OCP 标准)

OEM/系统集成商合作

  • Supermicro:搭载 CORSair 的液冷/风冷 AI 服务器
  • GigaIO:高密度推理节点
  • Liquid:液冷解决方案
  • 上市时间:2025年Q2 广泛上市

与前代产品对比

指标d-Matrix 前代(2023)CORSair(2025)提升
架构早期 DIMC 原型量产 DIMC + Chiplet成熟
算力(FP8)~500 TFLOPS(估算)2,400 TFLOPS4.8×
内存容量~64GB(估算)256GB
内存带宽~10TB/s(DIMC)150TB/s15×
形态工程样卡PCIe Gen5 FHFL(量产)商用化
软件栈早期版本Aviator(成熟)完善

发布时间与获取方式

  • 官方发布:2024年11月19日(SC24 超算会议)
  • 早期送样:2024年Q4 起(早期访问客户)
  • 广泛上市2025年Q2(已上市)
  • 获取方式
    • 直接采购(d-Matrix 官网)
    • 通过 OEM 合作伙伴(Supermicro、GigaIO、Liquid)
    • 云服务(预计 2026 年上线)

技术亮点

1. 数字存内计算(DIMC)

  • 打破内存墙:将矩阵运算在内存内部完成,消除数据搬运瓶颈
  • 150TB/s 有效带宽:远超 HBM3e(4.8TB/s)和 HBM4(8TB/s)
  • 低延迟:1-2 ms/token(70B 模型),适合实时交互场景

2. Chiplet 架构

  • 模块化设计:4 个 Chiplet 组成一颗芯片,2 颗芯片组成一张卡
  • 灵活扩展:通过 DMX Link 和 DMX Bridge 实现多卡互联
  • 成本优化:LPDDR5X 比 HBM3e 便宜 3-5×

3. 块浮点格式支持

  • Micro-scaling/MX 格式:业界首批原生支持(已成为 OCP 标准)
  • 精度与效率平衡:MXFP8 精度接近 FP16,算力比 FP16 提升
  • OCP 标准:与 Meta、AMD、Intel 等公司共同推动的标准格式

适用场景

  • 实时对话 AI:1-2 ms/token 延迟,适合客服、助手等场景
  • 大规模推理服务:60,000 tokens/秒(8B 模型),支持高并发
  • 企业级 AI 工作负载:TCO 比 GPU 方案低
  • 边缘推理:PCIe Gen5 标准形态,适合边缘数据中心部署

外部链接