d-Matrix CORSair (数字存内计算推理加速卡)
产品概述
d-Matrix CORSair 是 d-Matrix 公司于 2024年11月19日 在 SC24 超算会议上发布的数据中心 AI 推理加速卡,采用业界首创的数字存内计算(Digital In-Memory Compute, DIMC)架构。每张卡搭载 2GB 高性能片上 SRAM 和最高 256GB 片外 LPDDR5X 内存,提供 2,400 TFLOPS FP8 算力,内存带宽高达 150 TB/s(DIMC 架构优势)。
核心创新:CORSair 打破传统"计算与内存分离"的架构,将矩阵运算尽可能靠近存储发生,从根本上解决大模型推理的内存带宽瓶颈。相比 GPU 方案,可实现最高 10× 交互速度、3× TCO 性能比、3× 能效提升。
核心规格
| 项目 | 参数 |
|---|
| 架构 | DIMC(数字存内计算)+ Chiplet |
| 算力(FP8) | 2,400 TFLOPS(8位峰值) |
| 算力(FP4) | 未公开(支持 Micro-scaling/MX 格式) |
| 片上内存 | 2GB 高性能 SRAM |
| 片外内存 | 最高 256GB LPDDR5X |
| 内存带宽 | 150 TB/s(DIMC 架构) |
| 互联 | DMX Link(芯粒间)+ DMX Bridge(跨卡) |
| 形态 | PCIe Gen5 全高全长(FHFL) |
| TDP | 未公开(风冷/液冷均支持) |
| 制程 | 未公开(Chiplet 多芯片封装) |
| 发布时间 | 2024年11月19日(SC24) |
| 上市时间 | 2025年Q2(广泛上市) |
| 早期送样 | 2024年Q4 起 |
DIMC 架构详解
传统架构 vs DIMC 架构
| 维度 | 传统 GPU 架构 | d-Matrix DIMC 架构 |
|---|
| 计算与内存 | 分离(HBM 与 GPU 核心通过接口连接) | 集成(矩阵运算在内存内部完成) |
| 内存带宽瓶颈 | 严重(HBM3e 最高 8TB/s) | 突破(DIMC 提供 150TB/s) |
| 数据搬运能耗 | 高(占总能耗 60-80%) | 低(计算在数据存储位置执行) |
| 推理延迟 | 较高(1-10 ms/token) | 极低(1 ms/token @ Llama 3 8B) |
Chiplet 封装设计
- 每张卡包含 2 颗芯片
- 每颗芯片由 4 个 Chiplet 组成
- 每个 Chiplet 配备:
- 2GB SRAM(高性能内存)
- LPDDR5X 通道(连接片外 256GB 内存)
- RISC-V 调度引擎(管理任务调度和数据流)
- DMX Link:封装内芯粒间高能效 die-to-die 互联
- DMX Bridge:跨卡互联(两张卡可通过 DMX Bridge 连接)
推理性能
真实工作负载性能
| 模型 | CORSair 性能 | vs GPU 方案 |
|---|
| Llama 3 8B | 60,000 tokens/秒(单服务器) | 10× 交互速度 |
| Llama 3 70B | 30,000 tokens/秒(单机架) | 3× TCO 性能比 |
| 延迟(8B) | 1 ms/token | 10× 降低 |
| 延迟(70B) | 2 ms/token | 3× 降低 |
| 能效 | 未公开(TDP 未公开) | 3× 提升 |
关键优势:CORSair 专门针对推理密集型企业级 AI 工作负载优化,解决大模型推理的"高延迟、高功耗、高成本"痛点。
与竞品对比
| 指标 | d-Matrix CORSair | NVIDIA H200 | NVIDIA B200 | Groq LPU |
|---|
| FP8 算力 | 2,400 TFLOPS | 1,970 TFLOPS | 4,500 TFLOPS | ~1,000 TFLOPS(估算) |
| 内存容量 | 256GB LPDDR5X | 141GB HBM3e | 192GB HBM3e | ~100GB(估算) |
| 内存带宽 | 150TB/s(DIMC) | 4.8TB/s | 8TB/s | ~10TB/s(SRAM) |
| 推理延迟 | 1-2 ms/token | 5-10 ms/token | 3-5 ms/token | <1 ms/token |
| TDP | 未公开 | 700W | 1,000W | ~500W(估算) |
| 成本 | 低(LPDDR5X vs HBM) | 高 | 高 | 中 |
| 定位 | 推理(存内计算) | 训练+推理 | 训练+推理 | 推理(SRAM) |
软件栈与生态
Aviator 软件栈
- 统一管理:所有 d-Matrix 硬件创新通过 Aviator 软件栈统一管理
- 生态兼容:为 AI 开发者提供与现有生态一致的使用体验与工具链
- PyTorch 支持:无缝迁移现有 PyTorch 模型
- ONNX 支持:支持 ONNX 格式模型导入
- Micro-scaling/MX 格式:业界首批原生支持块浮点数值格式(已成为 OCP 标准)
OEM/系统集成商合作
- Supermicro:搭载 CORSair 的液冷/风冷 AI 服务器
- GigaIO:高密度推理节点
- Liquid:液冷解决方案
- 上市时间:2025年Q2 广泛上市
与前代产品对比
| 指标 | d-Matrix 前代(2023) | CORSair(2025) | 提升 |
|---|
| 架构 | 早期 DIMC 原型 | 量产 DIMC + Chiplet | 成熟 |
| 算力(FP8) | ~500 TFLOPS(估算) | 2,400 TFLOPS | 4.8× |
| 内存容量 | ~64GB(估算) | 256GB | 4× |
| 内存带宽 | ~10TB/s(DIMC) | 150TB/s | 15× |
| 形态 | 工程样卡 | PCIe Gen5 FHFL(量产) | 商用化 |
| 软件栈 | 早期版本 | Aviator(成熟) | 完善 |
发布时间与获取方式
- 官方发布:2024年11月19日(SC24 超算会议)
- 早期送样:2024年Q4 起(早期访问客户)
- 广泛上市:2025年Q2(已上市)
- 获取方式:
- 直接采购(d-Matrix 官网)
- 通过 OEM 合作伙伴(Supermicro、GigaIO、Liquid)
- 云服务(预计 2026 年上线)
技术亮点
1. 数字存内计算(DIMC)
- 打破内存墙:将矩阵运算在内存内部完成,消除数据搬运瓶颈
- 150TB/s 有效带宽:远超 HBM3e(4.8TB/s)和 HBM4(8TB/s)
- 低延迟:1-2 ms/token(70B 模型),适合实时交互场景
2. Chiplet 架构
- 模块化设计:4 个 Chiplet 组成一颗芯片,2 颗芯片组成一张卡
- 灵活扩展:通过 DMX Link 和 DMX Bridge 实现多卡互联
- 成本优化:LPDDR5X 比 HBM3e 便宜 3-5×
3. 块浮点格式支持
- Micro-scaling/MX 格式:业界首批原生支持(已成为 OCP 标准)
- 精度与效率平衡:MXFP8 精度接近 FP16,算力比 FP16 提升 2×
- OCP 标准:与 Meta、AMD、Intel 等公司共同推动的标准格式
适用场景
- 实时对话 AI:1-2 ms/token 延迟,适合客服、助手等场景
- 大规模推理服务:60,000 tokens/秒(8B 模型),支持高并发
- 企业级 AI 工作负载:TCO 比 GPU 方案低 3×
- 边缘推理:PCIe Gen5 标准形态,适合边缘数据中心部署
外部链接