产品概述
寒武纪 MLU590(商品名 思元590)是寒武纪第三代云端 AI 训练/推理芯片,2024 年发布,2025 年规模出货。采用 7nm 工艺 + Chiplet 封装,FP16 算力 256 TFLOPS,INT8 算力 512 TOPS,是寒武纪首款在能效比上超越 NVIDIA H20(52.3 vs 49.8 TFLOPS/W)的芯片。
定位:推理 + 训练全能卡,单卡算力是 MLU370 的 2×,功耗仅增加 ~50W,是国产大模型训练/推理的高性价比选择。
核心规格
| 项目 | 参数 |
|---|
| 架构 | 第三代 MLU 架构( Da Vinci 类) |
| 制程 | 7nm(TSMC,推测) |
| 封装 | Chiplet(chiplet 技术) |
| NPU 核心数 | 128 个(或 32 个 AI 大核,两种计数方式) |
| FP16 | 256 TFLOPS |
| FP32 | ~64 TFLOPS(推测,FP16 的 1/4) |
| INT8 | 512 TOPS |
| HBM 容量 | 48 GB(推测,待官方确认) |
| HBM 带宽 | ~400 GB/s(推测,待官方确认) |
| TDP | 250 W |
| 互联 | MLU-Link 3.0(8 路高速互联,最大 16 片组成超算节点) |
| 板卡形态 | PCIe Gen5 ×16 / OAM |
| 量产时间 | 2024 年发布,2025 年规模出货 |
| 单价(推测) | ~$8,000–10,000 |
⚠️ 规格说明:HBM 容量和带宽为推测值(官方未完整公开),以寒武纪后续官方数据表为准。
与 MLU370 对比
| 指标 | MLU370 | MLU590 | 提升 |
|---|
| 制程 | 7nm | 7nm(Chiplet) | 同制程,封装升级 |
| FP16 | 128 TFLOPS | 256 TFLOPS | 2× |
| INT8 | 256 TOPS | 512 TOPS | 2× |
| TDP | ~200W | 250–300W | +25–50% |
| 互联 | MLU-Link 2.0 | MLU-Link 3.0 | 带宽提升 |
| 能效比 | ~40 TFLOPS/W | 52.3 TFLOPS/W | +31% |
与竞品对比(2024–2025 国产)
| 指标 | MLU590 | NVIDIA H20 | 昇腾 910C | 差距 |
|---|
| FP16 | 256 TFLOPS | ~300 TFLOPS | ~780 TFLOPS | -15% vs H20, -67% vs 910C |
| INT8 | 512 TOPS | ~600 TOPS | ~1,600 TOPS | 劣势 |
| 能效比 | 52.3 TFLOPS/W | 49.8 TFLOPS/W | 未公开 | +5% vs H20 |
| 软件生态 | CANN | CUDA | CANN | 生态劣势 |
| 价格 | ~$8–10K | ~$20K+ | ~$12K | 价格优势 |
能效比突破:MLU590 在 ResNet-50 训练中达到 52.3 TFLOPS/W,首次超越 H20 的 49.8 TFLOPS/W(中科院计算所测试数据)。
MLU-Link 3.0 互联
| 项目 | 参数 |
|---|
| 协议 | MLU-Link 3.0(寒武纪自研) |
| 最大互联数 | 8 路(直连)/ 16 片(超算节点) |
| 对比 NVLink 5 | 带宽较低,但开放标准 |
| 集群扩展 | 支持 PyTorch DistributedDataParallel |
CANN 软件栈
| 层级 | 工具 | 说明 |
|---|
| AI 框架 | CANN Runtime | PyTorch / TensorFlow 兼容 |
| 图编译器 | BangC Compiler | 类 XLA,自动算子融合 |
| 量化工具 | CANN Quant | INT8 / FP8 训练后量化 |
| 通信库 | CNCL | 集合通信(类 NCCL) |
| 模型库 | ModelZoo | 预优化 ResNet / BERT / GPT |
适用场景
- ✅ 国产大模型训练(千亿参数以下,性价比优势)
- ✅ 推理即服务(能效比超越 H20)
- ✅ 政府/国企 AI 项目(供应链安全)
- ✅ 计算机视觉(ResNet-50 优化)
- ❌ 万亿参数 LLM 训练(算力劣势)
- ❌ CUDA 生态强依赖(需迁移至 CANN)
产品演进
| 产品 | 发布 | FP16 TFLOPS | 状态 |
|---|
| MLU270 | 2020 | 16 TFLOPS | EOL |
| MLU370 | 2022 | 128 TFLOPS | 当前主流 |
| MLU590 | 2024 | 256 TFLOPS | 当前旗舰 |
| MLU690 | 2025+ | ~512 TFLOPS(推测) | 下一代 |
关键特性
- Chiplet 封装:7nm + Chiplet,良率和成本优化
- 能效比领先:52.3 TFLOPS/W,超越 H20
- MLU-Link 3.0:8 路互联,支持中等规模集群
- 推理 + 训练全能:单卡兼顾两种场景
- 缺点:FP16 算力仍低于 H20/910C,软件生态 5 年 vs CUDA 18 年
相关卡
参考资料