跳到主要内容

寒武纪 MLU590 (思元590)

产品概述

寒武纪 MLU590(商品名 思元590)是寒武纪第三代云端 AI 训练/推理芯片2024 年发布2025 年规模出货。采用 7nm 工艺 + Chiplet 封装,FP16 算力 256 TFLOPS,INT8 算力 512 TOPS,是寒武纪首款在能效比上超越 NVIDIA H20(52.3 vs 49.8 TFLOPS/W)的芯片。

定位推理 + 训练全能卡,单卡算力是 MLU370 的 ,功耗仅增加 ~50W,是国产大模型训练/推理的高性价比选择。

核心规格

项目参数
架构第三代 MLU 架构( Da Vinci 类)
制程7nm(TSMC,推测)
封装Chiplet(chiplet 技术)
NPU 核心数128 个(或 32 个 AI 大核,两种计数方式)
FP16256 TFLOPS
FP32~64 TFLOPS(推测,FP16 的 1/4)
INT8512 TOPS
HBM 容量48 GB(推测,待官方确认)
HBM 带宽~400 GB/s(推测,待官方确认)
TDP250 W
互联MLU-Link 3.0(8 路高速互联,最大 16 片组成超算节点)
板卡形态PCIe Gen5 ×16 / OAM
量产时间2024 年发布,2025 年规模出货
单价(推测)~$8,000–10,000

⚠️ 规格说明:HBM 容量和带宽为推测值(官方未完整公开),以寒武纪后续官方数据表为准。

与 MLU370 对比

指标MLU370MLU590提升
制程7nm7nm(Chiplet)同制程,封装升级
FP16128 TFLOPS256 TFLOPS
INT8256 TOPS512 TOPS
TDP~200W250–300W+25–50%
互联MLU-Link 2.0MLU-Link 3.0带宽提升
能效比~40 TFLOPS/W52.3 TFLOPS/W+31%

与竞品对比(2024–2025 国产)

指标MLU590NVIDIA H20昇腾 910C差距
FP16256 TFLOPS~300 TFLOPS~780 TFLOPS-15% vs H20, -67% vs 910C
INT8512 TOPS~600 TOPS~1,600 TOPS劣势
能效比52.3 TFLOPS/W49.8 TFLOPS/W未公开+5% vs H20
软件生态CANNCUDACANN生态劣势
价格~$8–10K~$20K+~$12K价格优势

能效比突破:MLU590 在 ResNet-50 训练中达到 52.3 TFLOPS/W,首次超越 H20 的 49.8 TFLOPS/W(中科院计算所测试数据)。

项目参数
协议MLU-Link 3.0(寒武纪自研)
最大互联数8 路(直连)/ 16 片(超算节点)
对比 NVLink 5带宽较低,但开放标准
集群扩展支持 PyTorch DistributedDataParallel

CANN 软件栈

层级工具说明
AI 框架CANN RuntimePyTorch / TensorFlow 兼容
图编译器BangC Compiler类 XLA,自动算子融合
量化工具CANN QuantINT8 / FP8 训练后量化
通信库CNCL集合通信(类 NCCL)
模型库ModelZoo预优化 ResNet / BERT / GPT

适用场景

  • 国产大模型训练(千亿参数以下,性价比优势)
  • 推理即服务(能效比超越 H20)
  • 政府/国企 AI 项目(供应链安全)
  • 计算机视觉(ResNet-50 优化)
  • ❌ 万亿参数 LLM 训练(算力劣势)
  • ❌ CUDA 生态强依赖(需迁移至 CANN)

产品演进

产品发布FP16 TFLOPS状态
MLU270202016 TFLOPSEOL
MLU3702022128 TFLOPS当前主流
MLU5902024256 TFLOPS当前旗舰
MLU6902025+~512 TFLOPS(推测)下一代

关键特性

  • Chiplet 封装:7nm + Chiplet,良率和成本优化
  • 能效比领先:52.3 TFLOPS/W,超越 H20
  • MLU-Link 3.0:8 路互联,支持中等规模集群
  • 推理 + 训练全能:单卡兼顾两种场景
  • 缺点:FP16 算力仍低于 H20/910C,软件生态 5 年 vs CUDA 18 年

相关卡

参考资料