寒武纪 MLU590 (思元590)

产品概述

寒武纪 MLU590（商品名 思元590）是寒武纪第三代云端 AI 训练/推理芯片，2024 年首次亮相，并于 2026-07-01 由寒武纪官方正式发布/商用上市（定位新一代 AI 训练旗舰，官方称性能接近 NVIDIA H100）。采用 7nm 工艺 + Chiplet 封装，FP16 算力 256 TFLOPS，INT8 算力 512 TOPS，是寒武纪首款在能效比上超越 NVIDIA H20（52.3 vs 49.8 TFLOPS/W）的芯片。

定位：推理 + 训练全能卡，单卡算力是 MLU370 的 2×，功耗仅增加 ~50W，是国产大模型训练/推理的高性价比选择。

核心规格

项目	参数
架构	第三代 MLU 架构（Da Vinci 类）
制程	7nm（TSMC）
封装	Chiplet
显存	48 GB HBM2e（官方未完整公开，推测）
显存带宽	~400 GB/s（推测）
NPU 核心数	128 个（或 32 个 AI 大核，两种计数方式）
FP16	256 TFLOPS
FP32	~64 TFLOPS（推测，FP16 的 1/4）
INT8	512 TOPS
HBM 容量	48 GB（推测，待官方确认）
HBM 带宽	~400 GB/s（推测，待官方确认）
TDP	250 W
互联	MLU-Link 3.0（8 路高速互联，最大 16 片组成超算节点）
板卡形态	PCIe Gen5 ×16 / OAM
发布	2024 首次亮相 / 2026-07-01 官方正式发布
量产时间	2025 年起规模出货，2026-07 正式商用上市
单价（推测）	~$8,000–10,000

⚠️ 规格说明：HBM 容量和带宽为推测值（官方未完整公开），以寒武纪后续官方数据表为准。

与 MLU370 对比

指标	MLU370	MLU590	提升
制程	7nm	7nm（Chiplet）	同制程，封装升级
FP16	128 TFLOPS	256 TFLOPS	2×
INT8	256 TOPS	512 TOPS	2×
TDP	~200W	250–300W	+25–50%
互联	MLU-Link 2.0	MLU-Link 3.0	带宽提升
能效比	~40 TFLOPS/W	52.3 TFLOPS/W	+31%

与竞品对比（2024–2025 国产）

指标	MLU590	NVIDIA H20	昇腾 910C	差距
FP16	256 TFLOPS	~300 TFLOPS	~780 TFLOPS	-15% vs H20, -67% vs 910C
INT8	512 TOPS	~600 TOPS	~1,600 TOPS	劣势
能效比	52.3 TFLOPS/W	49.8 TFLOPS/W	未公开	+5% vs H20
软件生态	CANN	CUDA	CANN	生态劣势
价格	~$8–10K	~$20K+	~$12K	价格优势

能效比突破：MLU590 在 ResNet-50 训练中达到 52.3 TFLOPS/W，首次超越 H20 的 49.8 TFLOPS/W（中科院计算所测试数据）。

MLU-Link 3.0 互联

项目	参数
协议	MLU-Link 3.0（寒武纪自研）
最大互联数	8 路（直连）/ 16 片（超算节点）
对比 NVLink 5	带宽较低，但开放标准
集群扩展	支持 PyTorch DistributedDataParallel

CANN 软件栈

层级	工具	说明
AI 框架	CANN Runtime	PyTorch / TensorFlow 兼容
图编译器	BangC Compiler	类 XLA，自动算子融合
量化工具	CANN Quant	INT8 / FP8 训练后量化
通信库	CNCL	集合通信（类 NCCL）
模型库	ModelZoo	预优化 ResNet / BERT / GPT

适用场景

✅ 国产大模型训练（千亿参数以下，性价比优势）
✅ 推理即服务（能效比超越 H20）
✅ 政府/国企 AI 项目（供应链安全）
✅ 计算机视觉（ResNet-50 优化）
❌ 万亿参数 LLM 训练（算力劣势）
❌ CUDA 生态强依赖（需迁移至 CANN）

产品演进

产品	发布	FP16 TFLOPS	状态
MLU270	2020	16 TFLOPS	EOL
MLU370	2022	128 TFLOPS	当前主流
MLU590	2024	256 TFLOPS	当前旗舰
MLU690	2025+	~512 TFLOPS（推测）	下一代

关键特性

Chiplet 封装：7nm + Chiplet，良率和成本优化
能效比领先：52.3 TFLOPS/W，超越 H20
MLU-Link 3.0：8 路互联，支持中等规模集群
推理 + 训练全能：单卡兼顾两种场景
缺点：FP16 算力仍低于 H20/910C，软件生态 5 年 vs CUDA 18 年

寒武纪 MLU590 (思元590)

产品概述

核心规格

与 MLU370 对比

与竞品对比（2024–2025 国产）

MLU-Link 3.0 互联

CANN 软件栈

适用场景

产品演进

关键特性

相关卡

参考资料

产品概述​

核心规格​

与 MLU370 对比​

与竞品对比（2024–2025 国产）​

MLU-Link 3.0 互联​

CANN 软件栈​

适用场景​

产品演进​

关键特性​

相关卡​

参考资料​

产品概述

核心规格

与 MLU370 对比

与竞品对比（2024–2025 国产）

MLU-Link 3.0 互联

CANN 软件栈

适用场景

产品演进

关键特性

相关卡

参考资料