跳到主要内容

Cambricon 寒武纪 MLU 370 (2021)

产品概述

Cambricon 寒武纪 MLU 370(思元 370) 是寒武纪第四代 AI 训练/推理芯片2021-Q4 发布7nm 制程96 INT8 TOPS 算力,48GB HBM2 内存,614 GB/s 带宽TDP 35W业界最节能的 7nm 数据中心 AI 芯片之一)。配套 NeuWare 1.0 软件栈 + MindSpore。是 MLU 590 的前代,在 MLU 590 (2023) 之前是寒武纪主力产品。

关键定位

  • MLU 100(2018):16nm,8GB,16 TFLOPS — 第一代
  • MLU 270(2019):16nm,16GB,128 TFLOPS — 早期训练
  • MLU 290(2020):7nm,32GB,256 TFLOPS — 第一代 7nm
  • MLU 370(2021):7nm,48GB HBM2,96 INT8 TOPS,35W本页
  • MLU 590(2023):7nm,96GB HBM2,256 INT8 TOPS,250W — 已有页
  • MLU 690(2025-2026 推测):5nm,192GB HBM3E,2 PF FP8 — 已有页

核心规格

项目参数
架构Cambricon MLUv04(第四代)
制程TSMC 7nm
计算核心64× 思元 4 核(自研 ISA)
HBM48GB HBM2
内存带宽614 GB/s
INT896 TOPS
BF1648 TFLOPS
FP3224 TFLOPS
TDP35W业界最节能 7nm 数据中心 AI
板卡形态PCIe Gen4 ×16
互联MLU-Link 200 GB/s
量产2021-Q4
单价~$1,500-2,500

与 MLU 290 对比(2020)

指标MLU 370 (2021)MLU 290 (2020)提升
制程7nm7nm
HBM48GB HBM232GB HBM2+50%
带宽614 GB/s307 GB/s
INT896 TOPS64 TOPS+50%
BF1648 TFLOPS32 TFLOPS+50%
TDP35W50W-30%
互联200 GB/s100 GB/s
软件NeuWare 1.0NeuWare 0.5新代

与同期 NVIDIA T4 对比(2021)

指标Cambricon MLU 370NVIDIA T4差异
制程7nm12nmMLU 370 新代
INT896 TOPS130 TOPST4 +35%
BF1648 TFLOPSN/AMLU 370 独有
TDP35W70WMLU 370 -50%
能效2.74 TOPS/W1.86 TOPS/WMLU 370 +47%
内存48GB HBM216GB GDDR6MLU 370 3×
带宽614 GB/s320 GB/sMLU 370 1.9×
软件NeuWare + MindSporeCUDAT4 成熟

MLU 370 杀手锏TDP 仅 35W(T4 50%) + 48GB HBM2(T4 3×) + BF16 支持(T4 无 BF16),国产 + 节能 + 大内存

适用场景

  • 国产 AI 推理(节能 + 国产化)
  • 国产 AI 训练(48GB HBM2 容纳较大模型)
  • 政府/国企 AI 项目(国产化政策强制)
  • 智算中心(35W 节能,单机柜密度高)
  • LLaMA 1 13B FP16 推理(48GB HBM2 足够)
  • AI 训练前沿(FP8 缺失)
  • 国际市场(无 CUDA 兼容)
  • 超大 LLM(48GB 限制)

LLM 推理性能(48GB 版本)

模型量化性能(tok/s)备注
LLaMA 1 7BFP16~25 tok/s主流
LLaMA 1 13BFP16~12 tok/s完整 FP16
LLaMA 1 30BQ4_K_M~5 tok/s量化
LLaMA 1 65BQ4_K_M~3 tok/s70GB 略超
ChatGLM-6BFP16~30 tok/s中文
Stable Diffusion 1.5FP162× vs MLU 290图像生成

48GB HBM2 优势:相比同期 NVIDIA T4 16GB,可装 13B LLM 完整 FP16(26GB 略小),是 2021-2022 国产 LLM 推理主力

软件栈 NeuWare 1.0

层级工具说明
AI 框架NeuWare 1.0统一编程平台
PyTorch (NeuWare 后端)自动映射 MLU
TensorFlow (NeuWare 后端)兼容
MindSpore华为/信通院主导,PyTorch 兼容
编译器BANG C/C++寒武纪私有语言
算子库CNML类 CUDA cuDNN(覆盖 70%)
量化NeuQuantINT8 自动
模型库ModelZooCV/NLP/LLM

MLU 370 软件成熟度:算子覆盖 ~70%(vs CUDA 99%+),主流 LLM 可运行但需手工优化

厂商信息

项目内容
公司寒武纪科技(Cambricon Technologies)
创始人陈天石、陈云霁兄弟(中科院计算所)
成立2016-03
IPO2020-07-20 科创板(688256)
MLU 370 上市2021-Q4
主要客户中国移动、浪潮、曙光、字节跳动、智谱 AI
国家项目"东数西算"工程推荐芯片

关键时间线

时间事件
2016-03寒武纪成立(中科院计算所孵化)
2018-05首款芯片 MLU 100 发布(16nm)
2020-07-20科创板 IPO 上市(688256)
2020MLU 290(7nm 第一代)
2021-Q4MLU 370 发布(本页)
2022MLU 370 量产 + 客户部署
2023-Q4MLU 590 发布(替代 370)
2025-2026 推测MLU 690 发布(替代 590)

寒武纪产品线

产品发布制程内存INT8TDP状态
MLU 3702021-Q47nm48GB HBM296 TOPS35W量产 → EOL 2023
MLU 5902023-Q47nm96GB HBM2256 TOPS250W当前旗舰
MLU 6902025-2026 推测5nm192GB HBM3E4 POPS500W路线图
MLU 790 (推测)20273nm384GB HBM48 POPS800W长期

关键特性

  • 48GB HBM2:2021 国产 AI 大内存(vs 同期 NVIDIA T4 16GB)
  • TDP 35W:业界最节能 7nm 数据中心 AI
  • 能效 2.74 TOPS/W:NVIDIA T4 1.5×
  • BF16 支持:T4 没有 BF16,MLU 370 独有
  • MindSpore 生态:华为深度合作
  • 缺点:算力低于 T4、生态 ~70% 覆盖、已 EOL

与同期国产 AI 芯片对比(2021-2022)

指标寒武纪 MLU 370Huawei Ascend 310Alibaba 含光 800 (2021)
制程7nm12nm12nm
INT896 TOPS22 TOPS820 TOPS
TDP35W8W168W
内存48GB HBM28GB LPDDR432GB HBM2
带宽614 GB/s25 GB/s700 GB/s
目标训练 + 推理边缘数据中心推理

2021-2022 国产 AI 三强含光 800 算力最强(820 TOPS)MLU 370 内存最大(48GB)Ascend 310 能效最优(8W)

相关卡