跳到主要内容

Huawei Ascend 920:4 Tbps 国产最高带宽 + 3× H20 算力的国产替代

· 阅读需 5 分钟
AI Compute Cards Wiki Editorial
Industry Research Team

Huawei Ascend 920(昇腾 920)2025 H2 大规模量产,是中国国产 AI 芯片的重大突破。本文将分析其规格、与 NVIDIA H20 的对比、CloudMatrix 384 Ultra 系统,以及对中国 AI 产业的意义。

核心规格

项目Ascend 910CAscend 920提升
架构Da Vinci v3Da Vinci v4新一代
制程7nm6nm(SMIC 国产)更先进
小芯片数2×(双 die)
HBM 容量~128 GB~96 GB略降
HBM 带宽3.2 Tbps4 Tbps1.25×
BF16 算力780 TFLOPS900+ TFLOPS1.15×
FP16 算力1,560 TFLOPS1,800 TFLOPS1.15×
INT8 算力3,120 TOPS3,600 TOPS1.15×
TDP~310 W~400 W+29%
发布时间2025-042025 H2

4 Tbps 带宽 = 国产最高 HBM 带宽,比 Ascend 910C 提升 25%。900+ BF16 TFLOPS 算力也超过 910C。

Ascend 920 vs NVIDIA H20(对标)

NVIDIA H20 是 NVIDIA 在美国出口管制下专门为中国市场设计的"合规"AI 芯片:

指标Ascend 920NVIDIA H20
定位国产替代中国合规 AI 芯片
制程6nm(SMIC)TSMC 4N(受限后部分国产)
显存~96 GB96 GB HBM3
显存带宽4 Tbps4.0 Tbps
BF16 算力900 TFLOPS296 TFLOPS
BF16 算力比1×(基准)
互联HCCS 1.2 TbpsNVLink 900 GB/s
软件CANN + MindSporeCUDA(受限)
进口合规✅ 国产⚠️ 美国出口管制

💡 Ascend 920 在 BF16 算力上显著领先 H20(3 倍),且 4 Tbps 带宽与 H20 持平。这是国产替代的关键胜利

CloudMatrix 384 Ultra 系统

Ascend 920 将被用于 CloudMatrix 384 Ultra 超节点系统:

项目配置
芯片数384 颗 Ascend 920
机柜数16(12 计算 + 4 网络)
HBM 总量~36 TB(96GB × 384)
互联全光网状,8,000+ LPO 光模块
BF16 算力(系统)~345 PFLOPS(推测 900 × 384)
TDP(系统)~150 kW

CloudMatrix 384 Ultra 系统级 BF16 算力 ~345 PFLOPS ≈ NVIDIA GB200 NVL72 集群(~144 PF FP8 dense)的 2.4 倍

为什么 920 是国产替代关键胜利?

1. 算力首次超越 H20

时期国产NVIDIA 中国版倍数
2023910B = 320 TFLOPSH20 = 296 TFLOPS1.08×
2024910B = 320 TFLOPSH20 = 296 TFLOPS1.08×
2025 H1910C = 780 TFLOPSH20 = 296 TFLOPS2.6×
2025 H2920 = 900 TFLOPSH20 = 296 TFLOPS3.0×

2025 H2 起,国产 AI 芯片算力首次稳定超越 H20 三倍

2. 6nm SMIC 国产工艺

Ascend 920 采用 SMIC N+1 / N+2 6nm 工艺

  • ✅ 完全自主可控
  • ✅ 不受美国出口管制
  • ⚠️ 良率和成本仍逊于 TSMC 4N

3. 4 Tbps 国产最高 HBM

Ascend 920 的 4 Tbps HBM 带宽:

  • 国内首次达到 4 Tbps 级(之前最高 3.2 Tbps)
  • 与 H20 持平
  • 推测使用 CXMT 长鑫存储 HBM3 或自研 HBM

4. CANN + MindSpore 软件栈

  • CANN 8.x(Compute Architecture for Neural Networks):类比 CUDA
  • MindSpore 2.4+:Huawei 自研 AI 框架
  • PyTorch 2.3+ MindSpore 后端:兼容 PyTorch
  • vLLM 0.7+ Ascend 后端:低延迟推理
  • ONNX-Runtime Ascend 后端:跨框架推理
  • Atlas 900/950 系列服务器:OEM 整机

中国市场部署现状

已规模化客户

客户应用
中国移动大模型训练(9 9.8 亿客户)
中国电信智能客服 + 业务洞察
中国联通政务 + 行业 AI
国家电网电网调度 + 故障预测
中国石油勘探 + 物流优化
各大银行风控 + 反欺诈
互联网公司(百度、阿里、腾讯)LLM 推理

行业布局

  • 政府:100% 国产化要求
  • 金融:政策性要求国产
  • 电信:HBM 国产化进度快
  • 能源:HBM 国产化进度快
  • 互联网:部分敏感业务国产化
  • 教育 / 医疗:渐进国产化

局限与挑战

局限影响
FP8/FP4 支持Ascend 920 仍以 BF16/FP16 为主,FP8 优化中
HBM 容量96 GB 低于 NVIDIA Rubin R200 288 GB / AMD MI400 432 GB
CUDA 兼容性CANN 8 仍需迁移,CUDA 应用直接运行受限
SMIC 6nm 良率比 TSMC 4N 良率低 10-20%
HBM 来源CXMT 长鑫 HBM 产能有限
互联带宽HCCS 1.2 Tbps 远低于 NVLink 6 (3.5 TB/s)

与同期国产芯片对比

厂商芯片BF16 算力HBM 带宽量产时间
HuaweiAscend 920900 TFLOPS4 Tbps2025 H2
HuaweiAscend 910C780 TFLOPS3.2 Tbps2025-04
Cambricon思元 590~480 TFLOPS2.4 Tbps2024
Moore ThreadsMTT S5000~250 TFLOPS1.6 Tbps2024
BirenBR104~300 TFLOPS1.6 Tbps2024
IluvatarCoreX Bi-150~200 TFLOPS1.2 Tbps2024

Huawei Ascend 920 在国产 AI 芯片中保持明显领先

详细产品页

总结

Huawei Ascend 920 是 2025 H2 中国 AI 芯片的关键胜利

  1. 900+ BF16 TFLOPS = 3× H20——首次稳定超越 H20 三倍
  2. 6nm SMIC 国产——自主可控
  3. 4 Tbps 国产最高 HBM 带宽——HBM 国产化突破
  4. CloudMatrix 384 Ultra 系统——单系统超越 GB200 NVL72
  5. CANN + MindSpore——软件生态完善

2025 H2 起,中国 AI 产业进入**"国产芯片可独立支撑大规模 AI 应用"**的新阶段。