NPU (Neural Processing Unit) 架构

什么是 NPU

NPU（Neural Processing Unit） 是专为神经网络推理设计的处理器，广义上包括所有"非 GPU、非 CPU"的 AI 加速器。狭义上特指端侧 / 边缘低功耗 AI 芯片（区别于数据中心的 ASIC/WSE/LPU）。

典型 NPU：Huawei Ascend、Intel Gaudi、Hailo、Apple Neural Engine（SoC 集成）。

NPU vs GPU vs TPU

维度	NPU	GPU	TPU
主要定位	推理（部分训练）	训练 + 推理	训练 + 推理
部署场景	边缘 / 端侧 / 数据中心	数据中心 / 工作站	仅 Google Cloud
功耗	< 100W	100-1000W	100-700W
生态	分散（厂商 SDK）	CUDA 成熟	JAX/TF
通用性	中	强	中
编程	厂商 SDK	CUDA	XLA

主要 NPU 厂商

Huawei 昇腾（达芬奇架构）

Ascend 910B / 910C / 910D：数据中心训练 + 推理
Ascend 310：边缘推理（10-22W）
MindSpore 生态
中国市场主导

Intel Gaudi（Habana Labs）

Gaudi 1 / 2 / 3：数据中心训练 + 推理
SynapseAI SDK
性价比路线

Hailo

Hailo-8 / 8L / 15：边缘视觉 AI 推理
Dataflow Architecture（类 WSE）
< 10W 超低功耗

Apple Neural Engine

集成于 M-Series / A-Series SoC
16-76 TOPS（按 SoC 代际）
端侧 Apple Intelligence

端侧 NPU（PC 集成）

Intel Meteor Lake / Lunar Lake / Arrow Lake-H / Panther Lake
AMD Ryzen AI (XDNA)（基于 Xilinx）
Qualcomm Hexagon NPU（Snapdragon X Elite）
Apple M-Series ANE

主流 NPU 规格对比

NPU	算力	TDP	内存	部署
Huawei Ascend 910C	780 TFLOPS BF16	310W	128GB HBM2e	数据中心
Huawei Ascend 310P	22 TOPS INT8	8W	24GB LPDDR4X	边缘
Intel Gaudi 3	1,835 TFLOPS BF16	900W	128GB HBM2e	数据中心
Hailo-8	26 TOPS	2.5W	4GB	边缘
Apple M4 ANE	38 TOPS	集成	共享 UMA	端侧
Qualcomm Hexagon NPU	45 TOPS	集成	共享	端侧 PC

NPU 适用场景

✅ 边缘 / 端侧 AI 推理（低功耗、永远在线）
✅ 数据中心定制 AI 加速（华为、Intel）
✅ 大模型推理优化（特定模型）
✅ 端侧 GenAI（Apple Intelligence、Copilot+ PC）
❌ 通用 AI 训练（应使用 GPU / TPU）
❌ 大模型训练（H100/B200 更优）

详细产品页

Huawei Ascend（达芬奇架构）

Huawei Ascend 910B - 2022, 7nm 64 核达芬奇 320 TFLOPS BF16
Huawei Ascend 910C - 2023-Q4, 双 chiplet 128GB HBM2e 780 TFLOPS BF16
Huawei Ascend 910D - 2024-H2, 国产 6nm SMIC + 国产 HBM
Huawei Ascend 920 - 2025-H2, 6nm SMIC 192GB HBM2e 4 Tbps 国产最高 900+ BF16 TFLOPS = 3× H20

Intel Gaudi（Habana Labs）

Intel Gaudi 1 - 2020 第一代
Intel Gaudi 2 - 2022 第二代, 24 核 Tensor 处理器 432 GB/s
Intel Gaudi 3 - 2024 第三代, 128GB HBM2e 1835 BF16 TFLOPS
Intel Gaudi 4 - 2026-Q2 推测 3nm 192GB HBM3E 3.7 PF FP8 18A 24× 200GbE RoCE

Intel Core Ultra（端侧 PC NPU）

Intel Core Ultra 2 (Lunar Lake) - Foveros 3D NPU 4.0 48 TOPS Xe2 GPU 60+ TOPS

Qualcomm（端侧 PC + 移动 NPU）

Qualcomm Snapdragon X Elite - 12 核 Oryon @ 4.2 GHz, Hexagon 45 TOPS, 75 TOPS AI Copilot+ PC
Qualcomm AI 200 / AI 300 - 5nm Hexagon NPU + Oryon CPU Cloud 推理

MediaTek（移动 NPU）

MediaTek Dimensity 9400 - 3nm N3E, Cortex-X925, NPU 890 第八代, 全球首款 Agentic AI 引擎, 端侧 LoRA 训练

Apple（端侧 ANE）

Apple A17 Pro - 全球首款 3nm 芯片, 35 TOPS NE
Apple A18 - iPhone 16 入门 5 核 GPU 35 TOPS NE 硬件光追
Apple A18 Pro - iPhone 16 Pro 35 TOPS NE Apple Intelligence
Apple A19 - iPhone 17 入门 5 核 GPU 8GB $799
Apple A19 Pro - iPhone 17 Pro 3nm N3P, GPU Neural Accelerators 4× A18 Pro
Apple M1 Pro - MacBook Pro 2021 10 核 CPU 200 GB/s
Apple M1 Max - MacBook Pro 2021 32 核 GPU 400 GB/s 64GB UMA
Apple M2 Max - 96GB UMA 400 GB/s
Apple M3 Max - 128GB LPDDR5 400 GB/s 18 TOPS NE
Apple M4 Max - 128GB LPDDR5X 546 GB/s 38 TOPS NE
Apple M-Series 总览 - M1/M2/M3/M4/M5 全对比

韩国 AI 三剑客（数据中心 + 边缘 NPU）

Rebellions RDU - 2024-Q2 5nm 16 INT8 TOPS 15-30W 韩国
Mobilint Regulus - 2023-Q2 5nm 32 INT8 TOPS 12W 韩国
FuriosaAI RNGD - 2024-Q3 5nm 512GB HBM3 200K tok/s 韩国 450W

国产 AI 创业（数据中心 NPU）

Cambricon MLU 370 - 2021-Q4 7nm 96 INT8 TOPS 35W (EOL 2023)
Cambricon MLU 590 - 7nm 96GB HBM2 256 INT8 TOPS 250W 科创板
Cambricon MLU 690 - 2025-2026 推测 5nm 192GB HBM3E 2 PF FP8

边缘 NPU

Hailo-15 - 2024-Q4 7-20 TOPS AI-ISP Gen3 视觉 AI
Hailo-8 - 2019, 26 TOPS 2.5W 边缘长青树

什么是 NPU​

NPU vs GPU vs TPU​

主要 NPU 厂商​

Huawei 昇腾（达芬奇架构）​

Intel Gaudi（Habana Labs）​

Hailo​

Apple Neural Engine​

端侧 NPU（PC 集成）​

主流 NPU 规格对比​

NPU 适用场景​

详细产品页​

Huawei Ascend（达芬奇架构）​

Intel Gaudi（Habana Labs）​

Intel Core Ultra（端侧 PC NPU）​

Qualcomm（端侧 PC + 移动 NPU）​

MediaTek（移动 NPU）​

Apple（端侧 ANE）​

韩国 AI 三剑客（数据中心 + 边缘 NPU）​

国产 AI 创业（数据中心 NPU）​

边缘 NPU​

相关架构​

什么是 NPU

NPU vs GPU vs TPU

主要 NPU 厂商

Huawei 昇腾（达芬奇架构）

Intel Gaudi（Habana Labs）

Hailo

Apple Neural Engine

端侧 NPU（PC 集成）

主流 NPU 规格对比

NPU 适用场景

详细产品页

Huawei Ascend（达芬奇架构）

Intel Gaudi（Habana Labs）

Intel Core Ultra（端侧 PC NPU）

Qualcomm（端侧 PC + 移动 NPU）

MediaTek（移动 NPU）

Apple（端侧 ANE）

韩国 AI 三剑客（数据中心 + 边缘 NPU）

国产 AI 创业（数据中心 NPU）

边缘 NPU

相关架构