跳到主要内容

APU (Accelerated Processing Unit) 架构

什么是 APU

APU(Accelerated Processing Unit) 是将 CPU + GPU + NPU 集成单一封装 / 单一芯片的处理器,共享统一内存(UMA, Unified Memory Architecture)。避免 CPU 与 GPU 之间的数据拷贝,适合需要异构计算的场景(HPC、AI 推理、本地 LLM)。

代表产品

  • Apple M-Series(M2/M3/M4 Max/Ultra)
  • AMD MI300A(CDNA 3 + Zen 4)
  • Intel Core Ultra(Meteor Lake / Lunar Lake,集成 NPU)

APU 核心优势

统一内存架构(UMA)

  • CPU 与 GPU 共享同一 LPDDR5/HBM 池
  • 无需数据拷贝(vs 独立 GPU 需通过 PCIe 传输)
  • 192GB Mac Studio 可加载完整 70B LLM

内存带宽

  • Apple M2 Ultra: 800 GB/s
  • AMD MI300A: 5.3 TB/s(HBM3)
  • 数据密集型 LLM 推理带宽优势明显

异构计算

  • 数值模拟(CPU) + AI 推理(GPU)+ 信号处理(NPU)同芯片协同
  • 适合 HPC + AI 联合 工作流

主流 APU 对比

APU制程CPUGPU内存内存带宽部署
Apple M3 Ultra3nm32 核80 核192GB LPDDR5800 GB/s工作站
Apple M4 Max3nm16 核40 核128GB LPDDR5X546 GB/s工作站
AMD MI300A5nm + 6nm24 核 Zen 414,592 SP128GB HBM35.3 TB/s数据中心
Intel Core Ultra 9 285H3nm16 核8 核 Arc96GB DDR589 GB/s笔电

APU vs 独立 CPU+GPU

维度APU独立 CPU + GPU
内存访问共享(无拷贝)PCIe 传输
内存带宽800 GB/s - 5.3 TB/sGPU HBM + CPU DDR
算力中(受 TDP 限制)高(独立散热)
灵活性软件栈统一CPU/GPU 分离
价格
适用本地 AI、笔记本数据中心、训练

APU 适用场景

  • 本地 LLM 推理(UMA 优势,70B+ 模型可载)
  • ✅ HPC + AI 联合(El Capitan 超算)
  • ✅ 工作站创作(Final Cut Pro、DaVinci Resolve)
  • ✅ 端侧 GenAI(Apple Intelligence、Copilot+ PC)
  • ✅ 笔电 / 一体机 AI(低功耗)
  • ❌ 超大模型训练(应使用独立 GPU 集群)
  • ❌ 数据中心高密度(应使用 H100/MI300X)

详细产品页

Apple Silicon

AMD

Intel

相关架构