IBM NorthPole (In-Memory Compute, 2023)

产品概述

IBM NorthPole 是 IBM Research 开发的革命性 AI 推理芯片，原型发布于 2023-10-19 Science 论文（"Neuromorphic computing at scale"，Dharmendra Modha 团队），22nm 制程，458 TOPS INT8 算力，75W TDP。采用**存内计算（In-Memory Compute）**架构，所有权重存储在片上 SRAM + 模拟计算单元，消除冯·诺依曼瓶颈（传统 GPU 99% 功耗花在数据搬运）。

架构灵感：源自 IBM TrueNorth 神经形态芯片（2014, 54亿晶体管，100万神经元），NorthPole 是 TrueNorth 的 AI 实用化版本，能效比 GPU 高 25×（IBM 官方论文数据）。

战略意义：IBM 是 存内计算 + 神经形态 AI 的领导者，NorthPole 是首个将存内计算规模扩大到 458 TOPS 的商业可用 AI 芯片。NorthPole 2 预计 2025 H2 发布，25× 能效优势。

核心规格

| 项目 | 参数 |

发布	2023-10-19
架构	IBM NorthPole（In-Memory Compute）
制程	IBM 22nm SOI（Samsung/Samsung 11nm 推测 2026）
核心数	256 个 CISC 处理器（Custom Instruction Set）
SRAM	224MB 片上 SRAM（业界最大 AI 芯片 SRAM 之一）
存内计算	1.6 亿字节权重 + 30 亿 MAC 单元
内存带宽	2.5 TB/s（片上 SRAM）
INT8	458 TOPS
FP16	~110 TFLOPS
TDP	75 W
能效	6.1 TOPS/W（H100 ~2.16, 3× 优势）
延迟	5-10ms（存内计算 0 数据搬运）
量产	未商业化（研究原型）
商业版	NorthPole 2 2025 H2 推测

存内计算（In-Memory Compute）原理

维度	传统 GPU (von Neumann)	IBM NorthPole (In-Memory)
架构	内存（DRAM/HBM）+ 计算（GPU）分离	内存 + 计算融合
数据搬运	99% 功耗在数据搬运	0 数据搬运（计算在 SRAM 内部）
算子	标量 MAC 阵列	模拟 / 数字混合
能耗	1×	0.04×（25× 优势）
延迟	受 HBM 限制	5-10ms（0 等待）
可重构	CUDA 程序	网络拓扑配置
精度	FP64/FP32/FP16/INT8	INT8 为主（模拟计算限制）
缺点	-	仅推理、INT8 限制、训练不成熟

存内计算的工作方式

传统 GPU:
  加载权重 (HBM) → 加载输入 (HBM) → MAC (CUDA) → 存回结果 (HBM)
  总能耗: 100%  (其中 99% 在数据搬运)

IBM NorthPole:
  权重已预存在 SRAM 模拟单元（不可变）
  加载输入 (SRAM) → 模拟 MAC (SRAM 内部) → 存回结果 (SRAM)
  总能耗: 4%  (数据搬运仅 0-1%)

关键优势：

224MB SRAM 一次性存全部权重（LLM 70B INT8 = 70GB 仍需 HBM，但小模型可纯 SRAM）
30 亿模拟 MAC 单元同时计算
6.1 TOPS/W（H100 3× 能效）

256 个 CISC 处理器

维度	规格
架构	CISC（Custom Instruction Set）
核心数	256 个
每核	64KB SRAM + 4 个模拟 MAC 单元
频率	1.4 GHz
作用	调度 + 激活函数 + 标量操作
ISA	私有（非 RISC-V，非 ARM）
编程	神经网络拓扑图配置（类 TrueNorth）

CISC vs RISC：NorthPole 不用 RISC-V 是因为存内计算需要专用指令（神经拓扑编译）。TrueNorth → NorthPole 是 IBM 10 年研发积累。

25× 能效比来源

因素	能耗节省
数据搬运减少	20×（vs HBM）
模拟计算	3×（vs 数字）
SRAM 内部计算	1.5×（vs 寄存器）
22nm SOI	0.8×（vs 5nm 数字）
合计	25×（IBM 论文数据）

IBM 论文结论：NorthPole 在 ResNet-50 推理上，比 NVIDIA H100 节能 25×、快 25×（同精度下）。

ResNet-50 性能（IBM Science 论文）

维度	IBM NorthPole	NVIDIA V100	NVIDIA H100
延迟	5ms	8ms	2ms
吞吐	7,000 images/s	5,000 images/s	15,000 images/s
能效	6.1 TOPS/W	0.4 TOPS/W	2.16 TOPS/W
功率	75W	250W	700W
精度	INT8	FP16	FP8

NorthPole 优势：5ms 延迟是 V100 1.6×，但能效是 15×。H100 在吞吐上胜出（FP8 优势），但 NorthPole 在低延迟 + 低功耗 场景胜出。

厂商信息

项目	内容
公司	IBM Research
实验室	IBM Research - Almaden（加州圣何塞）
首席科学家	Dharmendra S. Modha（IBM Fellow）
团队	100+ IBM Research 工程师
发表	Science 2023-10-19（"Neuromorphic computing at scale"）
论文引用	200+ 次（2024-2026）
商业化	未商业化（IBM 不直接销售）
商业路径	IBM Cloud 推理服务（未来）+ IP 授权（Samsung 11nm 2026）
客户	美国 DARPA、NASA、Department of Energy
竞争对手	Mythic（数字 CIM）、Syntiant（端侧 CIM）、智芯科技（中国）

IBM 神经形态 AI 演进

产品	发布	晶体管	神经元	算力	用途
TrueNorth	2014	54 亿	100 万	-	神经形态研究
NorthPole	2023-10	220 亿	模拟	458 TOPS INT8	AI 推理
NorthPole 2	2025 H2 推测	-	模拟	1.2 POPS INT8（推测）	AI 推理 + 训练
NorthPole 3 (推测)	2027	-	模拟	5 POPS	通用 AI

适用场景

✅ 低延迟 AI 推理（5-10ms，超低延迟）
✅ 超低功耗 AI（75W，3-25× GPU 能效）
✅ 政府/科研 HPC（美国 DARPA、NASA、DOE）
✅ 神经形态 AI 研究（AI 下一代架构）
✅ 小模型推理（7B-13B 70GB < 224MB 可纯 SRAM）
❌ AI 训练（NorthPole 仅推理）
❌ 大模型训练（< 224MB SRAM 限制）
❌ 商业采购（IBM 未商业化）
❌ CUDA 兼容（私有 ISA）

IBM 存内计算战略

IBM Research AI 旗舰项目：Modha 团队 10 年研发
DARPA 资助：SyNAPSE 项目（2014-2024 $100M+ 累计）
NorthPole 2：2025 H2 商业版，与 Samsung 合作 11nm
AI Cloud 服务：IBM Cloud 集成 NorthPole 推理
开源软件：IBM 计划开源 NorthPole 编译栈（与 PyTorch 集成）

关键特性

In-Memory Compute：业界首个 458 TOPS 规模存内计算
224MB SRAM：业界最大 AI 芯片 SRAM
6.1 TOPS/W：H100 3× 能效
5ms 延迟：实时 AI 推理
75W TDP：风冷部署
缺点：未商业化、仅 INT8、训练不支持

神经形态 AI 三巨头

公司	产品	算力	状态
IBM	NorthPole	458 TOPS INT8	2023 原型
Intel	Loihi 2	1M 神经元	2021 神经形态研究
Brainchip	Akida 2	200 GOPS INT8	2023 Edge 商用

产品概述​

核心规格​

存内计算（In-Memory Compute）原理​

存内计算的工作方式​

256 个 CISC 处理器​

25× 能效比来源​

ResNet-50 性能（IBM Science 论文）​

厂商信息​

IBM 神经形态 AI 演进​

适用场景​

IBM 存内计算战略​

关键特性​

神经形态 AI 三巨头​

相关卡​