Skip to main content

Alibaba Hanguang 800 含光 800 (阿里推理, 2021)

产品概述

Alibaba 含光 800(Hanguang 800) 是阿里巴巴旗下 平头哥(T-Head) 半导体公司发布的第一代 AI 推理芯片2019-09 杭州云栖大会发布2021 量产。基于 TSMC 12nm820 INT8 TOPS 算力(业界领先推理芯片),700 GB/s 内存带宽168W TDP。配套 HALO(Hanguang Accelerated Linear Operator)软件栈。

战略意义:含光 800 是中国互联网公司自研 AI 芯片的开端阿里内部淘宝搜索推荐、阿里云 PAI 平台、菜鸟物流调度 全部部署含光 800,替代 NVIDIA T4 / L4 推理2021 阿里云营收 ¥100B+,AI 推理算力 70% 来自自研。

核心规格

项目参数
架构Hanguang NPU(自研)
制程TSMC 12nm
计算核心170,000 个 NPU Core(自研 ISA)
片上 SRAM32MB
HBM32GB HBM2(4 个 stack)
内存带宽700 GB/s
INT8820 TOPS
BF16128 TFLOPS业界领先推理 BF16 之一
FP16128 TFLOPS
TDP168W
板卡形态PCIe Gen3 ×16
互连PCIe + 自研 RLLink
量产2021-Q3
单价不公开(阿里内部)

12nm 制程选择原因

维度含光 800 (12nm)同期 NVIDIA T4 (12nm)同期 Huawei Ascend 310 (12nm)
制程12nm12nm12nm
INT8820 TOPS130 TOPS16 TOPS (310) / 22 TOPS
BF16128 TFLOPS--
TDP168W70W8W (310)
阿里内部 100K+NVIDIA 通用华为云 + 端侧

12nm 选择原因成熟制程 + 量产稳定(vs 7nm 早期良率问题),足够性能 + 成本优势阿里 2021 整体战略自研 + 性价比 + 不依赖美国先进制程

含光 vs 同期竞品

指标Alibaba 含光 800NVIDIA T4Huawei Ascend 310Google Edge TPU
制程12nm12nm12nm28nm
INT8820 TOPS130 TOPS16-22 TOPS4 TOPS
TDP168W70W8W2W
能效4.88 TOPS/W1.86 TOPS/W2-2.75 TOPS/W2 TOPS/W
内存32GB HBM216GB GDDR68GB LPDDR48MB SRAM
价格不公开~$2K不公开~$60

含光 800 优势INT8 算力是 T4 6.3×能效是 T4 2.6×2021 业界推理芯片领先

阿里内部部署场景

场景业务节省
淘宝搜索推荐10 亿商品搜索排序节省 50% GPU 成本(vs V100)
阿里云 PAI 平台机器学习推理服务单卡 T4 5× 算力
菜鸟物流调度1000 万+ 包裹路径优化调度延迟 50ms
天猫图像识别商品图像 1M+/天替代 T4 90% 工作负载
支付宝风控实时欺诈检测毫秒级决策
钉钉智能客服LLM 推理成本降低 70%

含光 800 商业化意义阿里首个自研 AI 芯片 100% 内部替代 NVIDIA单芯片 5× T4 算力 + 70% 成本节省

HALO 软件栈

层级工具说明
AI 框架HALO(Hanguang Accelerated Linear Operator)统一编程平台
PyTorch(HALO 后端)自动映射 NPU
TensorFlow(HALO 后端)兼容
HALO-MLAMulti-Level API(高级)
HALO-Lite轻量 API(推理)
编译器HALO CompilerPyTorch / TF → NPU
运行时HALO Runtime调度
量化HALO QuantINT8 自动
模型库HALO ModelZoo100+ 推理模型

HALO 优势阿里内部 100+ 模型预优化(淘宝搜索、推荐、风控、图像、NLP),开箱即用

厂商信息

项目内容
公司阿里巴巴 / 平头哥(T-Head)半导体
业务部门阿里云 + 平头哥半导体
成立平头哥 2018-09(中天微 + 达摩院自研合并)
含光 800 团队阿里达摩院 + 平头哥(上海 + 杭州)
总投入$5B+(2018-2023 累计)
首颗芯片含光 800(2019 发布,2021 量产)
后续玄铁 C910(RISC-V CPU)、羽山 600(SSD 主控)、镇岳 510(企业级 SSD)
客户阿里内部 100% + 阿里云 PAI 平台
员工平头哥 ~1500 人(半导体)
代工TSMC 12nm + 5nm(2024 推测)

平头哥产品线

产品类型发布算力用途
含光 800AI 推理2019-09 / 2021 量产820 INT8 TOPS阿里内部 + 阿里云
玄铁 C910RISC-V CPU20192.5 GHz 12 核IoT / Edge
玄铁 C906RISC-V CPU20191 GHzMCU
羽山 600SSD 主控2020PCIe Gen4数据中心 SSD
镇岳 510企业级 SSD202216TB阿里云盘古
含光 900 (推测)AI 推理下一代2024 推测2-3 PF2024+

阿里 AI 战略

维度2019 含光 800 时代2024+ 推测
业务阿里内部 + 阿里云阿里云 + 外部客户
应用搜索 / 推荐 / 物流+ LLM (Qwen) / 多模态
算力820 INT8 TOPS2-3 PF (推测)
内存32GB HBM296-128GB HBM3 (推测)
量产10K+ 颗 / 年100K+ 颗 / 年
T-Head 团队半导体独立阿里云全栈集成

关键特性

  • 820 INT8 TOPS:2021 业界领先推理
  • 128 BF16 TFLOPS:支持 LLM 推理
  • 32GB HBM2:32GB 内存推理 LLaMA 1 65B
  • HALO 软件栈:阿里内部 100+ 模型
  • 100% 内部替代:阿里淘宝 / 天猫 / 支付宝 / 菜鸟 / 钉钉
  • TDP 168W:单 GPU 替代
  • 缺点:已停产(2023-12)、未外部销售、生态 4 年

与国产 AI 芯片对比(2021 时代)

指标Alibaba 含光 800Huawei Ascend 310寒武纪 MLU 370
制程12nm12nm7nm
INT8820 TOPS22 TOPS96 TOPS
TDP168W8W35W
内存32GB HBM28GB LPDDR448GB HBM2
部署阿里内部华为云政企云

2021 含光 800 算力是 Ascend 310 的 37 倍,但 2022 后华为昇腾 910 系列 + 寒武纪 590 迅速赶上,含光 800 优势不再

适用场景

  • 阿里内部 AI 推理(淘宝 / 天猫 / 支付宝 / 菜鸟 / 钉钉)
  • 阿里云 PAI 推理服务(PAI-EAS)
  • LLM 推理(Qwen 7B / 14B / 72B 优化)
  • 搜索 / 推荐 / 图像 / NLP(100+ 模型预优化)
  • 阿里电商业务(淘宝搜索排序)
  • 外部销售(仅内部 + 阿里云)
  • AI 训练(仅推理)
  • CUDA 专有工作负载(需 HALO 移植)

关键时间线

时间事件
2018-09阿里成立平头哥半导体(中天微 + 达摩院)
2019-09含光 800 在杭州云栖大会发布(达摩院研发)
2020平头哥内部测试 + 阿里小规模部署
2021-Q3含光 800 量产,阿里内部 100K+ 颗部署
2022含光 800 部署到阿里云 PAI 平台
2023阿里内部推理算力 70% 含光 800
2023-12含光 800 正式停产(向下一代过渡)
2024+含光下一代(推测 900 系列)

相关卡