跳到主要内容

Etched Sohu (Transformer 专用 ASIC)

产品概述

Etched Sohu 是美国芯片初创公司 Etched AI(2022年成立)于 2024年6月 发布的全球首款 Transformer 架构专用 ASIC 芯片。Sohu 将 Transformer 注意力机制完全硬编码到硅片中,无任何可编程层,专为推理设计(不支持训练/微调)。单芯片配备 144GB HBM3E 内存,在 batch size=1 条件下运行 Llama 70B 可达 62,500 tokens/秒,是 NVIDIA H100 的 89×(batch size=1 条件下)。

⚠️ 重要限制:Sohu 仅支持 Transformer 注意力架构,不支持:

  • 多模态模型(含视觉编码器的 LLaVA、Qwen-VL 等)
  • 扩散模型(Stable Diffusion、视频生成模型)
  • 动态专家路由 MoE 模型(DeepSeek V4、Mixtral、Qwen3-235B-A22B)
  • SSM/Mamba 架构模型
  • 任何非密集 Transformer 注意力架构的模型

核心规格

项目参数
架构Transformer 专用 ASIC(不可编程)
制程TSMC 4nm(推测)
HBM 类型HBM3E
HBM 容量144 GB
HBM 带宽~6.03 TB/s(H100 SXM5 的 1.8×)
算力(Llama 70B)62,500 tokens/秒(batch size=1)
8 芯片服务器性能500,000 tokens/秒(Llama 70B)
TDP未公开
形态PCIe(推测)
发布时间2024年6月
上市状态未公开销售(截至 2026年4月)
可用性仅向投资者展示过受控基准测试

技术架构

固定功能 Transformer 单元

Sohu 无任何通用计算单元,所有计算资源专用于 Transformer 注意力计算:

硬件实现的功能说明
注意力计算直接硬件实现,无内核启动开销
QKV 投影固定功能单元
KV 缓存处理专用硬件电路
前馈网络(FFN)硬编码到硅片
无调度器开销无操作系统、无驱动、无内核调度

与 GPU 的架构对比

维度NVIDIA H100Etched Sohu
可编程性✅ 完全可编程(CUDA)完全不可编程
支持模型架构所有架构仅 Transformer 注意力
Batch size=1 性能~700 tokens/秒62,500 tokens/秒(89×)
Batch size=32 性能~9,000 tokens/秒未公开(优势缩小)
生态CUDA、vLLM、TensorRT-LLM自研编译器(迁移成本极高)
适用场景全场景仅密集 Transformer 推理

性能详解

Batch Size 对性能的影响

Batch SizeH100 性能Sohu 性能Sohu 优势
1~700 tokens/秒62,500 tokens/秒89×
8~4,000 tokens/秒未公开优势缩小
32~9,000 tokens/秒未公开优势进一步缩小
>32GPU 通过批处理摊销开销未公开可能无优势

关键洞察:Sohu 的优势在 batch size=1(实时交互) 场景下最显著。高并发场景(batch size > 32)下,GPU 通过批处理摊销开销,Sohu 的优势可能消失。

8 芯片服务器性能

  • Llama 70B:500,000 tokens/秒(8 芯片 Sohu 服务器)
  • 对比:8× H100 SXM5 服务器约 64,000 tokens/秒(batch size=32)
  • 优势7.8×(高 batch size 条件下)

适用场景与限制

✅ 适用场景

  • 密集 Transformer 推理:Llama、Qwen、Mistral 等标准 Transformer 模型
  • 实时交互 AI:batch size=1 延迟极低(<10ms)
  • 高并发推理服务:8 芯片服务器可达 500,000 tokens/秒

❌ 不适用场景

模型类型示例Sohu 支持状态
多模态模型LLaVA、Qwen-VL❌ 不支持
扩散模型Stable Diffusion、Sora❌ 不支持
MoE 模型DeepSeek V4、Mixtral❌ 不支持(动态专家路由)
SSM/MambaMamba、RWKV❌ 不支持
训练/微调任何训练任务❌ 不支持(仅推理)

与竞品对比

指标Etched SohuNVIDIA H200NVIDIA B200Groq LPU
Batch size=1 性能62,500 tokens/秒~800~1,50080,000+
Batch size=32 性能未公开~10,000~18,000~40,000
可编程性❌ 不可编程✅ CUDA✅ CUDA❌ 有限编程
模型架构支持仅 Transformer全架构全架构Transformer + 部分
生态自研编译器CUDA 全生态CUDA 全生态有限生态
上市状态未上市✅ 已上市✅ 已上市✅ 已上市

公司背景与融资

项目详情
公司名称Etched AI
成立时间2022年
总部美国加州
累计融资近 10 亿美元
最新融资5 亿美元(估值 50 亿美元)
投资者未公开(知名 VC)
第二代产品更先进制程,目标推理 + prefill-heavy 训练

第二代产品规划

  • 更先进制程:目标 TSMC 3nm 或更高
  • 扩展功能:目标同时支持推理和 prefill-heavy 训练工作负载
  • 更小、更低功耗版本:针对边缘推理场景
  • 发布时间2027-2028 年(推测)

发布时间与获取方式

  • 官方发布:2024年6月
  • 当前状态未公开上市销售(截至 2026年4月)
  • 获取方式
    • 仅向投资者展示过受控基准测试
    • 无公开云租赁渠道
    • 无公开定价信息
  • 预计上市2026年H2 或 2027年(推测)

外部链接