Skip to main content

AWS Trainium 3 GA:3nm 工艺 + 4.4× 算力 + 4× 能效 + 144 芯片 UltraServer

· 5 min read
AI Compute Cards Wiki Editorial
Industry Research Team

2025 年 12 月 2 日,AWS 在 re:Invent 2025 大会上正式 GA 第三代自研 AI 训练芯片 Trainium 3。这是 AWS 算力版图的关键升级:3nm 工艺、4.4× 算力提升、4× 能效提升、Trn3 UltraServer 144 颗芯片。本文详细解析。

核心规格

项目Trainium 2 (2024)Trainium 3 (2025-12 GA)提升
工艺TSMC 4nmTSMC 3nm+一代
NeuronCore8 颗 v38 颗 v4架构升级
HBM 容量96 GB144 GB1.5×
HBM 带宽2.9 TB/s~4.5 TB/s~1.55×
FP8 算力(密集)1,299 TFLOPS5,716 TFLOPS(官方 4.4×)4.4×
BF16/FP16667 TFLOPS1,300 TFLOPS
每芯片能效
内存带宽
NeuronLinkNeuronLink-v3NeuronLink-v4新一代
TDP~700 W~700 W持平
发布时间2024-122025-12

官方 4.4× 算力提升 + 4× 能效 + 4× 内存带宽——Trainium 3 是 AWS 在三个维度同时大幅升级的旗舰芯片。

Trn3 UltraServer(机柜级)

项目配置
芯片数144 颗 Trainium 3
HBM 总量~20.7 TB(144GB × 144)
NeuronLink-v4全互联,>10 TB/s 双向
FP8 算力(机柜)52 PFLOPS(dense)
BF16 算力(机柜)~187 PFLOPS
TDP(机柜)~100 kW
适用模型400B+ 参数 LLM 训练

Trn3 UltraServer = 单机柜可训练 400B 模型。一个 EC2 UltraCluster(>10 机柜)可支持1.4T+ 参数的巨型模型训练

Trn3 vs Trn2 UltraServer 升级

指标Trn2 UltraServerTrn3 UltraServer提升
芯片数641442.25×
互联NeuronLink-v3NeuronLink-v4新一代
HBM 总量6.1 TB~20.7 TB3.4×
FP8 算力~83 TFLOPS52 PFLOPS~626×
训练能力70B+ LLM400B+ LLM
发布时间2024-122025-12

Trn3 UltraServer 是 2026 年性价比最高的大规模训练方案之一。

AWS Neuron SDK 3

  • Neuron SDK 3.x:PyTorch 2.4+ / JAX 0.4+ / TensorFlow 2.16+ 全优化
  • Neuron Compiler 2.x:自动编译 + 图优化
  • NeuronX Distributed:大规模分布式训练库(与 PyTorch FSDP 集成)
  • NeuronX Nemo:LLM 微调框架(Megatron-LM 等价)
  • vLLM 0.7+ 优化版:低延迟推理

AWS Neuron = 类似 ROCm 的开源生态,全部 SDK 在 GitHub 开源(aws-neuron)。

EC2 实例类型

实例GPU配置用途
trn3.48xlarge1 颗 Trn3144GB HBM单芯片开发
trn3.96xlarge2 颗 Trn3288GB HBM小规模训练
trn3 UltraServer144 颗 Trn320.7 TB HBM超大规模训练

价格与每美元性能

实例每小时价格(on-demand,推测)
trn3.48xlarge~$32
Trainium 2 同等实例~$16
价格提升
每美元 FP8 算力提升2.2×(按 4.4× 算力 / 2× 价格)

AWS 强调:Trainium 3 在每美元 FP8 算力显著优于 NVIDIA H100 / H200(2-3×)。

与 NVIDIA 同期产品对比

指标Trainium 3NVIDIA H200NVIDIA B200
工艺TSMC 3nmTSMC 4NTSMC 4NP
HBM 容量144 GB141 GB192 GB
HBM 带宽4.5 TB/s4.8 TB/s8 TB/s
FP8 算力 (dense)5.7 PFLOPS1.0 PFLOPS4.5 PFLOPS
FP16 算力1.3 PFLOPS1.0 PFLOPS2.25 PFLOPS
TDP700 W700 W1,000 W
互联NeuronLink-v4NVLink 4NVLink 5
提供方式AWS Cloud only商用商用
软件Neuron SDK 3CUDACUDA
每美元性能2-3× 优势1.5×

适用场景

  • 超大规模 LLM 训练(400B-1.4T 模型,UltraServer)
  • AWS Bedrock 模型预训练(Anthropic Claude、Meta Llama、Mistral)
  • 成本敏感型训练(价格低于 NVIDIA 30-50%)
  • 能源效率敏感(每瓦性能 4× 提升)
  • ❌ 非 AWS 部署(Trainium 仅在 EC2 出售)
  • ❌ 旧 NVIDIA 生态绑定(CUDA-only 代码迁移成本高)

AWS 客户案例

AWS 在 re:Invent 2025 上公布的关键客户:

客户应用
AnthropicClaude 训练(已使用 Trn2,现迁移到 Trn3)
MetaLlama 4 训练
MistralMistral Large 3 训练
HuggingFaceOpen LLM 训练
AWS Bedrock内部托管模型训练

详细产品页

总结

AWS Trainium 3 是 2025 年 AI 芯片行业的关键发布之一:

  1. 3nm 工艺 + 4.4× 算力 + 4× 能效——AWS 算力版图全面升级
  2. Trn3 UltraServer 144 颗——单机柜训练 400B+ 模型
  3. 每美元 FP8 算力 2-3× NVIDIA——AWS 训练成本优势
  4. Neuron SDK 3 全面开源——降低软件迁移成本
  5. Anthropic、Meta、Mistral 全面采用——AWS 算力生态扩展

2026 年,Trainium 3 将成为AWS 内部核心训练负载的算力基础。