【导读】亚马逊首款 3 纳米 AI 芯片 Trainium3 发布,实现了 AI 训练芯片在性能、能效与扩展性上的全方位重大提升。其计算性能较前代 Trainium2 提升 4.4 倍,内存带宽增加 4 倍,单芯片集成 144GB HBM3e 内存,算力达 2.52FP8 PFLOPs。这一飞跃依托 3 纳米制程、Neuron Fabric 互联及智能功耗管理三大创新,实测中训练 GPT-OSS 模型成本直降 50%。
作为亚马逊首款3纳米工艺AI芯片,Trainium3的核心突破在于性能、能效与扩展性的全面跃升。其计算性能较前代Trainium2提升4.4倍,内存带宽与能效分别增加4倍和40%,单芯片集成144GB高带宽内存(HBM3e),提供2.52FP8 PFLOPs算力。这一性能飞跃得益于三大技术创新:
3纳米制程工艺:晶体管密度提升70%以上,相同面积下集成更多计算单元,能效比提升40%,单位算力能耗降低40%。
Neuron Fabric互联技术:单台Trn3 UltraServer可集成144颗芯片,通过EC2 UltraClusters 3.0架构扩展至百万颗芯片集群,规模较上一代提升10倍,时延降低4倍。
智能功耗管理:动态调节供电频率,高负载时提升计算核心性能,空闲时降低功耗,平衡性能与能效。
数据显示,Trainium3在训练OpenAI GPT-OSS模型时,单芯片吞吐量提升3倍,推理响应速度提升4倍,训练成本降低50%。
Trainium3的登场并非孤立事件,其前代产品Trainium2已为亚马逊AI芯片生态奠定基础。作为AWS在2024年推出的第二代AI训练芯片,Trainium2采用多核架构设计,支持高并发计算,峰值性能达每秒数千亿次浮点运算,性价比较GPU实例提升30%-40%。
其核心优势包括,定制化硬件优化,针对Transformer架构设计注意力机制加速单元,大语言模型训练效率提升40%。NeuronLink超速互联,通过低延迟网络连接4个Trn2服务器,形成83.2Petaflops算力的UltraServer,支持超大规模模型训练。生态兼容性,支持TensorFlow、PyTorch等主流框架,无缝迁移现有模型,降低技术门槛。
Trainium2的商业化已取得实质进展。Adobe、Poolside等企业利用其训练和部署AI模型,Anthropic的“Project Rainier”项目更通过数十万颗Trainium2芯片构建超级集群,算力较前代提升5倍。
AWS 在推出首款 3 纳米工艺 AI 训练芯片 Trainium3 的同时,同步披露了下一代产品 Trainium4 的研发进展,其核心战略转向与英伟达生态的深度协同,以此打破 AI 芯片市场的性能竞争与生态壁垒困局。
Trainium3 已实现性能、能效与扩展性的全面跃升,相较前代 Trainium2,其计算性能提升 4.4 倍,内存带宽增加 4 倍,能效提升 40%,单芯片集成 144GB HBM3e 高带宽内存,可提供 2.52FP8 PFLOPs 算力。实测数据显示,该芯片在训练 OpenAI GPT-OSS 模型时,单芯片吞吐量提升 3 倍、推理响应速度提升 4 倍,训练成本直接降低 50%。而在客户价值层面,Trainium3 对比传统 GPU 系统,训练与推理成本最高可降 50%,碳排放减少 40%,同时支持从单芯片到百万芯片集群的无缝弹性扩展,能适配金融风控、医疗影像分析、自动驾驶等多领域高并发 AI 场景。
正在研发的 Trainium4 则剑指生态兼容痛点,核心突破在于实现英伟达 GPU 与 Trainium 芯片的高速互联,构建机架级一体化 AI 基础设施,兼顾极致性能与成本控制。性能维度上,其 FP8 算力将提升 3 倍、FP4 算力提升 6 倍、内存带宽提升 4 倍,模型训练与推理吞吐量至少实现 3 倍增长,叠加持续的软硬件协同优化,实际性能提升将远超基准数值,同时大幅降低客户技术迁移成本。
值得注意的是,尽管 Trainium3 144GB 的内存容量,与谷歌 TPU 的 192GB、英伟达 Blackwell 的 288GB 存在差距,但 AWS 通过绑定英伟达生态的战略调整,既能保留 Trainium 系列一贯的性价比优势,又可吸引大量依赖英伟达生态的客户向 Trainium 平台迁移。
目前亚马逊自研 AI 芯片战略已收获显著成效,截至 2024 年,Trainium 系列芯片在 AWS 数据中心的部署速度超出预期,头部客户 Anthropic 更是计划在年底投入超百万颗 Trainium2 芯片支撑其 AI 项目。从 Trainium2 的生态奠基,到 Trainium3 的规模化商用,再到 Trainium4 的生态破局,亚马逊正逐步构建起覆盖不同需求的 AI 算力闭环,为大模型技术的商业化落地筑牢硬件根基。




