你的位置:首页 > 新品 > 正文

算力跃升 4.4 倍 成本直降 50% Trainium3 重塑 AI 训练硬件基准

发布时间:2025-12-10 责任编辑:lily

【导读】亚马逊首款 3 纳米 AI 芯片 Trainium3 发布,实现了 AI 训练芯片在性能、能效与扩展性上的全方位重大提升。其计算性能较前代 Trainium2 提升 4.4 倍,内存带宽增加 4 倍,单芯片集成 144GB HBM3e 内存,算力达 2.52FP8 PFLOPs。这一飞跃依托 3 纳米制程、Neuron Fabric 互联及智能功耗管理三大创新,实测中训练 GPT-OSS 模型成本直降 50%。


wKgZO2k2nIqANa5OAAOHxFOXHZ8943.png


作为亚马逊首款3纳米工艺AI芯片,Trainium3的核心突破在于性能、能效与扩展性的全面跃升。其计算性能较前代Trainium2提升4.4倍,内存带宽与能效分别增加4倍和40%,单芯片集成144GB高带宽内存(HBM3e),提供2.52FP8 PFLOPs算力。这一性能飞跃得益于三大技术创新:


3纳米制程工艺:晶体管密度提升70%以上,相同面积下集成更多计算单元,能效比提升40%,单位算力能耗降低40%。

Neuron Fabric互联技术:单台Trn3 UltraServer可集成144颗芯片,通过EC2 UltraClusters 3.0架构扩展至百万颗芯片集群,规模较上一代提升10倍,时延降低4倍。

智能功耗管理:动态调节供电频率,高负载时提升计算核心性能,空闲时降低功耗,平衡性能与能效。


数据显示,Trainium3在训练OpenAI GPT-OSS模型时,单芯片吞吐量提升3倍,推理响应速度提升4倍,训练成本降低50%。


Trainium3的登场并非孤立事件,其前代产品Trainium2已为亚马逊AI芯片生态奠定基础。作为AWS在2024年推出的第二代AI训练芯片,Trainium2采用多核架构设计,支持高并发计算,峰值性能达每秒数千亿次浮点运算,性价比较GPU实例提升30%-40%。


其核心优势包括,定制化硬件优化,针对Transformer架构设计注意力机制加速单元,大语言模型训练效率提升40%。NeuronLink超速互联,通过低延迟网络连接4个Trn2服务器,形成83.2Petaflops算力的UltraServer,支持超大规模模型训练。生态兼容性,支持TensorFlow、PyTorch等主流框架,无缝迁移现有模型,降低技术门槛。


Trainium2的商业化已取得实质进展。Adobe、Poolside等企业利用其训练和部署AI模型,Anthropic的“Project Rainier”项目更通过数十万颗Trainium2芯片构建超级集群,算力较前代提升5倍。


wKgZPGk2nJqAETwvAAJQOrEQAL4386.png


AWS 在推出首款 3 纳米工艺 AI 训练芯片 Trainium3 的同时,同步披露了下一代产品 Trainium4 的研发进展,其核心战略转向与英伟达生态的深度协同,以此打破 AI 芯片市场的性能竞争与生态壁垒困局。


Trainium3 已实现性能、能效与扩展性的全面跃升,相较前代 Trainium2,其计算性能提升 4.4 倍,内存带宽增加 4 倍,能效提升 40%,单芯片集成 144GB HBM3e 高带宽内存,可提供 2.52FP8 PFLOPs 算力。实测数据显示,该芯片在训练 OpenAI GPT-OSS 模型时,单芯片吞吐量提升 3 倍、推理响应速度提升 4 倍,训练成本直接降低 50%。而在客户价值层面,Trainium3 对比传统 GPU 系统,训练与推理成本最高可降 50%,碳排放减少 40%,同时支持从单芯片到百万芯片集群的无缝弹性扩展,能适配金融风控、医疗影像分析、自动驾驶等多领域高并发 AI 场景。


正在研发的 Trainium4 则剑指生态兼容痛点,核心突破在于实现英伟达 GPU 与 Trainium 芯片的高速互联,构建机架级一体化 AI 基础设施,兼顾极致性能与成本控制。性能维度上,其 FP8 算力将提升 3 倍、FP4 算力提升 6 倍、内存带宽提升 4 倍,模型训练与推理吞吐量至少实现 3 倍增长,叠加持续的软硬件协同优化,实际性能提升将远超基准数值,同时大幅降低客户技术迁移成本。


值得注意的是,尽管 Trainium3 144GB 的内存容量,与谷歌 TPU 的 192GB、英伟达 Blackwell 的 288GB 存在差距,但 AWS 通过绑定英伟达生态的战略调整,既能保留 Trainium 系列一贯的性价比优势,又可吸引大量依赖英伟达生态的客户向 Trainium 平台迁移。


目前亚马逊自研 AI 芯片战略已收获显著成效,截至 2024 年,Trainium 系列芯片在 AWS 数据中心的部署速度超出预期,头部客户 Anthropic 更是计划在年底投入超百万颗 Trainium2 芯片支撑其 AI 项目。从 Trainium2 的生态奠基,到 Trainium3 的规模化商用,再到 Trainium4 的生态破局,亚马逊正逐步构建起覆盖不同需求的 AI 算力闭环,为大模型技术的商业化落地筑牢硬件根基。




特别推荐
技术文章更多>>
技术白皮书下载更多>>
热门搜索

关闭

 

关闭