【导读】全球AI计算市场迎来格局变革的重要节点。AMD于2025年9月17日正式发布ROCm 7.0计算软件堆栈,这是该公司在人工智能领域对抗英伟达CUDA生态系统的关键举措。
全球AI计算市场迎来格局变革的重要节点。AMD于2025年9月17日正式发布ROCm 7.0计算软件堆栈,这是该公司在人工智能领域对抗英伟达CUDA生态系统的关键举措。
新版软件平台不仅在AI推理性能上取得突破性进展,更在硬件支持、框架兼容性和开发工具层面实现全面升级,为AMD在AI计算领域的竞争提供了坚实软件基础。
01 性能突破:推理速度提升最高达3.8倍
ROCm 7.0在AI推理性能方面实现惊人飞跃。根据AMD官方发布的测试数据,新版本在主流大模型上的表现全面超越前代产品。
运行Llama 3.1 70B模型时,性能提升达3.2倍;在Qwen2-72B模型上实现3.4倍的性能提升;而在DeepSeek R1模型中的性能提升更是达到3.8倍。
这一性能突破主要归功于ROCm 7.0引入的AI张量引擎(AITER),该引擎具有专门调优的算子,旨在实现最大的生成式AI性能。
02 技术升级:低精度计算与量化框架
ROCm 7.0带来了多项关键技术升级。新版本全面支持FP4、FP6等低精度浮点数格式,这些更小的格式对推理和训练性能有重大影响,可提升吞吐量并将内存需求减少2到4倍。
AMD的Quark量化框架现已准备好投入生产使用,这是一个重大改进。相比之下,为MI300提供FP8支持就滞后了将近一年时间,显示AMD此次的软件响应速度明显加快。
新版本还引入了对OCP微缩放数据类型的硬件加速支持,MI350系列是AMD首款支持该技术的GPU。
03 硬件支持:全面适配MI350系列
ROCm 7.0进一步完善了对AMD最新硬件的支持。新版本全面支持MI350系列GPU,包括MI355X与MI350X型号,基于AMD最新的CDNA4架构。
MI350系列采用台积电第二代3纳米制程工艺,晶体管数量增加至1850亿颗,内存集成了288GB HBM3E,带宽提升到了每秒8TB,均较上一代有大幅提升。
算力性能上,MI355X的峰值AI算力达到了2.5PFLOPS(以FP16半精度浮点数的密集算力衡量),上一代MI325X仅为1.3PFLOPS,提升接近一倍。
04 软件生态:框架兼容与开发工具
在AI框架适配方面,ROCm 7.0同步更新了对主流开发工具的支持。新版本涵盖PyTorch 2.7、TensorFlow 2.19.1、ONNX Runtime 1.22.0、JAX 0.6.0、Triton 3.3.0以及vLLM等。
操作系统层面新增对Ubuntu 24.04.3与Rocky Linux 9的支持,同时停止对旧版Ubuntu及SLES 15 SP6的维护,确保平台安全性与先进性。
对于在生产环境中部署大量Instinct加速器的用户,AMD推出了一对新的仪表板,旨在让管理大型GPU集群变得更容易。
05 市场竞争:挑战CUDA生态壁垒
ROCm 7.0的发布标志着AMD正式向英伟达CUDA生态系统发起挑战。NVIDIA在AI领域占据主导地位的重要原因之一,在于其CUDA软件栈的存在。
这套专为AI开发者设计的工具链因硬件独占性,让AMD等竞争对手难以切入。ROCm 7.0则旨在通过增强框架与全新算法,打造可替代CUDA的计算生态系统。
AMD声称,这些软件增强功能的结合,使其最新最强的GPU MI355X在运行SGLang中的DeepSeek R1推理工作负载时,比英伟达B200有1.3倍的优势。
06 企业级功能:分布式推理与MLOps
ROCm 7.0引入了强大的分布式推理方法,与SGLang、vLLM、llm-d等开源框架深度合作,开发共享接口和原语,实现在AMD平台上的高效分布式推理。
相比之下,英伟达的TensorRT-LLM不支持DeepSeek R1的FP8精度,而AMD合作的开源框架完美支持,MI355X的推理吞吐量比英伟达B200高出30%。
ROCm企业级AI软件栈首次亮相,打造全栈MLOps平台,专为企业AI操作设计,提供安全、可扩展的交钥匙工具,支持模型微调、合规性、部署和集成。
AMD ROCm 7.0的发布标志着AI计算市场正从一家独大向多元竞争格局转变。通过软硬件协同优化策略,AMD不仅在硬件性能上逼近英伟达,更在软件生态层面展现了挑战CUDA垄断的决心。
虽然英伟达凭借CUDA生态系统构建的护城河依然坚固,但ROCm 7.0展现出的性能提升和功能完善表明,AMD已经找到了有效的竞争策略。随着AI计算需求的持续增长,市场需要更多选择,而ROCm 7.0的出现为开发者和企业提供了可行的替代方案。
对于整个行业而言,竞争加剧将推动技术创新加速,最终受益的将是广大开发者和用户。AMD能否凭借ROCm 7.0真正打破CUDA的垄断地位,仍需市场检验,但至少,AI计算市场已经迎来了更多可能性。
推荐阅读:
双屏设计+钛合金机身:苹果折叠屏iPhone2026年量产,目标增长10%
速度超标25%!SK海力士全球首发HBM4量产,AI内存进入10GT/s时代
谷歌Gemini超越ChatGPT,登顶美区App Store免费榜