你的位置:首页 > 市场 > 正文

告别"一模型一GPU"!阿里云Aegaeon实现Token级虚拟化

发布时间:2025-10-22 责任编辑:lina

【导读】近日,在操作系统领域顶级学术盛会SOSP 2025上,阿里云推出的Aegaeon计算池化解决方案引发业界广泛关注。这一突破性技术通过创新的Token级虚拟化架构,彻底改变了传统"一模型一GPU"的粗放资源分配模式。


近日,在操作系统领域顶级学术盛会SOSP 2025上,阿里云推出的Aegaeon计算池化解决方案引发业界广泛关注。这一突破性技术通过创新的Token级虚拟化架构,彻底改变了传统"一模型一GPU"的粗放资源分配模式。


在长达三个月的实际测试中,Aegaeon在服务数十个720亿参数大模型时,成功将英伟达H20 GPU使用量从1192个减少到213个,削减比例达到惊人的82%。这意味着大型AI模型服务的硬件采购成本有望大幅降低,为AI产业规模化发展扫清障碍。


告别"一模型一GPU"!阿里云Aegaeon实现Token级虚拟化


01 行业痛点:GPU资源浪费成AI发展瓶颈


随着大型语言模型参数量和应用场景的不断增加,AI算力需求呈现爆发式增长,传统资源分配方式已难以满足效率需求。


资源闲置现象极为普遍。在真实的模型服务场景中,少数热门模型承载了绝大多数用户请求,而大量不常被调用的"长尾"模型却各自独占着GPU资源。


数据显示,阿里云模型市场中曾有17.7%的GPU算力仅用于处理1.35%的请求,资源利用率极低。这种低效状况导致企业AI基础设施建设成本居高不下,严重制约了AI技术的普及与应用深化。


传统"一模型一GPU"的绑定模式,已无法适应多模型并发服务的现实需求,行业亟需一种能够实现细粒度资源调度的新型解决方案。


02 技术创新:Token级虚拟化打破传统架构


Aegaeon解决方案的核心突破在于其创新的Token级虚拟化技术,实现了GPU资源调度从"粗放型"向"精细化"的根本转变。


该系统作为一种推理时间调度器,能在每次生成下一个token后,动态决定是否切换模型。这种设计允许在共享池中安排极其微小的工作片段,从而实现单个GPU同时为多个不同模型提供服务。


通过组件复用、显存精细化管理和KV缓存同步优化等全栈技术创新,Aegaeon将模型切换开销降低了97%。这一关键突破确保了token级调度的实时性,使系统能够支持亚秒级的模型切换响应。


Aegaeon的收益主要来自两大核心技术:为每个GPU打包多个模型,以及使用token级自动扩展器在生成输出时动态分配计算,而非在请求级别保留资源。


03 实测效果:资源利用率提升5倍以上


Aegaeon的实际性能在阿里云模型市场的Beta测试中得到了全面验证,多项指标表现卓越。


GPU资源节约效果显著。在服务数十个参数量高达720亿的大模型时,H20 GPU需求量从1192个大幅降至213个,削减比例高达82%。这一成果对于动辄使用成千上万张GPU的大型模型服务商具有重大意义。


系统吞吐量实现跨越式提升。基准测试数据显示,Aegaeon以1.5倍到9倍的有效吞吐量优势,击败了ServerlessLLM和MuxServe的goodput。同时,系统请求处理能力达到传统方案的2-2.5倍。


单GPU并发服务能力惊人。Aegaeon系统支持单个GPU同时服务多达7个不同模型,极大地提升了资源利用效率,为高密度模型部署提供了技术可能。


04 应用前景:百炼平台已集成,成本革命来临


Aegaeon技术目前已走出实验室,进入实际商业应用阶段,开始在阿里云的产品体系中发挥价值。


该核心技术已成功应用在阿里云百炼平台。这意味着阿里云的客户可以直接受益于这一技术创新,大幅降低AI模型部署和运营成本。


业界评价认为,Aegaeon是 "首个揭示并解决市场上并发大语言模型服务存在过高成本"的公开工作,为整个行业提供了全新的优化思路和技术路径。


随着AI应用在企业端的加速普及,Aegaeon的技术理念有望成为未来AI计算基础设施的新标准,推动行业从"堆硬件"向"优效率"的发展模式转变。


阿里云Aegaeon通过Token级细粒度调度,将GPU资源利用率提升了5倍以上,为面临算力成本压力的AI行业提供了全新的解题思路。这项技术不仅大幅降低了大型语言模型服务的硬件门槛,更重要的是,它开创了一种全新的AI计算资源分配范式。


随着Aegaeon在阿里云百炼平台的实际应用,AI算力有望像水电一样成为可按需精确调配的基础资源,进一步加速人工智能技术在各行各业的深度普及与创新。


https://www.52solution.com/kb


推荐阅读:

三星HBM4“双引擎”加速:逻辑芯片良率超90%,1c DRAM良率近80%

“双十一”前景蒙尘:需求疲软致10月面板价格松动

长电科技:全球存储芯片封测领军者,受益AI浪潮高增长

台积电的“平衡术”:左手AI爆单,右手全球扩产

硅光子交换器Spectrum-X商业落地,英伟达光通信生态全景曝光


特别推荐
技术文章更多>>
技术白皮书下载更多>>
热门搜索
 

关闭

 

关闭