【导读】1月26日晚阿里正式发布千问旗舰推理模型Qwen3-Max-Thinking,这款万亿参数规模的大模型创下多项权威评测全球新纪录,整体性能媲美GPT-5.2-Thinking-xhigh、Gemini 3 Pro等国际顶尖模型,成为目前国内最接近国际一流水平的AI大模型。该模型凭借全新测试时扩展机制实现推理性能与效率的双重提升,还大幅强化了自主工具调用的原生Agent能力,且已面向开发者、企业和普通用户开放体验,千问APP也即将完成新模型接入。
据了解,Qwen3-Max-Thinking是目前阿里规模最大、能力最强的千问推理模型,其总参数量超万亿(1T),预训练数据量高达36T Tokens。此前,预览版Qwen3-Max-Thinking斩获数学推理AIME 25和HMMT 25的国内首个双满分,推理性能已让人惊艳;在此基础上,阿里通义团队进行了更大规模的强化学习后训练,全面提升了正式版Qwen3-Max-Thinking性能:在涵盖事实知识、复杂推理、指令遵循、人类偏好对齐、Agent能力等19个公认的大模型基准测试中,千问旗舰推理模型刷新了数项最佳表现(SOTA)纪录,整体性能可媲美 GPT-5.2-Thinking-xhigh、Claude Opus 4.5 和 Gemini 3 Pro 。
据悉,在关键的模型推理能力提升中,千问新模型采用了一种全新的测试时扩展(Test-time Scaling)机制,使得推理性能提升的同时还更经济。
目前业界普遍在推理时会遇到以下难题:只会简单增加并行推理路径,重复推导已知结论,造成冗余推理效率低下。据悉,千问采用新机制,可对此前推理的结果进行“经验提取”式的提炼,并据此进行多轮自我迭代,在相同的上下文中实现更高效的推理计算,获得更智能的推理结果。基于这一推理技术创新,千问推理性能和推理效率大为提升,比如在启用工具的“人类最后的测试”HLE中,千问得分58.3,大幅超过GPT-5.2-Thinking的45.5、Gemini 3 Pro的45.8,录得当前所有模型的最高分。
HLE测试中千问得分58.3,超过GPT-5.2-Thinking。
另外,面向即将到来的智能体Agent时代,Qwen3-Max-Thinking还大幅增强了自主调用工具的原生Agent能力。具体而言,在完成初步的工具使用微调后,通义团队对模型进一步在大量多样化任务上进行了基于规则奖励与模型奖励的联合强化学习训练,使得Qwen3-Max-Thinking拥有更智能结合工具进行思考的能力。这种自适应的工具调用能力可在QwenChat上完整体验,模型自主选用搜索、个性化记忆和代码解释器等三个核心的Agent工具功能,提供专业人士一样水平的回答,更合用户心意、更智能、更流畅;同时,模型幻觉也大为降低,为解决真实复杂任务打下基础。
Qwen3-Max-Thinking的发布,是阿里在大模型领域技术积累的重要成果,以万亿参数、36T Tokens预训练数据构建起强大的技术基底,更通过测试时扩展机制和联合强化学习训练实现了推理能力与Agent能力的核心突破,在HLE等关键评测中超越国际顶尖模型,局部领跑的技术进阶。目前该模型已实现多端开放免费体验,未来随着千问APP的接入,其技术能力将触达更多用户,而在智能体Agent时代的技术布局,也为解决真实复杂场景任务、推动大模型产业化应用打下了坚实基础。




