核心要点👉
- 🚀 Qwen3-Max-Thinking发布,参数量超万亿,预训练数据36T Tokens。
- 🏆 HLE评测58.3分,超越GPT-5.2和Gemini 3 Pro。
- 💡 引入测试时扩展机制,优化推理效率与经济性。
- 🤖 强化原生Agent能力,实现自适应工具调用。
- 🌐 开源模型超20万,下载量破10亿次。
数智朋克讯,阿里巴巴于1月26日正式揭晓了其千问旗舰推理模型Qwen3-Max-Thinking,该模型在多项关键能力维度上实现了跃升。其架构包含了超过一万亿的参数量,并接受了高达36T Tokens的预训练数据,标志着阿里通义系列模型在规模上达到了新的高度。通过一系列强化学习后训练,模型在事实知识、复杂逻辑推理、指令遵循与人类偏好对齐等领域的表现均获得了显著优化。
在被称为“人类最后测试”的HLE基准评测中,启用工具辅助的Qwen3-Max-Thinking取得了58.3分的成绩,这一表现超越了GPT-5.2-Thinking和Gemini 3 Pro等国际主流模型。这一差距在AI评测领域通常被视为代际领先的标志,有力印证了该模型在复杂问题解决上的前沿实力。
模型的核心技术创新在于引入了测试时扩展机制,这一路径改变了传统推理计算中常见的冗余并行推导模式。新机制能够对过往的推理过程进行经验提炼与多轮自我迭代,从而在相同计算上下文中实现更高效的逻辑路径探索与剪枝,不仅提升了性能,也增强了推理过程的经济性。
面向智能体应用场景,Qwen3-Max-Thinking大幅强化了原生Agent能力,实现了自适应工具调用。模型能够在对话流中自主判断并调用搜索引擎、代码解释器等外部工具,结合专门设计的联合强化学习训练流程,使其能够更智能地整合工具进行思考与规划,有效降低了模型幻觉,为处理真实世界的复杂任务提供了更高的可靠性。
在开源生态方面,基于Qwen系列衍生的模型数量已突破20万个,累计下载量超过10亿次,日均下载量稳定在百万级别,确立了其在全球开源大模型领域的领先地位。这一广泛的开发者采用,尤其在新兴市场,得益于其覆盖从0.5B到480B的全参数段以及对多语言的支持策略。
阿里巴巴的AI布局呈现出全栈式特征,从底层的自研PPU与服务器芯片构建的异构算力,到中层的模型算法,再到上层接入各类生态应用,形成了完整的竞争体系。公司宣布的未来数年巨额资本投入计划,进一步彰显了其长期深耕人工智能领域的战略决心。Qwen3-Max-Thinking的发布,被视为中国大模型技术从追赶国际水平向并跑乃至局部领跑阶段迈进的一个关键例证。







粤公网安备44030002001270号