核心要点👉
- 🚀 混合注意力机制:融合Gated DeltaNet与标准注意力,3:1比例优化计算效率
- 💡 极致稀疏MoE:800亿参数仅激活30亿,1:50激活比突破
- ⚡ 性能飞跃:预填充吞吐量提升10倍,解码效率达前代4倍
- 📊 资源优化:15T训练量下GPU消耗仅为Qwen3-32B的9.3%
- 🌐 扩展能力:原生支持262K上下文,可扩展至百万token处理
数智朋克讯,阿里通义团队推出下一代基础模型架构Qwen3-Next,同步开源基于该架构的Qwen3-Next-80B-A3B系列模型。新架构针对大模型发展的两大核心趋势——上下文长度扩展与总参数扩展进行深度优化,重构Transformer核心组件实现训练推理双重突破。
创新采用"Gated DeltaNet + Gated Attention"混合注意力机制,将线性注意力与标准注意力以3:1比例融合。该设计在保留全注意力层高召回能力的同时,通过门控DeltaNet显著降低长序列计算复杂度。标准注意力层同步引入三项增强:输出门控机制缓解低秩问题、注意力头维度扩展至256、选择性位置编码优化长度外推。
架构采用极致稀疏MoE方案,总参数量达800亿但每次推理仅激活30亿参数。通过512专家池配合全局负载均衡,实现1:50的激活比突破。对比前代Qwen3-MoE结构,专家数量扩容四倍而路由机制保持高效,在保持模型容量前提下将单token计算量压缩至临界点。
训练稳定性设计包含零中心RMSNorm与权重衰减方案,消除层归一化中的权重异常增长现象。MoE路由参数初始化阶段实施归一化处理,确保专家选择无偏性。原生集成多token预测机制,通过训练推理一致的多步优化策略,提升Speculative Decoding接受率至实用水平。
Qwen3-Next-80B-A3B-Base模型在15T tokens训练量下,GPU资源消耗仅为Qwen3-32B的9.3%。32K以上长上下文场景中,预填充阶段吞吐量达前代十倍,解码阶段保持四倍以上优势。基准测试显示该800亿参数模型性能超越Qwen3-32B密集模型,激活参数量仅需后者的十分之一。
开源指令模型Qwen3-Next-80B-A3B-Instruct在256K上下文任务表现超越旗舰级Qwen3-235B-A22B。推理专用模型Qwen3-Next-80B-A3B-Thinking在复杂问题解决能力上超越闭源Gemini-2.5-Flash,关键指标逼近千问235B旗舰推理模型。
原生支持262K上下文长度,配合YaRN缩放技术可扩展至百万token处理。开发者可通过主流开源框架部署,Transformers主分支已完成代码集成,SGLang与vLLM支持256K上下文API服务。智能体应用推荐Qwen-Agent工具链,封装多工具调用模板简化开发流程。