DIGIPUNK
去投稿

阿里公开新一代智能体编程模型Qwen3-Coder-Next

阿里推出专为编程智能体和本地开发设计的Qwen3-Coder-Next模型,采用混合专家架构,推理时仅激活少量参数以降低资源需求。该模型在权威基准测试中表现优异,性能超越更大模型,并已开源供免费使用。

2026年02月04日
美团开源5600亿参数大语言模型LongCat-Flash

美团正式开源自主研发的大语言模型LongCat-Flash,采用混合专家架构支持动态参数激活。该模型在训练效率、推理成本及多项AI基准测试中展现卓越性能,并已在美团内部业务场景落地应用。

2025年08月31日
深度求新发布 Prover-V2-671B 数学推理大模型,参数规模达 6710 亿

国内研究机构深度求索推出 6710 亿参数数学推理专用大模型 Prover-V2-671B,其基于 DeepseekV3 架构实现 37 亿活跃参数的高效运算。该模型通过多精度计算与 FP8 量化技术,在训练阶段节省 28% 显存并实现推理速度倍增。

2025年05月01日