深度求新发布 Prover-V2-671B 数学推理大模型，参数规模达 6710 亿

核心要点👉

🚀 6710亿参数规模创数学推理模型新纪录
🧠 256路专家网络实现37亿活跃参数高效调用
💾 FP8量化技术实现推理速度倍增与94%精度保持
🔧 多精度计算体系节省28%训练显存占用
📐 专注代数拓扑/微分几何领域自动化验证突破

数智朋克获悉，国内AI研究机构深度求索近日推出Prover-V2-671B巨型语言模型，该数学推理专用系统以6710亿参数规模刷新行业纪录。基于自研的DeepseekV3混合专家架构，系统创新采用256路专家网络与共享专家协同机制，在推理过程中仅需调用37亿活跃参数即完成复杂运算，较传统稠密模型大幅降低计算能耗。

该模型采用61层Transformer堆叠结构，凭借7168维隐空间表征能力与16.38万token的超长上下文支持，可精准解析高阶数学证明场景。通过融合强化学习算法与海量合成数据集，模型在自动化证明领域展现出突破性表现，其形式化推理训练框架已全面适配Lean4定理证明环境。

技术实现方面，系统创新引入多精度计算支持体系，兼容BF16、FP8及F32混合精度运算，配合safetensors轻量化存储方案，使模型在训练阶段可节省28%显存占用。特别开发的FP8量化组件通过动态张量缩放技术，在保持94%原始精度的前提下实现推理速度倍增，为超大规模模型的工程化部署提供新范式。

作为专业数学推理基础设施，该模型将形式化证明能力提升至新量级。其参数体系突破传统语言模型的通用性设计约束，专注构建数学符号逻辑的深层语义关联，为代数拓扑、微分几何等前沿领域的自动化验证开辟技术路径。研究团队同步开放模型权重，推动AI形式化验证工具链的生态构建。

深度求新发布 Prover-V2-671B 数学推理大模型，参数规模达 6710 亿

数智资讯订阅