DIGIPUNK
去投稿
发表于:2025年05月01日

深度求新发布 Prover-V2-671B 数学推理大模型,参数规模达 6710 亿

数智朋克
发布者:数智朋克
阅读:1 分钟
我要投稿
核心要点👉
  • 🚀 6710亿参数规模创数学推理模型新纪录
  • 🧠 256路专家网络实现37亿活跃参数高效调用
  • 💾 FP8量化技术实现推理速度倍增与94%精度保持
  • 🔧 多精度计算体系节省28%训练显存占用
  • 📐 专注代数拓扑/微分几何领域自动化验证突破

数智朋克获悉,国内AI研究机构深度求索近日推出Prover-V2-671B巨型语言模型,该数学推理专用系统以6710亿参数规模刷新行业纪录。基于自研的DeepseekV3混合专家架构,系统创新采用256路专家网络与共享专家协同机制,在推理过程中仅需调用37亿活跃参数即完成复杂运算,较传统稠密模型大幅降低计算能耗。

该模型采用61层Transformer堆叠结构,凭借7168维隐空间表征能力16.38万token的超长上下文支持,可精准解析高阶数学证明场景。通过融合强化学习算法与海量合成数据集,模型在自动化证明领域展现出突破性表现,其形式化推理训练框架已全面适配Lean4定理证明环境

技术实现方面,系统创新引入多精度计算支持体系,兼容BF16、FP8及F32混合精度运算,配合safetensors轻量化存储方案,使模型在训练阶段可节省28%显存占用。特别开发的FP8量化组件通过动态张量缩放技术,在保持94%原始精度的前提下实现推理速度倍增,为超大规模模型的工程化部署提供新范式。

作为专业数学推理基础设施,该模型将形式化证明能力提升至新量级。其参数体系突破传统语言模型的通用性设计约束,专注构建数学符号逻辑的深层语义关联,为代数拓扑、微分几何等前沿领域的自动化验证开辟技术路径。研究团队同步开放模型权重,推动AI形式化验证工具链的生态构建。

本文链接: https://www.shuzhipunk.com/articles/ztPE7xGFzo3
转载请注明文章出处

文章所属标签
混合专家架构
Prover-V2-671B
DeepseekV3