DIGIPUNK
去投稿
发表于:2025年06月05日

深度求索完成 DeepSeek R1 模型迭代,性能逼近国际顶尖水平

数智朋克
发布者:数智朋克
阅读:1 分钟
我要投稿
核心要点👉
  • 🚀 DeepSeek-R1-0528在数学编程测试中跃居国内榜首,性能逼近国际顶尖模型
  • 📉 复杂任务错误率压缩45%-50%,AIME测试准确率跃升17.5个百分点
  • ✍️ 实现万字符长文本生成能力,各类文体显露出拟人化创作特质
  • 🔍 上下文处理扩展至128K,强化大规模语境分析能力
  • 🌐 国产大模型首次在多维度硬指标上与国际领跑者并驾齐驱

数智朋克获悉,深度求索于5月29日完成DeepSeek R1模型迭代,新版DeepSeek-R1-0528以2024年末发布的V3 Base为基座,通过强化后训练算力投入显著提升思维深度与推理能力。该版本在数学、编程及通用逻辑基准测试中跃居国内榜首整体性能逼近OpenAI的o3与Gemini-2.5-Pro等国际顶尖模型

模型在复杂任务处理中展现突破性进展:AIME2025测试准确率从70%跃升至87.5%单题平均token消耗量由12K增至23K,印证其更缜密的解题逻辑。针对长期困扰行业的"幻觉"问题,新版在重写、摘要等任务中将错误率压缩45%-50%,大幅提升信息可靠性。

文本生成维度实现跨越式进化,经专项微调后可输出结构完整的万字符长文本。议论文呈现严密论证框架,小说构建多维叙事层次,散文则精准捕捉人文意境,各类文体均显露出拟人化创作特质。模型保留64K标准上下文长度,特定开源版本支持扩展至128K语境处理

此次升级延续深度求索的开源策略,允许通过模型蒸馏等技术复用输出。学术界将其视为推理机制研究的新范本,工业界则关注其对轻量化模型开发的催化价值。国产大模型首次在多维度硬指标上与国际领跑者并驾齐驱标志着中国AI技术进入全球核心竞争圈层

本文链接: https://www.shuzhipunk.com/articles/B2aOe1jFuLv
转载请注明文章出处

文章所属标签
DeepSeek-R1-0528
AI 错误率优化