核心要点👉
- 🚀 DeepSeek-R1-0528在数学编程测试中跃居国内榜首,性能逼近国际顶尖模型
- 📉 复杂任务错误率压缩45%-50%,AIME测试准确率跃升17.5个百分点
- ✍️ 实现万字符长文本生成能力,各类文体显露出拟人化创作特质
- 🔍 上下文处理扩展至128K,强化大规模语境分析能力
- 🌐 国产大模型首次在多维度硬指标上与国际领跑者并驾齐驱
数智朋克获悉,深度求索于5月29日完成DeepSeek R1模型迭代,新版DeepSeek-R1-0528以2024年末发布的V3 Base为基座,通过强化后训练算力投入显著提升思维深度与推理能力。该版本在数学、编程及通用逻辑基准测试中跃居国内榜首,整体性能逼近OpenAI的o3与Gemini-2.5-Pro等国际顶尖模型。
模型在复杂任务处理中展现突破性进展:AIME2025测试准确率从70%跃升至87.5%,单题平均token消耗量由12K增至23K,印证其更缜密的解题逻辑。针对长期困扰行业的"幻觉"问题,新版在重写、摘要等任务中将错误率压缩45%-50%,大幅提升信息可靠性。
文本生成维度实现跨越式进化,经专项微调后可输出结构完整的万字符长文本。议论文呈现严密论证框架,小说构建多维叙事层次,散文则精准捕捉人文意境,各类文体均显露出拟人化创作特质。模型保留64K标准上下文长度,特定开源版本支持扩展至128K语境处理。
此次升级延续深度求索的开源策略,允许通过模型蒸馏等技术复用输出。学术界将其视为推理机制研究的新范本,工业界则关注其对轻量化模型开发的催化价值。国产大模型首次在多维度硬指标上与国际领跑者并驾齐驱,标志着中国AI技术进入全球核心竞争圈层。