深度求索完成 DeepSeek R1 模型迭代，性能逼近国际顶尖水平

核心要点👉

🚀 DeepSeek-R1-0528在数学编程测试中跃居国内榜首，性能逼近国际顶尖模型
📉 复杂任务错误率压缩45%-50%，AIME测试准确率跃升17.5个百分点
✍️ 实现万字符长文本生成能力，各类文体显露出拟人化创作特质
🔍 上下文处理扩展至128K，强化大规模语境分析能力
🌐 国产大模型首次在多维度硬指标上与国际领跑者并驾齐驱

数智朋克获悉，深度求索于5月29日完成DeepSeek R1模型迭代，新版DeepSeek-R1-0528以2024年末发布的V3 Base为基座，通过强化后训练算力投入显著提升思维深度与推理能力。该版本在数学、编程及通用逻辑基准测试中跃居国内榜首，整体性能逼近OpenAI的o3与Gemini-2.5-Pro等国际顶尖模型。

模型在复杂任务处理中展现突破性进展：AIME2025测试准确率从70%跃升至87.5%，单题平均token消耗量由12K增至23K，印证其更缜密的解题逻辑。针对长期困扰行业的"幻觉"问题，新版在重写、摘要等任务中将错误率压缩45%-50%，大幅提升信息可靠性。

文本生成维度实现跨越式进化，经专项微调后可输出结构完整的万字符长文本。议论文呈现严密论证框架，小说构建多维叙事层次，散文则精准捕捉人文意境，各类文体均显露出拟人化创作特质。模型保留64K标准上下文长度，特定开源版本支持扩展至128K语境处理。

此次升级延续深度求索的开源策略，允许通过模型蒸馏等技术复用输出。学术界将其视为推理机制研究的新范本，工业界则关注其对轻量化模型开发的催化价值。国产大模型首次在多维度硬指标上与国际领跑者并驾齐驱，标志着中国AI技术进入全球核心竞争圈层。

深度求索完成 DeepSeek R1 模型迭代，性能逼近国际顶尖水平

数智资讯订阅