DIGIPUNK
去投稿
发表于:2025年07月07日

德国 TNG 推出 DeepSeek-TNG R1T2 Chimera 模型,专家组装技术融合三大预训练模型

数智朋克
发布者:数智朋克
阅读:1 分钟
我要投稿
核心要点👉
  • 🚀 推理能力达R1-0528的90%-92%,输出token缩减60%,响应速度提升200%
  • 💡 采用专家组装技术,无需重新训练,融合三大预训练模型
  • ⚡ 每个回答token消耗量仅为R1-0528的40%,响应简洁度提升20%
  • 💰 企业用户可缩减推理基础设施成本,生成更紧凑结论
  • 📚 模型权重文件已开放访问,技术细节参见arXiv:2506.14794研究论文

数智朋克讯,德国TNG Technology Consulting公司推出DeepSeek-TNG R1T2 Chimera模型,通过专家组装技术融合DeepSeek-R1-0528、DeepSeek-R1和DeepSeek-V3-0324三大预训练模型。该6710亿参数开源模型在AIME-24、AIME-25和GPQA-Diamond基准测试中展现出突破性效率推理能力达到R1-0528的90%-92%水平,同时输出token数量缩减60%响应速度提升200%

区别于传统混合专家架构,专家组装技术通过选择性插值路由专家张量实现模型融合,保留父模型核心推理能力的同时规避冗余计算。路由专家张量作为专门化推理模块被重点优化,共享层则继承自高效模型,使R1T2在智能与输出成本曲线上占据理想位置。这种无需重新训练的构建方式,将结构化思维模式与指令导向行为集成于单一框架。

性能验证显示,每个回答的token消耗量仅为R1-0528的40%,直接降低GPU运算负载与能耗。相较原版DeepSeek-R1,响应简洁度提升20%,为实时交互场景提供更高吞吐量支持。企业用户可借此缩减推理基础设施成本,尤其在数学推导与编程任务中,模型在保持精准度的同时生成更紧凑结论。

采用MIT许可证的部署方案支持私有化定制与合规调整,但当前版本受限于R1系列架构,暂不适用函数调用场景。欧盟企业需评估2025年8月生效的人工智能法案合规要求。TNG作为拥有900余名技术专家的德国咨询公司,已通过OpenRouter等平台处理日均数十亿token请求,此次发布延续其开源社区贡献路径。

开发者社群反馈积极,实测表明该三专家融合架构在GPQA Diamond测试中智能表现显著超越R1基础版。模型权重文件已开放访问,技术细节参见arXiv:2506.14794研究论文。

本文链接: https://www.shuzhipunk.com/articles/bK7EyzxFLwl
转载请注明文章出处

文章所属标签
DeepSeek-TNG
R1T2 Chimera
开源模型