DIGIPUNK
去投稿

Mistral 联合发布 240 亿参数开源模型 Devstral,SWE-Bench 测试提升 6 个百分点

Mistral AI 与 All Hands AI 联合推出 240 亿参数开源模型 Devstral,在 SWE-Bench 测试中以 46.8% 解决率刷新开源模型记录。该模型通过混合专家架构实现单卡本地部署,且支持跨文件依赖修复与单元测试同步生成,为 AI 编程助手发展提供新范式。

2025年05月26日
Anthropic发布Claude 4系列AI模型,Opus 4创SWE-bench测试新纪录

Anthropic推出Claude 4系列AI模型,旗舰产品Opus 4在SWE-bench测试中取得72.5%准确率,持续作业时间突破七小时。新系列采用双模型架构,技术升级包括200k token上下文窗口和思维链功能,并推出差异化商业定价策略。

2025年05月24日