Mistral AI 与 All Hands AI 联合推出 240 亿参数开源模型 Devstral,在 SWE-Bench 测试中以 46.8% 解决率刷新开源模型记录。该模型通过混合专家架构实现单卡本地部署,且支持跨文件依赖修复与单元测试同步生成,为 AI 编程助手发展提供新范式。
Anthropic推出Claude 4系列AI模型,旗舰产品Opus 4在SWE-bench测试中取得72.5%准确率,持续作业时间突破七小时。新系列采用双模型架构,技术升级包括200k token上下文窗口和思维链功能,并推出差异化商业定价策略。