DIGIPUNK
去投稿

Mistral 联合发布 240 亿参数开源模型 Devstral,SWE-Bench 测试提升 6 个百分点

Mistral AI 与 All Hands AI 联合推出 240 亿参数开源模型 Devstral,在 SWE-Bench 测试中以 46.8% 解决率刷新开源模型记录。该模型通过混合专家架构实现单卡本地部署,且支持跨文件依赖修复与单元测试同步生成,为 AI 编程助手发展提供新范式。

2025年05月26日
谷歌 Gemini 2.5 Pro 模型发布 实现多层次推理框架与百万级上下文窗口突破

谷歌最新 AI 模型 Gemini 2.5 Pro 通过原生思维架构实现认知跃升,在 LMArena 和 GPQA 基准测试中刷新纪录。该模型支持百万级 token 上下文处理,并在 SWE-Bench 编程评估中以 63.8% 自主完成率创行业新高。

2025年03月26日