DIGIPUNK
去投稿
发表于:7 hours ago

OpenAI推出GPT-5.1-Codex-Max编程模型实现多项核心突破

数智朋克
发布者:数智朋克
阅读:1 分钟
我要投稿
核心要点👉
  • 🚀 动态压缩机制实现数百万token连续任务处理
  • 🏆 三项性能测试全面领先:SWE-Bench 77.9%/Terminal-Bench 58.1%/LiveCodeBench 2439分
  • 💻 集成开发生态支持命令行工具与交互编程环境
  • 🔒 默认启用严格沙盒防护:文件权限限定+网络访问关闭
  • 📈 内部使用后拉取请求数量周均增长70%

数智朋克讯,OpenAI正式推出GPT-5.1-Codex-Max编程模型,该智能体在多项核心能力上实现突破性进展。通过创新的压缩机制,模型能在接近上下文窗口限制时动态筛选关键信息,实现跨越数百万token的连续任务处理且不降低性能表现。这项架构升级使模型具备处理超长时程任务的能力,内部测试中成功完成持续24小时的多步骤代码重构与自主调试。

性能评测显示,GPT-5.1-Codex-Max在SWE-Bench Verified测试中以77.9%准确率领先竞品,Terminal-Bench 2.0测试达58.1%准确率,LiveCodeBench Pro测试则取得2439分。其推理效率显著提升,在中等强度任务中消耗的思考token较前代减少约30%,同时提供可调节的推理强度模式满足不同场景需求。

该模型已集成至OpenAI开发生态,支持命令行工具、代码审查及交互式编程环境。开发者可利用其实时交互能力构建复杂应用,例如浏览器内运行的CartPole强化学习沙箱,该案例实现过程中仅消耗27k token。模型还成功创建了天体运动模拟器和光学折射演示程序,通过可视化界面直观呈现物理规律。

安全防护方面,系统默认在严格沙盒环境中运行,文件写入权限限定于专属工作区,网络访问功能默认关闭。OpenAI透露内部工程师使用Codex系列产品后,每周提交的拉取请求数量平均增长70%。尽管模型自主性增强,官方仍强调其定位为编程辅助工具,所有生成代码均附带详细终端日志和测试引用供人工验证。

实际应用案例中,用户对比测试显示该模型生成的SVG图形在细节呈现上优于同类产品。有开发者观察到模型出现任务延迟处理行为,对此OpenAI表示将持续通过渐进式部署收集真实场景反馈,动态优化安全防护机制。

本文链接: https://www.shuzhipunk.com/articles/KJQX17UGm0s
转载请注明文章出处

文章所属标签
GPT-5.1-Codex-Max
动态压缩机制
代码重构
沙盒安全
交互式编程