核心要点👉
- 🚀 动态压缩机制实现数百万token连续任务处理
- 🏆 三项性能测试全面领先:SWE-Bench 77.9%/Terminal-Bench 58.1%/LiveCodeBench 2439分
- 💻 集成开发生态支持命令行工具与交互编程环境
- 🔒 默认启用严格沙盒防护:文件权限限定+网络访问关闭
- 📈 内部使用后拉取请求数量周均增长70%
数智朋克讯,OpenAI正式推出GPT-5.1-Codex-Max编程模型,该智能体在多项核心能力上实现突破性进展。通过创新的压缩机制,模型能在接近上下文窗口限制时动态筛选关键信息,实现跨越数百万token的连续任务处理且不降低性能表现。这项架构升级使模型具备处理超长时程任务的能力,内部测试中成功完成持续24小时的多步骤代码重构与自主调试。
性能评测显示,GPT-5.1-Codex-Max在SWE-Bench Verified测试中以77.9%准确率领先竞品,Terminal-Bench 2.0测试达58.1%准确率,LiveCodeBench Pro测试则取得2439分。其推理效率显著提升,在中等强度任务中消耗的思考token较前代减少约30%,同时提供可调节的推理强度模式满足不同场景需求。
该模型已集成至OpenAI开发生态,支持命令行工具、代码审查及交互式编程环境。开发者可利用其实时交互能力构建复杂应用,例如浏览器内运行的CartPole强化学习沙箱,该案例实现过程中仅消耗27k token。模型还成功创建了天体运动模拟器和光学折射演示程序,通过可视化界面直观呈现物理规律。
安全防护方面,系统默认在严格沙盒环境中运行,文件写入权限限定于专属工作区,网络访问功能默认关闭。OpenAI透露内部工程师使用Codex系列产品后,每周提交的拉取请求数量平均增长70%。尽管模型自主性增强,官方仍强调其定位为编程辅助工具,所有生成代码均附带详细终端日志和测试引用供人工验证。
实际应用案例中,用户对比测试显示该模型生成的SVG图形在细节呈现上优于同类产品。有开发者观察到模型出现任务延迟处理行为,对此OpenAI表示将持续通过渐进式部署收集真实场景反馈,动态优化安全防护机制。







粤公网安备44030002001270号