OpenAI推出GPT-5.1-Codex-Max编程模型实现多项核心突破

核心要点👉

🚀 动态压缩机制实现数百万token连续任务处理
🏆 三项性能测试全面领先：SWE-Bench 77.9%/Terminal-Bench 58.1%/LiveCodeBench 2439分
💻 集成开发生态支持命令行工具与交互编程环境
🔒 默认启用严格沙盒防护：文件权限限定+网络访问关闭
📈 内部使用后拉取请求数量周均增长70%

数智朋克讯，OpenAI正式推出GPT-5.1-Codex-Max编程模型，该智能体在多项核心能力上实现突破性进展。通过创新的压缩机制，模型能在接近上下文窗口限制时动态筛选关键信息，实现跨越数百万token的连续任务处理且不降低性能表现。这项架构升级使模型具备处理超长时程任务的能力，内部测试中成功完成持续24小时的多步骤代码重构与自主调试。

性能评测显示，GPT-5.1-Codex-Max在SWE-Bench Verified测试中以77.9%准确率领先竞品，Terminal-Bench 2.0测试达58.1%准确率，LiveCodeBench Pro测试则取得2439分。其推理效率显著提升，在中等强度任务中消耗的思考token较前代减少约30%，同时提供可调节的推理强度模式满足不同场景需求。

该模型已集成至OpenAI开发生态，支持命令行工具、代码审查及交互式编程环境。开发者可利用其实时交互能力构建复杂应用，例如浏览器内运行的CartPole强化学习沙箱，该案例实现过程中仅消耗27k token。模型还成功创建了天体运动模拟器和光学折射演示程序，通过可视化界面直观呈现物理规律。

安全防护方面，系统默认在严格沙盒环境中运行，文件写入权限限定于专属工作区，网络访问功能默认关闭。OpenAI透露内部工程师使用Codex系列产品后，每周提交的拉取请求数量平均增长70%。尽管模型自主性增强，官方仍强调其定位为编程辅助工具，所有生成代码均附带详细终端日志和测试引用供人工验证。

实际应用案例中，用户对比测试显示该模型生成的SVG图形在细节呈现上优于同类产品。有开发者观察到模型出现任务延迟处理行为，对此OpenAI表示将持续通过渐进式部署收集真实场景反馈，动态优化安全防护机制。

OpenAI推出GPT-5.1-Codex-Max编程模型实现多项核心突破

数智资讯订阅