DIGIPUNK
去投稿
发表于:a day ago

OpenAI 推出新一代推理模型 o3-pro,性能全面超越前代

数智朋克
发布者:数智朋克
阅读:1 分钟
我要投稿
核心要点👉
  • 🚀 性能突破:o3-pro在66.7%写作任务和62.7%编程任务超越前代,物理仿真近乎完美
  • 💰 价格优势:o3模型降价80%,o3-pro定价低于Gemini/Claude
  • 🔧 技术升级:200K上下文窗口+工具访问能力(搜索/文件分析/Python执行)
  • 📱 应用集成:已部署至ChatGPT界面和API,取代o1-pro模型
  • ⚡ 能力验证:非编程任务超越Claude Opus 4,获誉“超级研究员”

数智朋克讯,OpenAI正式推出新一代推理模型o3-pro,标志着其在人工智能领域的重大突破这款旗舰模型在科学、教育、编程、数据分析和写作等任务中展现出显著性能提升,超越前代o1-pro和基础o3版本。专家评测显示,o3-pro在Extended NYT Connections等基准测试中领先,内部评估中66.7%的写作任务和62.7%的编程任务表现更优,审阅人员强调其表达清晰度和指令遵循能力。

伴随o3-pro发布,OpenAI宣布o3模型价格下调80%,输入成本降至8美元/百万token,输出成本仅2美元/百万tokeno3-pro的API定价为输入20美元/百万token、输出80美元/百万token,低于竞争对手如Gemini和Claude,大幅降低推理成本。用户反馈称o3-pro比o1-pro更便宜、更快且精确,编码体验截然不同,物理仿真任务如六边形弹球碰撞处理近乎完美。

技术规格上,o3-pro支持200K上下文窗口和100K输出,具备工具访问能力,包括搜索、文件分析、视觉推理和Python执行。这种功能集成虽导致响应速度略慢于o1-pro,但提升了复杂任务处理稳定性。模型已集成至ChatGPT界面和API,向Pro和Team用户开放,取代o1-pro;企业版和教育版预计下周可用。安全机制采用审议式对齐方法,确保模型在回答前明确回忆规范,外部测试正推进。当前限制包括不支持图像生成、临时对话功能关闭以及Canvas工作区未开放。开发者社区讨论性价比权衡,部分用户指出o3上下文长度缩短,但o3-pro在非编程任务超越Claude Opus 4,被誉为“超级研究员”

本文链接: https://www.shuzhipunk.com/articles/8jQA4WmHbce
转载请注明文章出处

文章所属标签
o3-pro
ChatGPT
推理模型