OpenAI推出GDPval评估基准，量化AI模型真实经济价值表现

核心要点👉

🏭 覆盖九大GDP支柱行业44个知识型职业，构建1320项专业任务
👨‍💻 任务由平均14年经验专家设计，基于法律简报/工程蓝图等多模态交付物
🔍 采用专家盲评机制+自动化工具确保评估客观性
⚡ 模型速度比人类快100倍，成本仅1%
📈 当前局限单次评估，计划扩展交互式工作流

数智朋克讯，OpenAI 正式推出 GDPval 评估基准，旨在量化人工智能模型在真实经济价值任务中的性能表现。该基准通过覆盖对美国 GDP 贡献最高的九大行业，包括房地产、制造业、医疗保健等领域的 44个知识型职业，构建了 1,320项专业任务。这些任务由平均拥有 14年经验的专业人士精心设计，基于实际工作产品如法律简报或工程蓝图，并融入参考文件和上下文，要求模型生成文档、幻灯片或图表等多模态交付物，以模拟真实工作场景的复杂性。

评估过程采用专家盲评机制，行业资深人士在不知情下对比模型输出与人类专家成果，辅以详细评分标准和自动化预测工具，确保结果客观可靠。初步测试显示，前沿模型如 Claude Opus 4.1 在美学设计方面表现卓越，GPT-5 则在领域知识准确性上领先；模型完成任务的速度比人类专家快约100倍，成本仅相当于后者的百分之一，凸显其在重复性任务中的效率优势。

当前GDPval版本局限于一次性评估，无法处理多轮迭代或模糊性任务，例如基于客户反馈的修订或数据异常分析。OpenAI计划扩展覆盖更多职业和交互式工作流，以更全面地反映真实知识工作的动态需求。

OpenAI推出GDPval评估基准，量化AI模型真实经济价值表现

数智资讯订阅