DIGIPUNK
去投稿
发表于:a day ago

OpenAI推出GDPval评估基准,量化AI模型真实经济价值表现

数智朋克
发布者:数智朋克
阅读:1 分钟
我要投稿
核心要点👉
  • 🏭 覆盖九大GDP支柱行业44个知识型职业,构建1320项专业任务
  • 👨‍💻 任务由平均14年经验专家设计,基于法律简报/工程蓝图等多模态交付物
  • 🔍 采用专家盲评机制+自动化工具确保评估客观性
  • ⚡ 模型速度比人类快100倍,成本仅1%
  • 📈 当前局限单次评估,计划扩展交互式工作流

数智朋克讯,OpenAI 正式推出 GDPval 评估基准,旨在量化人工智能模型在真实经济价值任务中的性能表现。该基准通过覆盖对美国 GDP 贡献最高的九大行业,包括房地产、制造业、医疗保健等领域的 44个知识型职业,构建了 1,320项专业任务。这些任务由平均拥有 14年经验的专业人士精心设计,基于实际工作产品如法律简报或工程蓝图,并融入参考文件和上下文,要求模型生成文档、幻灯片或图表等多模态交付物,以模拟真实工作场景的复杂性。

评估过程采用 专家盲评机制,行业资深人士在不知情下对比模型输出与人类专家成果,辅以详细评分标准和自动化预测工具,确保结果客观可靠。初步测试显示,前沿模型如 Claude Opus 4.1 在美学设计方面表现卓越,GPT-5 则在领域知识准确性上领先;模型完成任务的速度比人类专家 快约100倍,成本仅相当于后者的 百分之一,凸显其在重复性任务中的效率优势。

当前GDPval版本局限于一次性评估,无法处理多轮迭代或模糊性任务,例如基于客户反馈的修订或数据异常分析。OpenAI计划扩展覆盖更多职业和交互式工作流,以更全面地反映真实知识工作的动态需求。

本文链接: https://www.shuzhipunk.com/articles/xv91QWVmNBc
转载请注明文章出处

文章所属标签
GDPval评估基准
AI经济价值量化
专家盲评机制
多模态交付物
知识型职业任务