DIGIPUNK
去投稿
发表于:11 hours ago

红杉中国开源ScienceQA与DeepSearch评测集,推动AI基准测试突破

数智朋克
发布者:数智朋克
阅读:1 分钟
我要投稿
核心要点👉
  • 🚀 ScienceQA覆盖STEM八大主流学科,32%平均正确率精准区分模型性能
  • 🔍 DeepSearch首创中文互联网深度搜索评估,采用谜底-谜面双向设计
  • 🔄 动态更新机制:月度报告+季度题目更新+闭源黑盒防过拟合
  • 🎯 例题难度控制:ScienceQA正确率<5%,DeepSearch检验多步推理能力
  • 📦 GitHub与HuggingFace同步开源,垂直领域评测开放申请

数智朋克讯,红杉中国正式开源xbench评测集的两个核心组件——ScienceQA与DeepSearch,标志着AI基准测试领域的重要突破。ScienceQA评测集通过邀请顶级院校博士和行业专家构建专业题库,覆盖STEM领域八大主流学科,其平均正确率仅32%的设计有效区分了不同推理模型的性能差异。该评测集采用多阶段验证机制:题目需经搜索引擎确认无现成答案,新题必须满足至少一个模型答对且一个模型答错的条件,低准确率题目还需经过同行与非同行双重审核。

DeepSearch评测集则针对AI Agent的深度搜索能力设计,填补了中文互联网环境下的评估空白。其题目构建采用"谜底-谜面"双向设计逻辑,要求Agent综合运用规划、搜索与推理分析能力。在难度控制上,志愿者需提交搜索空间广或推理步骤复杂的题目,并通过主流模型测试淘汰高准确率题目。该评测集特别强调对中文语境的适配性,由专家出题后经博士生交叉验证,确保答案唯一性。

两个评测集均采用动态更新机制:每月汇报模型表现,每季度更新评估题目,并设置闭源黑盒版本防止过拟合。在ScienceQA的例题中,某基于2023年IEEE前沿研究的题目正确率低于5%,考察模型对长尾知识的掌握;而DeepSearch的典型例题要求确定航母下水时间及相关总统服役信息,检验多步推理能力。开源项目已在GitHub和HuggingFace同步发布,垂直领域智能体评测模块可通过指定邮箱申请测试。

本文链接: https://www.shuzhipunk.com/articles/Xm6dHA9PIxz
转载请注明文章出处

文章所属标签
AI基准测试
ScienceQA
DeepSearch