红杉中国开源ScienceQA与DeepSearch评测集,推动AI基准测试突破

核心要点👉

🚀 ScienceQA覆盖STEM八大主流学科，32%平均正确率精准区分模型性能
🔍 DeepSearch首创中文互联网深度搜索评估，采用谜底-谜面双向设计
🔄 动态更新机制：月度报告+季度题目更新+闭源黑盒防过拟合
🎯 例题难度控制：ScienceQA正确率＜5%，DeepSearch检验多步推理能力
📦 GitHub与HuggingFace同步开源，垂直领域评测开放申请

数智朋克讯，红杉中国正式开源xbench评测集的两个核心组件——ScienceQA与DeepSearch，标志着AI基准测试领域的重要突破。ScienceQA评测集通过邀请顶级院校博士和行业专家构建专业题库，覆盖STEM领域八大主流学科，其平均正确率仅32%的设计有效区分了不同推理模型的性能差异。该评测集采用多阶段验证机制：题目需经搜索引擎确认无现成答案，新题必须满足至少一个模型答对且一个模型答错的条件，低准确率题目还需经过同行与非同行双重审核。

DeepSearch评测集则针对AI Agent的深度搜索能力设计，填补了中文互联网环境下的评估空白。其题目构建采用"谜底-谜面"双向设计逻辑，要求Agent综合运用规划、搜索与推理分析能力。在难度控制上，志愿者需提交搜索空间广或推理步骤复杂的题目，并通过主流模型测试淘汰高准确率题目。该评测集特别强调对中文语境的适配性，由专家出题后经博士生交叉验证，确保答案唯一性。

两个评测集均采用动态更新机制：每月汇报模型表现，每季度更新评估题目，并设置闭源黑盒版本防止过拟合。在ScienceQA的例题中，某基于2023年IEEE前沿研究的题目正确率低于5%，考察模型对长尾知识的掌握；而DeepSearch的典型例题要求确定航母下水时间及相关总统服役信息，检验多步推理能力。开源项目已在GitHub和HuggingFace同步发布，垂直领域智能体评测模块可通过指定邮箱申请测试。

红杉中国开源ScienceQA与DeepSearch评测集,推动AI基准测试突破

数智资讯订阅