DIGIPUNK
去投稿

红杉中国开源ScienceQA与DeepSearch评测集,推动AI基准测试突破

红杉中国开源ScienceQA和DeepSearch两大AI评测组件,分别针对学科推理与深度搜索能力建立专业评估体系。评测集采用多阶段验证、动态更新机制,并已在主流开发平台同步发布。

10 hours ago