核心要点👉
- 🚀 WebSailor-32B/72B在BrowseComp评测超越多款主流模型,仅次OpenAI DeepResearch
- 💡 训练方法融合高难度任务合成、小规模冷启动及强化学习优化
- 🌐 AI Agent智能体经济全面开启,技术迭代不可逆转
- ⏳ WebSailor需技术背景部署,复杂问题处理耗时较长
数智朋克讯,阿里巴巴通义实验室近日开源了网络智能体WebSailor,该智能体在复杂推理和检索任务中展现出卓越性能。英文与中文版BrowseComp评测集实测显示,WebSailor-32B和WebSailor-72B超越了DeepSeek R1、Grok-3等多款模型,仅落后于闭源的OpenAI DeepResearch;这一成果标志着通义实验室今年开源系列智能体——包括WebWalker、WebDancer和WebSailor——的技术突破。训练方法融合了高难度任务合成、小规模冷启动及高效强化学习优化,即使在普通任务数据集SimpleQA上也保持兼容性,验证了泛化能力。
WebSailor的创新源于系统性解决开源模型在超高不确定性任务中的推理难题,BrowseComp基准测试准确率提升达三倍。与传统搜索引擎不同,该智能体主动执行多步搜索和信息整合,但当前部署需技术背景,复杂问题处理可能耗时较长。