核心要点👉
- 🚀 阿里开源Qwen3-Embedding系列模型,涵盖Embedding和Reranker组件
- 🏆 8B Embedding模型登顶MTEB多语言Leaderboard,得分70.58
- 🌍 支持超过100种语言的多语言处理能力
- ⚙️ 提供灵活的架构和定制化特性以降低应用成本
- 📚 开源资源在ModelScope、Hugging Face、GitHub平台提供
数智朋克讯,阿里于近日开源了Qwen3-Embedding系列模型,涵盖Embedding和Reranker组件,专为文本表征、检索与排序任务优化,基于Qwen3基础模型训练而成。
该系列在多项基准测试中表现突出,尤其在文本表征和排序领域,8B参数规模的Embedding模型登顶MTEB多语言Leaderboard,得分70.58,性能优于众多商业API服务。
卓越的泛化性体现在下游任务评估中,排序模型显著提升搜索结果相关性;灵活的架构提供0.6B、8B等三种配置,开发者可组合表征与排序模块扩展功能。
定制化特性包括表征维度自定义以降低应用成本,以及指令适配优化增强特定任务或语言场景表现。
覆盖超过100种语言的多语言支持,确保强大的跨语言及代码检索能力,有效处理多语言数据处理需求。
Embedding模型处理单段文本,输出EOS标记对应的语义表示;Reranker模型分析文本对,通过单塔结构计算相关性得分。
开源资源已在ModelScope、Hugging Face和GitHub平台提供,包括技术报告详细说明模型设计与训练方法。