阿里开源Qwen3-Embedding系列模型, 优化文本表征与排序任务

核心要点👉

数智朋克讯，阿里于近日开源了Qwen3-Embedding系列模型，涵盖Embedding和Reranker组件，专为文本表征、检索与排序任务优化，基于Qwen3基础模型训练而成。

该系列在多项基准测试中表现突出，尤其在文本表征和排序领域，8B参数规模的Embedding模型登顶MTEB多语言Leaderboard，得分70.58，性能优于众多商业API服务。

卓越的泛化性体现在下游任务评估中，排序模型显著提升搜索结果相关性；灵活的架构提供0.6B、8B等三种配置，开发者可组合表征与排序模块扩展功能。

定制化特性包括表征维度自定义以降低应用成本，以及指令适配优化增强特定任务或语言场景表现。

覆盖超过100种语言的多语言支持，确保强大的跨语言及代码检索能力，有效处理多语言数据处理需求。

Embedding模型处理单段文本，输出EOS标记对应的语义表示；Reranker模型分析文本对，通过单塔结构计算相关性得分。

开源资源已在ModelScope、Hugging Face和GitHub平台提供，包括技术报告详细说明模型设计与训练方法。

数智资讯订阅