6 月 6 日消息,阿里巴巴宣布開源 Qwen3-Embedding 系列模型,包括 Embedding 及 Reranker,該系列模型基于 Qwen3 基礎模型訓練,專為文本表征、檢索與排序任務而打造。

Qwen3-Embedding 系列模型.jpg

在多項基準測試中,Qwen3-Embedding 系列展現(xiàn)出了卓越性能。其泛化性尤為突出,8B 參數(shù)規(guī)模的 Embedding 模型在 MTEB 多語言 Leaderboard 榜單中位居首位(截至 2025 年 6 月 6 日,得分 70.58),性能超越眾多商業(yè) API 服務。排序模型在各類文本檢索場景中表現(xiàn)優(yōu)異,顯著提升了搜索結果的相關性,在多個下游任務評估中達到行業(yè)領先水平。


該系列具備靈活的模型架構,提供 0.6B、1.7B、8B 三種參數(shù)規(guī)模的模型配置,開發(fā)者可依據(jù)不同場景下對性能與效率的需求,靈活選用并組合表征與排序模塊,輕松實現(xiàn)功能擴展。同時,模型支持定制化特性,允許用戶自定義表征維度,降低應用成本;還能通過自定義指令模板,提升特定任務、語言或場景下的性能。


值得一提的是,Qwen3-Embedding 系列對多語言的支持極為全面,涵蓋超過 100 種語言,其中既包含主流自然語言,也囊括多種編程語言。這使其具備強大的多語言、跨語言及代碼檢索能力,能夠有效處理多語言場景下的數(shù)據(jù),滿足復雜的數(shù)據(jù)處理需求。


從運行機制來看,Embedding 模型接收單段文本輸入,以模型最后一層「EOS」標記對應的隱藏狀態(tài)向量作為輸入文本的語義表示;Reranker 模型則接收文本對(如用戶查詢與候選文檔),借助單塔結構計算并輸出兩個文本的相關性得分。


阿里開源的 Qwen3-Embedding 系列模型,為相關領域開發(fā)者提供了有力工具,有望推動文本處理及多語言應用等領域進一步發(fā)展 。

來【龍頭AI網(wǎng)】了解最新AI資訊!