6 月 6 日,阿里開源通義千問 3 全新的向量模型系列 Qwen3-Embedding(簡稱千問 3 向量模型)。該模型以千問 3 為底座,專門為文本表征、檢索和排序等核心任務進行優化訓練,性能較上一版本可提升 40% ,在 MTEB 等權威專項榜單中超越了谷歌、OpenAI 、微軟等公司的頂尖模型,攬獲同類模型的 SOTA 最佳性能表現。
圖說:Qwen3-Embedding 系列模型
向量模型像是 AI 的“翻譯器”,它可以將文本、圖片等人類可認知的非結構化信息,映射(embedding)到機器更易理解的向量空間,再基于這些向量實現高效的信息分類、檢索或排序。也正因此,向量模型對于提升 AI 的語義理解、信息檢索、多模態融合等核心能力至關重要。基于千問 3 模型,通義團隊通過對比訓練、SFT 、模型融合等方法,打造出全新的千問3向量模型,包含文本嵌入模型 Qwen3-Embedding 以及文本排序模型 Qwen3-Reranker 。
圖說:千問3向量模型系列訓練過程圖
相較于上一個版本,千問 3 向量模型在文本檢索、聚類、分類等核心任務上提升最高 40% 以上的性能。在評估向量模型通用能力的 MTEB 多語言排行榜上,Qwen3-Embedding-8B 超越谷歌的 Gemini Embedding 、Open AI 的 text-embedding-3-large 及微軟的 multilingual-e5-large-instruct 等頂尖模型,拿下同類模型的最佳性能 SOTA 。同時,得益于千問 3 的多語言能力,千問 3 向量模型系列率先支持超 100 種語言,并涵蓋多種編程語言,可實現強大的多語言、跨語言及代碼檢索能力。
圖說:千問3向量模型在 MTEB 等基準測試中獲SOTA最佳性能表現
為方便開發者,此次有 9 款千問 3 向量模型開源,涵蓋 0.6B 、4B 、8B 等不同尺寸及 GGUF 版本。開發者可從中找到最符合需求的模型,自由組合模塊,還可自定義向量或指令,實現特定任務、語言和場景的深度優化。比如,開發者可在智能搜索、推薦系統中采用 Qwen3-Embedding 作文本向量化,或者在 RAG 實踐中用 Qwen3-Reranker 提升最終結果的相關性和準確性,甚至與視覺理解模型結合,探索前沿的跨模態語義理解。
目前,千問 3 Embedding 和 Reranker 模型均已在魔搭社區、 Hugging Face 和 GitHub 等平臺上開源,開發者也可直接通過阿里云百煉使用 API 服務。據了解,千問 3 大模型自 4 月 29 日開源以來,已攬獲 Artificial Analysis 、LiveBench 、LiveCodeBench 、SuperClue 多個國內外權威榜單的全球開源冠軍。