選擇要比較的模型
出版物 (1)
概述
Jina Embeddings v2 Base Chinese 開創了先河,成為第一個無縫處理中文和英文文本的開源模型,其上下文長度達到前所未有的 8,192 個 token。這個強大的雙語模型解決了全球商業面臨的一個關鍵挑戰:需要準確、長篇文檔處理中文和英文內容。與傳統模型難以進行跨語言理解或需要為每種語言建立單獨的模型不同,該模型將兩種語言的等效含義映射到同一個向量空間,這對於在全球範圍內擴張或管理多語言內容的組織來説非常有價值。
方法
該模型的架構將基於 BERT 的主幹與對稱雙向 ALiBi(具有線性偏差的注意力機制)相結合,從而能夠高效處理長序列,而不受傳統 512 個 token 的限制。訓練過程遵循精心策劃的三階段方法:首先在高質量雙語數據上進行預訓練,然後進行主要和次要微調階段。這種有條不紊的訓練策略,加上模型的 161M 參數和 768 維輸出,實現了卓越的效率,同時保持了兩種語言的平衡性能。對稱雙向 ALiBi 機制代表了一項重大創新,使模型能夠處理長度高達 8,192 個 token 的文檔——這一功能以前僅限於專有解決方案。
性能
在中文 MTEB (C-MTEB) 排行榜的基準測試中,該模型在 0.5GB 以下的模型中表現出色,尤其是在中文任務中表現出色。它在中文特定應用中的表現明顯優於 OpenAI 的 text-embedding-ada-002,同時在英語任務中保持了競爭力。此版本中的一個顯着改進是改進了相似度分數分佈,解決了預覽版本中存在的分數膨脹問題。該模型現在提供更獨特、更合乎邏輯的相似度分數,確保更準確地表示文本之間的語義關係。這種增強在比較測試中尤為明顯,其中模型在兩種語言中對相關和不相關內容表現出更好的區分能力。
最佳實踐
該模型需要 322MB 的存儲空間,可通過多種渠道部署,包括 AWS SageMaker(us-east-1 區域)和 Jina AI API。雖然 GPU 加速不是強制性的,但它可以顯著提高生產工作負載的處理速度。該模型在文檔分析、多語言搜索和跨語言信息檢索等各種應用中表現出色,但用户應注意,它專門針對中英雙語場景進行了優化。為了獲得最佳效果,輸入文本應正確分段,雖然該模型最多可以處理 8,192 個詞元,但建議將極長的文檔分解為具有語義意義的塊以獲得更好的性能。該模型可能不適合需要實時處理非常短的文本的任務,在這些任務中,低延遲的專用模型可能更合適。
提及此模型的博客