I/O 圖 1
I/O 圖 2
選擇要比較的模型
論文 (1)
概述
Jina-ColBERT-v2 是一種突破性的多語言信息檢索模型,解決了跨多種語言進行高效、高質量搜索的關鍵挑戰。作為第一個生成緊湊向量的多語言 ColBERT 類模型,它滿足了全球應用中對可擴展、經濟高效的多語言搜索解決方案日益增長的需求。從電子商務平台到內容管理系統,處理多語言內容的組織可以利用此模型提供 89 種語言的準確搜索結果,同時通過其創新的降維功能顯着降低存儲和計算成本。
方法
該模型以 ColBERT 架構為基礎,引入了一種複雜的後期交互機制,從根本上改變了查詢和文檔的匹配方式。其核心是使用經過修改的 XLM-RoBERTa 主幹,具有 5.6 億個參數,通過旋轉位置向量增強,並通過閃存注意進行優化。訓練過程涉及兩個關鍵階段:使用來自各種語言的各種弱監督數據進行初始預訓練,然後使用詞元三元組數據進行微調和監督蒸餾。這種方法的獨特之處在於實現了 Matryoshka 表示學習,這使模型能夠從單個訓練過程中生成多個維度(128、96 或 64)的向量,從而允許動態存儲優化而無需重新訓練。
性能
在實際測試中,Jina-ColBERT-v2 在多個基準測試中展現出卓越的能力。它在英語任務上的表現比原始的 ColBERT-v2 提高了 6.5%,在 14 個 BEIR 基準測試中的平均得分為 0.521。更令人印象深刻的是,它在 MIRACL 基準測試中在所有測試語言中的表現都優於傳統的基於 BM25 的檢索方法,在跨語言場景中表現出特別的優勢。即使在使用減少的向量維度時,該模型也能保持這種高性能 - 從 128 維降至 64 維僅導致性能下降 1.5%,同時存儲需求減半。這意味着生產成本顯著節省:例如,在 AWS 上存儲 1 億份具有 64 維向量的文檔每月成本為 659.62 美元,而 128 維則為 1,319.24 美元。
最佳實踐
為了有效部署 Jina-ColBERT-v2,團隊應考慮幾個實際方面。該模型需要支持 CUDA 的硬件才能獲得最佳性能,並支持最多 8,192 個詞元(可擴展至 12,288 個)的文檔長度,同時將查詢限制為 32 個詞元。對於生產部署,該模型可通過 Jina Search Foundation API、AWS 市場和 Azure 獲得,非商業版本可通過 Hugging Face 訪問。在實施時,團隊應指定他們是向量查詢還是文檔,因為該模型使用非對稱編碼。該模型並非專為在沒有適當索引的情況下實時處理極大的文檔集合而設計,雖然它在多語言檢索方面表現出色,但與針對這些特定領域進行微調的模型相比,它在專門的特定領域任務上的性能可能會略低。
提及此模型的博客









