jina-colbert-v2

向量模型

重排器

CC BY-NC 4.0

發行説明

jina-colbert-v2

最新的多語言ColBERT，在向量化和重排方面具有頂級性能

許可證

CC-BY-NC-4.0

發佈日期

2024-08-31

輸入

文本

輸出

多向量

支持的俄羅斯套娃維度

128

模型詳細信息

參數: 560M

輸入詞元長度: 8K

輸出維度: 128

底座模型

XLM-RoBERTa Large

訓練過的語言

89 語言

支持的語言

108 語言

相關模型

jina-colbert-v1-en

標籤

multilingual

late-interaction

long-context

high-performance

production-ready

retriever

token-level

89-languages

cross-lingual

matryoshka

storage-efficient

可通過以下方式獲取

Jina API 亞馬遜雲微軟雲谷歌雲抱抱臉

I/O 圖 1

I/O 圖 2

選擇要比較的模型

jina-colbert-v2

jina-colbert-v1-en

論文 (1)

EMNLP 2024

八月 30, 2024

Jina-ColBERT-v2: A General-Purpose Multilingual Late Interaction Retriever

概述

Jina-ColBERT-v2 是一種突破性的多語言信息檢索模型，解決了跨多種語言進行高效、高質量搜索的關鍵挑戰。作為第一個生成緊湊向量的多語言 ColBERT 類模型，它滿足了全球應用中對可擴展、經濟高效的多語言搜索解決方案日益增長的需求。從電子商務平台到內容管理系統，處理多語言內容的組織可以利用此模型提供 89 種語言的準確搜索結果，同時通過其創新的降維功能顯着降低存儲和計算成本。

方法

該模型以 ColBERT 架構為基礎，引入了一種複雜的後期交互機制，從根本上改變了查詢和文檔的匹配方式。其核心是使用經過修改的 XLM-RoBERTa 主幹，具有 5.6 億個參數，通過旋轉位置向量增強，並通過閃存注意進行優化。訓練過程涉及兩個關鍵階段：使用來自各種語言的各種弱監督數據進行初始預訓練，然後使用詞元三元組數據進行微調和監督蒸餾。這種方法的獨特之處在於實現了 Matryoshka 表示學習，這使模型能夠從單個訓練過程中生成多個維度（128、96 或 64）的向量，從而允許動態存儲優化而無需重新訓練。

性能

在實際測試中，Jina-ColBERT-v2 在多個基準測試中展現出卓越的能力。它在英語任務上的表現比原始的 ColBERT-v2 提高了 6.5%，在 14 個 BEIR 基準測試中的平均得分為 0.521。更令人印象深刻的是，它在 MIRACL 基準測試中在所有測試語言中的表現都優於傳統的基於 BM25 的檢索方法，在跨語言場景中表現出特別的優勢。即使在使用減少的向量維度時，該模型也能保持這種高性能 - 從 128 維降至 64 維僅導致性能下降 1.5%，同時存儲需求減半。這意味着生產成本顯著節省：例如，在 AWS 上存儲 1 億份具有 64 維向量的文檔每月成本為 659.62 美元，而 128 維則為 1,319.24 美元。

最佳實踐

為了有效部署 Jina-ColBERT-v2，團隊應考慮幾個實際方面。該模型需要支持 CUDA 的硬件才能獲得最佳性能，並支持最多 8,192 個詞元（可擴展至 12,288 個）的文檔長度，同時將查詢限制為 32 個詞元。對於生產部署，該模型可通過 Jina Search Foundation API、AWS 市場和 Azure 獲得，非商業版本可通過 Hugging Face 訪問。在實施時，團隊應指定他們是向量查詢還是文檔，因為該模型使用非對稱編碼。該模型並非專為在沒有適當索引的情況下實時處理極大的文檔集合而設計，雖然它在多語言檢索方面表現出色，但與針對這些特定領域進行微調的模型相比，它在專門的特定領域任務上的性能可能會略低。

提及此模型的博客

十月 03, 2025 • 7 分鐘的讀取量

Jina Reranker v3：用於 SOTA 多語檢索的 0.6B Listwise 重排器

全新 0.6B 參數的列表式重排器，可以在單一上下文視窗中考量查詢語句和所有候選文件。