jina-colbert-v1-en

改進版的ColBERT模型支持8K長度的上下文，可用於向量化和重排任務

許可證

Apache-2.0

發佈日期

2024-02-17

輸入

文本

輸出

多向量

模型詳細信息

參數: 137M

輸入詞元長度: 8K

輸出維度: 128

底座模型

jina-embeddings-v2-base-en

訓練過的語言

1 語言

標籤

english-only

late-interaction

token-level-matching

retrieval

reranking

multi-vector

可通過以下方式獲取

Jina API 亞馬遜雲微軟雲抱抱臉

I/O 圖 1

I/O 圖 2

選擇要比較的模型

jina-colbert-v1-en

概述

Jina-ColBERT-v1-en 通過解決信息檢索中的一個關鍵挑戰，徹底改變了文本搜索：在不犧牲計算效率的情況下實現高精度。與將整個文檔壓縮為單個向量的傳統模型不同，此模型在僅需要 1.37 億個參數的情況下保持了精確的詞元級理解。對於構建搜索應用程序、推薦系統或內容發現平台的團隊來説，Jina-ColBERT-v1-en 消除了搜索質量和系統性能之間的傳統權衡。該模型在細緻入微的文本理解至關重要的場景中尤其出色，例如技術文檔搜索、學術論文檢索或任何捕捉微妙的語義關係可能會在找到正確信息和遺漏關鍵內容之間產生差異的應用程序。

方法

該模型採用創新的後期交互架構，從根本上改變了文檔檢索的工作方式。它並非一次性比較所有文檔，而是使用改良版的 ColBERT 方法，在最終匹配階段之前獨立處理查詢和文檔。該架構結合了兩個關鍵組件：一個文檔編碼器，可處理多達 8,192 個 token（比標準 Transformer 長 16 倍以上），以及一個查詢編碼器，可創建精確的 token 級表徵。查詢和文檔中的每個 token 都擁有各自的 128 維向量，從而保留了單向量中可能丟失的細粒度語義信息。後期交互機制支持查詢和文檔之間高效的逐 token 匹配，使用最大池化和求和運算來計算最終的相關性得分，而無需進行昂貴的“全部對全部”比較。

性能

Jina-ColBERT-v1-en 在各種基準測試中都比基線模型表現出色。在 BEIR 數據集上，它在多個類別中取得了優異的表現：Arguana 上為 49.4%（而 ColBERTv2 為 46.5%），FEVER 上為 79.5%（而 ColBERTv2 為 78.8%），TREC-COVID 上為 75.0%（而 ColBERTv2 為 72.6%）。最令人印象深刻的是，它在長上下文理解的 LoCo 基準測試中表現出了顯著的改進，得分為 83.7%，而 ColBERTv2 為 74.3%。該模型在需要詳細語義理解的場景中尤其出色，通過其創新的後期交互方法，它的表現優於傳統的向量模型，同時保持了計算效率。這些改進是在將模型的參數數量保持在 137M 的適中水平的同時實現的，使其功能強大且適用於生產部署。

最佳實踐

為了有效部署 Jina-ColBERT-v1-en，團隊應考慮幾個實際方面。該模型需要具有 CUDA 功能的 GPU 才能獲得最佳性能，儘管開發過程中可以使用 CPU 推理。對於文檔處理，8,192 個詞元限制相當於大約 6,000 個單詞，使其適用於大多數文檔類型，包括學術論文、技術文檔和長篇內容。團隊應實施有效的文檔預處理來處理詞元限制，並考慮對大規模索引進行批處理。雖然該模型擅長處理英語內容，但它並非為多語言應用程序或跨語言檢索而設計的。對於生產部署，請實施適當的文檔分塊策略，並考慮使用向量相似性索引（如 FAISS）進行有效檢索。當使用 RAGatouille 等框架將該模型集成到 RAG 管道中時，該模型特別有效，這簡化了複雜檢索模式的實現。

提及此模型的博客

八月 30, 2024 • 10 分鐘的讀取量

Jina ColBERT v2：用於 Embedding 與重排序的多語言後期互動檢索器

Jina ColBERT v2 支援 89 種語言，具有卓越的檢索效能、使用者可控的輸出維度，以及 8192 的 token 長度。