Qu'est-ce que ColBERT et l'interaction tardive (Late Interaction) et pourquoi sont-ils importants pour la recherche ?

Mise à jour : Le 31 août 2024, nous avons publié la 2e version de Jina-ColBERT, avec des performances améliorées, un support multilingue pour 89 langues et des dimensions de sortie flexibles. Consultez l'article de publication pour plus de détails.

Vendredi dernier, la sortie du modèle ColBERT par Jina AI sur Hugging Face a suscité un enthousiasme significatif dans la communauté IA, particulièrement sur Twitter/X. Alors que beaucoup connaissent le modèle révolutionnaire BERT, l'effervescence autour de ColBERT en a laissé certains perplexes : Qu'est-ce qui fait que ColBERT se démarque dans le domaine très concurrentiel des technologies de recherche d'information ? Pourquoi la communauté IA est-elle enthousiasmée par le ColBERT de longueur 8192 ? Cet article explore les subtilités de ColBERT et ColBERTv2, soulignant leur conception, leurs améliorations et l'efficacité surprenante de l'interaction tardive de ColBERT.

tagQu'est-ce que ColBERT ?

Le nom "ColBERT" signifie Contextualized Late Interaction over BERT, un modèle issu de l'Université Stanford, qui exploite la compréhension profonde du langage de BERT tout en introduisant un nouveau mécanisme d'interaction. Ce mécanisme, connu sous le nom d'interaction tardive, permet une récupération efficace et précise en traitant les requêtes et les documents séparément jusqu'aux étapes finales du processus de récupération. Plus précisément, il existe deux versions du modèle :

ColBERT : Le modèle initial était l'œuvre d'Omar Khattab et Matei Zaharia, présentant une nouvelle approche de la recherche d'information à travers l'article "ColBERT: Efficient and Effective Passage Search via Contextualized Late Interaction over BERT". Leur travail a été publié à SIGIR 2020.

ColBERT: Efficient and Effective Passage Search via Contextualized Late Interaction over BERT

Recent progress in Natural Language Understanding (NLU) is driving fast-paced advances in Information Retrieval (IR), largely owed to fine-tuning deep language models (LMs) for document ranking. While remarkably effective, the ranking models based on these LMs increase computational cost by orders of magnitude over prior approaches, particularly as they must feed each query-document pair through a massive neural network to compute a single relevance score. To tackle this, we present ColBERT, a novel ranking model that adapts deep LMs (in particular, BERT) for efficient retrieval. ColBERT introduces a late interaction architecture that independently encodes the query and the document using BERT and then employs a cheap yet powerful interaction step that models their fine-grained similarity. By delaying and yet retaining this fine-granular interaction, ColBERT can leverage the expressiveness of deep LMs while simultaneously gaining the ability to pre-compute document representations offline, considerably speeding up query processing. Beyond reducing the cost of re-ranking the documents retrieved by a traditional model, ColBERT's pruning-friendly interaction mechanism enables leveraging vector-similarity indexes for end-to-end retrieval directly from a large document collection. We extensively evaluate ColBERT using two recent passage search datasets. Results show that ColBERT's effectiveness is competitive with existing BERT-based models (and outperforms every non-BERT baseline), while executing two orders-of-magnitude faster and requiring four orders-of-magnitude fewer FLOPs per query.

arXiv.orgOmar Khattab

L'article original de ColBERT qui introduit l'"interaction tardive".

ColBERTv2 : S'appuyant sur le travail fondamental, Omar Khattab a poursuivi ses recherches, collaborant avec Barlas Oguz, Matei Zaharia, et Michael S. Bernstein pour introduire "ColBERTv2: Effective and Efficient Retrieval via Lightweight Late Interaction", présenté à SIGIR 2021. Cette nouvelle itération de ColBERT a abordé les limitations précédentes et introduit des améliorations clés, telles que la supervision débruitée et la compression résiduelle, améliorant à la fois l'efficacité de récupération du modèle et son efficacité de stockage.

ColBERTv2: Effective and Efficient Retrieval via Lightweight Late Interaction

Neural information retrieval (IR) has greatly advanced search and other knowledge-intensive language tasks. While many neural IR methods encode queries and documents into single-vector representations, late interaction models produce multi-vector representations at the granularity of each token and decompose relevance modeling into scalable token-level computations. This decomposition has been shown to make late interaction more effective, but it inflates the space footprint of these models by an order of magnitude. In this work, we introduce ColBERTv2, a retriever that couples an aggressive residual compression mechanism with a denoised supervision strategy to simultaneously improve the quality and space footprint of late interaction. We evaluate ColBERTv2 across a wide range of benchmarks, establishing state-of-the-art quality within and outside the training domain while reducing the space footprint of late interaction models by 6--10

\times

arXiv.orgKeshav Santhanam

ColBERTv2 ajoutant la supervision débruitée et la compression résiduelle pour améliorer la qualité des données d'entraînement et réduire l'empreinte spatiale.

tagComprendre la conception de ColBERT

Étant donné que l'architecture de ColBERTv2 reste très similaire à celle du ColBERT original, avec ses innovations clés tournant autour des techniques d'entraînement et des mécanismes de compression, nous allons d'abord examiner les aspects fondamentaux du ColBERT original.

tagQu'est-ce que l'interaction tardive dans ColBERT ?

"Interaction" fait référence au processus d'évaluation de la pertinence entre une requête et un document en comparant leurs représentations.

L'"interaction tardive" est l'essence de ColBERT. Le terme provient de l'architecture du modèle et de sa stratégie de traitement, où l'interaction entre les représentations de la requête et du document se produit tard dans le processus, après que les deux aient été encodés indépendamment. Cela contraste avec les modèles d'"interaction précoce", où les embeddings de requête et de document interagissent à des stades plus précoces, généralement avant ou pendant leur encodage par le modèle.

Interaction Type	Models
Early Interaction	BERT, ANCE, DPR, Sentence-BERT, DRMM, KNRM, Conv-KNRM, etc.
Late Interaction	ColBERT, ColBERTv2

L'interaction précoce peut augmenter la complexité computationnelle car elle nécessite de considérer toutes les paires requête-document possibles, la rendant moins efficace pour les applications à grande échelle.

Les modèles d'interaction tardive comme ColBERT optimisent l'efficacité et la scalabilité en permettant le pré-calcul des représentations des documents et en employant une étape d'interaction plus légère à la fin, qui se concentre sur les représentations déjà encodées. Ce choix de conception permet des temps de récupération plus rapides et des demandes computationnelles réduites, le rendant plus adapté au traitement de grandes collections de documents.

Diagram illustrating query-document similarity with models for no, partial, and late interaction, including language mode rep — Diagrammes schématiques illustrant les paradigmes d'interaction requête-document dans la RI neuronale, avec l'interaction tardive de ColBERT à gauche.

tagPas d'interaction : similarité cosinus des embeddings de documents et de requêtes

De nombreuses bases de données vectorielles et solutions de recherche neuronale pratiques reposent sur la correspondance rapide de similarité cosinus entre les embeddings de documents et de requêtes. Bien qu'attrayante pour sa simplicité et son efficacité computationnelle, cette méthode, souvent appelée « sans interaction » ou « non basée sur l'interaction », s'est révélée moins performante par rapport aux modèles qui intègrent une forme d'interaction entre les requêtes et les documents.

La limitation principale de l'approche « sans interaction » réside dans son incapacité à capturer les nuances complexes et les relations entre les termes des requêtes et des documents. La recherche d'information, dans son essence, consiste à comprendre et à faire correspondre l'intention derrière une requête avec le contenu d'un document. Ce processus nécessite souvent une compréhension contextuelle profonde des termes impliqués, ce que les embeddings uniques et agrégés pour les documents et les requêtes peinent à fournir.

tagEncodeurs de requêtes et de documents dans ColBERT

La stratégie d'encodage de ColBERT est basée sur le modèle BERT, connu pour sa compréhension contextuelle profonde du langage. Le modèle génère des représentations vectorielles denses pour chaque token dans une requête ou un document, créant respectivement un sac d'embeddings contextualisés pour une requête et un sac pour un document. Cela facilite une comparaison nuancée de leurs embeddings durant la phase d'interaction tardive.

tagEncodeur de requêtes de ColBERT

Pour une requête $Q$ avec les tokens ${q_1, q_2, ..., q_l}$ , le processus commence par tokeniser $Q$ en tokens WordPiece basés sur BERT et en préfixant un token spécial [Q]. Ce token [Q], positionné juste après le token [CLS] de BERT, signale le début d'une requête.

Si la requête est plus courte qu'un nombre prédéfini de tokens $N_q$ , elle est complétée avec des tokens [mask] jusqu'à $N_q$ ; sinon, elle est tronquée aux premiers tokens $N_q$ . La séquence complétée est ensuite passée à travers BERT, suivie d'un CNN (Réseau de Neurones Convolutif) et d'une normalisation. Le résultat est un ensemble de vecteurs d'embedding notés $\mathbf{E}_q$ ci-dessous :
$\mathbf{E}_q := \mathrm{Normalize}\left(\mathrm{BERT}\left(\mathtt{[Q]},q_0,q_1,\ldots,q_l\mathtt{[mask]},\mathtt{[mask]},\ldots,\mathtt{[mask]}\right)\right)$

tagEncodeur de documents de ColBERT

De même, pour un document $D$ avec les tokens ${d_1, d_2, ..., d_n}$ , un token [D] est préfixé pour indiquer le début d'un document. Cette séquence, sans besoin de complétion, subit le même processus, donnant un ensemble de vecteurs d'embedding notés $\mathbf{E}_d$ ci-dessous :
$\mathbf{E}_d := \mathrm{Filter}\left(\mathrm{Normalize}\left(\mathrm{BERT}\left(\mathtt{[D]},d_0,d_1,...,d_n\right)\right)\right)$

L'utilisation de tokens [mask] pour compléter les requêtes (appelée augmentation de requête dans l'article) assure une longueur uniforme pour toutes les requêtes, facilitant le traitement par lots. Les tokens [Q] et [D] marquent explicitement le début des requêtes et des documents, respectivement, aidant le modèle à distinguer les deux types d'entrées.

tagComparaison de ColBERT aux cross-encoders

Les cross-encoders traitent les paires de requêtes et de documents ensemble, les rendant très précis mais moins efficaces pour les tâches à grande échelle en raison du coût computationnel d'évaluation de chaque paire possible. Ils excellent dans des scénarios spécifiques où le scoring précis des paires de phrases est nécessaire, comme dans les tâches de similarité sémantique ou la comparaison détaillée de contenu. Cependant, cette conception limite leur applicabilité dans les situations nécessitant une récupération rapide depuis de grands ensembles de données, où les embeddings pré-calculés et les calculs de similarité efficaces sont primordiaux.

Diagrams comparing "Cross Encoder: Early all-to-all interaction" and "ColBERT: Late interaction" with labeled Query and Docum

En revanche, le modèle d'interaction tardive de ColBERT permet le pré-calcul des embeddings de documents, accélérant significativement le processus de récupération sans compromettre la profondeur de l'analyse sémantique. Cette méthode, bien que contre-intuitive comparée à l'approche directe des cross-encoders, offre une solution évolutive pour les tâches de recherche d'information en temps réel et à grande échelle. Elle représente un compromis stratégique entre l'efficacité computationnelle et la qualité de la modélisation des interactions.

tagTrouver les K meilleurs documents avec ColBERT

Une fois que nous avons les embeddings pour la requête et les documents, trouver les K documents les plus pertinents devient simple (mais pas aussi simple que le calcul du cosinus de deux vecteurs).

Les opérations clés incluent un produit scalaire par lots pour calculer les similarités terme à terme, un max-pooling sur les termes du document pour trouver la plus haute similarité par terme de requête, et une somme sur les termes de requête pour dériver le score total du document, suivi du tri des documents basé sur ces scores. Le pseudo-code PyTorch est décrit ci-dessous :

import torch

def compute_relevance_scores(query_embeddings, document_embeddings, k):
    """
    Compute relevance scores for top-k documents given a query.
    
    :param query_embeddings: Tensor representing the query embeddings, shape: [num_query_terms, embedding_dim]
    :param document_embeddings: Tensor representing embeddings for k documents, shape: [k, max_doc_length, embedding_dim]
    :param k: Number of top documents to re-rank
    :return: Sorted document indices based on their relevance scores
    """
    
    # Ensure document_embeddings is a 3D tensor: [k, max_doc_length, embedding_dim]
    # Pad the k documents to their maximum length for batch operations
    # Note: Assuming document_embeddings is already padded and moved to GPU
    
    # Compute batch dot-product of Eq (query embeddings) and D (document embeddings)
    # Resulting shape: [k, num_query_terms, max_doc_length]
    scores = torch.matmul(query_embeddings.unsqueeze(0), document_embeddings.transpose(1, 2))
    
    # Apply max-pooling across document terms (dim=2) to find the max similarity per query term
    # Shape after max-pool: [k, num_query_terms]
    max_scores_per_query_term = scores.max(dim=2).values
    
    # Sum the scores across query terms to get the total score for each document
    # Shape after sum: [k]
    total_scores = max_scores_per_query_term.sum(dim=1)
    
    # Sort the documents based on their total scores
    sorted_indices = total_scores.argsort(descending=True)
    
    return sorted_indices

Notez que cette procédure est utilisée à la fois pendant l'entraînement et le reclassement lors de l'inférence. Le modèle ColBERT est entraîné en utilisant une perte de classement par paires, où les données d'entraînement consistent en triplets $(q, d^+, d^-)$ , où $q$ représente une requête, $d^+$ est un document pertinent (positif) pour la requête, et $d^-$ est un document non pertinent (négatif). Le modèle vise à apprendre des représentations telles que le score de similarité entre $q$ et $d^+$ soit plus élevé que le score entre $q$ et $d^-$ .

L'objectif d'entraînement peut être mathématiquement représenté comme la minimisation de la fonction de perte suivante : $\mathrm{Loss} = \max(0, 1 - S(q, d^+) + S(q, d^-))$

, où $S(q, d)$ dénote le score de similarité calculé par ColBERT entre une requête $q$ et un document $d$ . Ce score est obtenu en agrégeant les scores de similarité maximale des embeddings les mieux appariés entre la requête et le document, suivant le motif d'interaction tardive décrit dans l'architecture du modèle. Cette approche assure que le modèle est entraîné à distinguer entre les documents pertinents et non pertinents pour une requête donnée, en encourageant une plus grande marge dans les scores de similarité pour les paires de documents positifs et négatifs.

tagSupervision débruitée dans ColBERTv2

La supervision débruitée dans ColBERTv2 affine le processus d'entraînement original en sélectionnant des négatifs difficiles et en exploitant un cross-encoder pour la distillation. Cette méthode sophistiquée d'amélioration de la qualité des données d'entraînement implique plusieurs étapes :

Entraînement Initial : Utilisation des triplets officiels du jeu de données MS MARCO, comprenant une requête, un document pertinent et un document non pertinent.
Indexation et Récupération : Emploi de la compression de ColBERTv2 pour indexer les passages d'entraînement, suivi de la récupération des k meilleurs passages pour chaque requête.
Reclassement par Cross-Encoder : Amélioration de la sélection des passages par reclassement via un cross-encoder MiniLM, distillant ses scores dans ColBERTv2.
Formation des Tuples d'Entraînement : Génération de tuples à w voies pour l'entraînement, incorporant à la fois des passages bien classés et moins bien classés pour créer des exemples difficiles.
Raffinement Itératif : Répétition du processus pour améliorer continuellement la sélection des négatifs difficiles, améliorant ainsi les performances du modèle.

Notez que ce processus représente une amélioration sophistiquée du régime d'entraînement de ColBERT plutôt qu'un changement fondamental de son architecture.

tagHyperparamètres de ColBERT

Les hyperparamètres de ColBERT sont résumés ci-dessous :

Hyperparamètre	Meilleur choix	Raison
Learning Rate	3 x 10^{-6}	Sélectionné pour le fine-tuning afin d'assurer des mises à jour stables et efficaces du modèle.
Batch Size	32	Équilibre entre l'efficacité computationnelle et la capacité à capturer suffisamment d'informations par mise à jour.
Number of Embeddings per Query (Nq)	32	Fixé pour assurer une taille de représentation cohérente entre les requêtes, facilitant un traitement efficace.
Embedding Dimension (m)	128	Démontre un bon équilibre entre la puissance de représentation et l'efficacité computationnelle.
Training Iterations	200k (MS MARCO), 125k (TREC CAR)	Choisi pour assurer un apprentissage approfondi tout en évitant le surapprentissage, avec des ajustements basés sur les caractéristiques du dataset.
Bytes per Dimension in Embeddings	4 (re-ranking), 2 (end-to-end ranking)	Compromis entre précision et efficacité spatiale, en tenant compte du contexte d'application (re-ranking vs. end-to-end).
Vector-Similarity Function	Cosine (re-ranking), (Squared) L2 (end-to-end)	Sélectionné selon la performance et l'efficacité dans les contextes de recherche respectifs.
FAISS Index Partitions (P)	2000	Détermine la granularité du partitionnement de l'espace de recherche, impactant l'efficacité de la recherche.
Nearest Partitions Searched (p)	10	Équilibre entre l'étendue de la recherche et l'efficacité computationnelle.
Sub-vectors per Embedding (s)	16	Affecte la granularité de la quantification, influençant la vitesse de recherche et l'utilisation de la mémoire.
Index Representation per Dimension	16-bit values	Choisi pour la deuxième étape de la recherche end-to-end pour gérer le compromis entre précision et espace.
Number of Layers in Encoders	12-layer BERT	Équilibre optimal entre la profondeur de la compréhension contextuelle et l'efficacité computationnelle.
Max Query Length	128	Le nombre maximum de tokens traités par l'encodeur de requêtes. Ceci est étendu dans le modèle Jina-ColBERT.
Max Document Length	512	Le nombre maximum de tokens traités par l'encodeur de documents. Ceci est étendu à 8192 dans le modèle Jina-ColBERT.

tagLa stratégie d'indexation de ColBERT

Contrairement aux approches basées sur la représentation qui encodent chaque document en un seul vecteur d'embedding, ColBERT encode les documents (et les requêtes) en ensembles d'embeddings, chaque token dans un document ayant son propre embedding. Cette approche signifie intrinsèquement que pour les documents plus longs, plus d'embeddings seront stockés, ce qui est un point faible du ColBERT original, et qui a été résolu plus tard par ColBERTv2.

La clé pour gérer cela efficacement réside dans l'utilisation par ColBERT d'une base de données vectorielle (par exemple FAISS) pour l'indexation et la recherche, et son processus d'indexation détaillé qui est conçu pour gérer efficacement de grands volumes de données. L'article original de ColBERT mentionne plusieurs stratégies pour améliorer l'efficacité de l'indexation et de la recherche, notamment :

Indexation hors ligne : Les représentations des documents sont calculées hors ligne, permettant le pré-calcul et le stockage des embeddings de documents. Ce processus utilise le traitement par lots et l'accélération GPU pour gérer efficacement de grandes collections de documents.
Stockage des embeddings : Les embeddings de documents peuvent être stockés en utilisant des valeurs 32-bit ou 16-bit pour chaque dimension, offrant un compromis entre précision et besoins en stockage. Cette flexibilité permet à ColBERT de maintenir un équilibre entre efficacité (en termes de performance de recherche) et efficience (en termes de coûts de stockage et de calcul).

L'introduction de la compression résiduelle dans ColBERTv2, qui est une approche novatrice non présente dans le ColBERT original, joue un rôle clé dans la réduction de l'empreinte spatiale du modèle de 6 à 10 fois tout en préservant la qualité. Cette technique compresse davantage les embeddings en capturant et stockant efficacement uniquement les différences par rapport à un ensemble de centroïdes de référence fixes.

tagEfficacité et performance de ColBERT

On pourrait initialement supposer que l'incorporation de la compréhension contextuelle profonde de BERT dans la recherche nécessiterait intrinsèquement des ressources computationnelles importantes, rendant une telle approche moins viable pour les applications en temps réel en raison de la latence et des coûts computationnels élevés. Cependant, ColBERT remet en question et renverse cette supposition grâce à son utilisation innovante du mécanisme d'interaction tardive. Voici quelques points notables :

Gains d'efficacité significatifs : ColBERT réalise une réduction des coûts computationnels (FLOPs) et de la latence de plusieurs ordres de grandeur par rapport aux modèles de classement traditionnels basés sur BERT. Plus précisément, pour une taille de modèle donnée (par exemple, encodeur transformer "base" à 12 couches), ColBERT non seulement égale mais dans certains cas dépasse l'efficacité des modèles basés sur BERT avec des demandes computationnelles nettement inférieures. Par exemple, pour une profondeur de reclassement de k=10, BERT nécessite près de 180× plus de FLOPs que ColBERT ; cet écart s'élargit à mesure que k augmente, atteignant 13900× à k=1000 et même 23000× à k=2000.
Amélioration du Recall et MRR@10 dans la recherche de bout en bout : Contrairement à l'intuition initiale selon laquelle une interaction plus profonde entre les représentations des requêtes et des documents (comme observé dans les modèles d'interaction précoce) serait nécessaire pour une performance de recherche élevée, la configuration de recherche de bout en bout de ColBERT démontre une efficacité supérieure. Par exemple, son Recall@50 dépasse le Recall@1000 du BM25 officiel et presque tous les Recall@200 des autres modèles, soulignant la capacité remarquable du modèle à retrouver des documents pertinents dans une vaste collection sans comparaison directe de chaque paire requête-document.
Praticité pour les applications du monde réel : Les résultats expérimentaux soulignent l'applicabilité pratique de ColBERT pour les scénarios du monde réel. Son débit d'indexation et son efficacité mémoire le rendent adapté à l'indexation de grandes collections de documents comme MS MARCO en quelques heures, maintenant une haute efficacité avec une empreinte spatiale gérable. Ces qualités soulignent l'adéquation de ColBERT pour le déploiement dans des environnements de production où la performance et l'efficacité computationnelle sont primordiales.
Scalabilité avec la taille de la collection de documents : La conclusion peut-être la plus surprenante est la scalabilité et l'efficacité de ColBERT dans la gestion de collections de documents à grande échelle. L'architecture permet le pré-calcul des embeddings de documents et exploite un traitement par lots efficace pour l'interaction requête-document, permettant au système de s'adapter efficacement à la taille de la collection de documents. Cette scalabilité est contre-intuitive lorsqu'on considère la complexité et la profondeur de compréhension requises pour une recherche de documents efficace, démontrant l'approche innovante de ColBERT pour équilibrer l'efficacité computationnelle et l'efficacité de la recherche.

tagUtilisation de jina-colbert-v1-en : un modèle ColBERTv2 avec une longueur de 8192

Jina-ColBERT est conçu pour une recherche à la fois rapide et précise, supportant des longueurs de contexte jusqu'à 8192, tirant parti des avancées de JinaBERT, qui permet le traitement de séquences plus longues grâce à ses améliorations architecturales.

💡

Strictement parlant, Jina-ColBERT supporte une longueur de 8190 tokens. Rappelons que dans l'encodeur de documents ColBERT, chaque document est complété avec [D],[CLS] au début.

tagLes améliorations de Jina par rapport au ColBERT original

La principale avancée de Jina-ColBERT est son architecture de base, jina-bert-v2-base-en, qui permet le traitement de contextes significativement plus longs (jusqu'à 8192 tokens) comparé au ColBERT original qui utilise bert-base-uncased. Cette capacité est cruciale pour gérer des documents avec un contenu extensif, fournissant des résultats de recherche plus détaillés et contextuels.

tagComparaison des performances de jina-colbert-v1-en vs. ColBERTv2

Nous avons évalué jina-colbert-v1-en sur les datasets BEIR et le nouveau benchmark LoCo qui favorise le contexte long, en le testant par rapport à l'implémentation originale de ColBERTv2 et aux modèles basés sur la non-interaction

modèle jina-embeddings-v2-base-en.

Dataset	ColBERTv2	jina-colbert-v1-en	jina-embeddings-v2-base-en
Arguana	46.5	49.4	44.0
Climate-Fever	18.1	19.6	23.5
DBPedia	45.2	41.3	35.1
FEVER	78.8	79.5	72.3
FiQA	35.4	36.8	41.6
HotpotQA	67.5	65.9	61.4
NFCorpus	33.7	33.8	32.5
NQ	56.1	54.9	60.4
Quora	85.5	82.3	88.2
SCIDOCS	15.4	16.9	19.9
SciFact	68.9	70.1	66.7
TREC-COVID	72.6	75.0	65.9
Webis-touch2020	26.0	27.0	26.2
LoCo	74.3	83.7	85.4
Moyenne	51.7	52.6	51.6

Ce tableau démontre les performances supérieures de jina-colbert-v1-en, particulièrement dans les scénarios nécessitant des longueurs de contexte plus importantes par rapport au ColBERTv2 original. Notez que jina-embeddings-v2-base-en utilise plus de données d'entraînement, tandis que jina-colbert-v1-en n'utilise que MSMARCO, ce qui peut justifier les bonnes performances de jina-embeddings-v2-base-en sur certaines tâches.

tagExemple d'utilisation de jina-colbert-v1-en

Cet extrait de code décrit le processus d'indexation avec Jina-ColBERT, mettant en évidence sa prise en charge des documents longs.

from colbert import Indexer
from colbert.infra import Run, RunConfig, ColBERTConfig

n_gpu: int = 1  # Set your number of available GPUs
experiment: str = ""  # Name of the folder where the logs and created indices will be stored
index_name: str = ""  # The name of your index, i.e. the name of your vector database

if __name__ == "__main__":
    with Run().context(RunConfig(nranks=n_gpu, experiment=experiment)):
        config = ColBERTConfig(
          doc_maxlen=8192  # Our model supports 8k context length for indexing long documents
        )
        indexer = Indexer(
          checkpoint="jinaai/jina-colbert-v1-en",
          config=config,
        )
        documents = [
          "ColBERT is an efficient and effective passage retrieval model.",
          "Jina-ColBERT is a ColBERT-style model but based on JinaBERT so it can support both 8k context length.",
          "JinaBERT is a BERT architecture that supports the symmetric bidirectional variant of ALiBi to allow longer sequence length.",
          "Jina-ColBERT model is trained on MSMARCO passage ranking dataset, following a very similar training procedure with ColBERTv2.",
          "Jina-ColBERT achieves the competitive retrieval performance with ColBERTv2.",
          "Jina is an easier way to build neural search systems.",
          "You can use Jina-ColBERT to build neural search systems with ease.",
          # Add more documents here to ensure the clustering work correctly
        ]
        indexer.index(name=index_name, collection=documents)

tagUtiliser jina-colbert-v1-en dans RAGatouille

RAGatouille est une nouvelle bibliothèque Python qui facilite l'utilisation de méthodes de recherche avancées dans les pipelines RAG. Elle est conçue pour être modulaire et facilement intégrable, permettant aux utilisateurs d'exploiter la recherche de pointe de manière transparente. L'objectif principal de RAGatouille est de simplifier l'application de modèles complexes comme ColBERT dans les pipelines RAG, rendant accessibles ces méthodes aux développeurs sans nécessiter une expertise approfondie de la recherche sous-jacente. Grâce à Benjamin Clavié, vous pouvez maintenant utiliser facilement jina-colbert-v1-en :

from ragatouille import RAGPretrainedModel

# Get your model & collection of big documents ready
RAG = RAGPretrainedModel.from_pretrained("jinaai/jina-colbert-v1-en")
my_documents = [
    "very long document1",
    "very long document2",
    # ... more documents
]

# And create an index with them at full length!
RAG.index(collection=my_documents,
          index_name="the_biggest_index",
          max_document_length=8190,)

# or encode them in-memory with no truncation, up to your model's max length
RAG.encode(my_documents)

Pour plus d'informations détaillées et pour explorer davantage Jina-ColBERT, vous pouvez visiter la page Hugging Face.

tagConclusion

ColBERT représente une avancée significative dans le domaine de la recherche d'information. En permettant des longueurs de contexte plus importantes avec Jina-ColBERT et en maintenant la compatibilité avec l'approche d'interaction tardive de ColBERT, il offre une alternative puissante pour les développeurs cherchant à implémenter des fonctionnalités de recherche à la pointe de la technologie.

Associé à la bibliothèque RAGatouille, qui simplifie l'intégration de modèles de recherche complexes dans les pipelines RAG, les développeurs peuvent désormais exploiter facilement la puissance de la recherche avancée, rationalisant leurs flux de travail et améliorant leurs applications. La synergie entre Jina-ColBERT et RAGatouille illustre un progrès remarquable dans l'accessibilité et l'efficacité des modèles de recherche IA avancés pour une utilisation pratique.