Notizia
Modelli
Prodotti
keyboard_arrow_down
Lettore
Leggi gli URL e cerca sul web per ottenere LLM più approfonditi.
Incorporamenti
Incorporamenti multilingue multimodali di livello mondiale.
Riclassificazione
Recupero neurale di livello mondiale per massimizzare la pertinenza della ricerca.
Ricerca profonda
Cerca, leggi e ragiona finché non trovi la risposta migliore.
Di più
keyboard_arrow_down
Classificatore
Classificazione zero-shot e few-shot per immagini e testo.
Segmentatore
Tagliare il testo lungo in blocchi ed effettuare la tokenizzazione.

Documentazione API
Generazione automatica di codice per il tuo IDE o LLM di Copilot
open_in_new


Azienda
keyboard_arrow_down
Chi siamo
Contatta le vendite
Programma di stagista
Unisciti a noi
open_in_new
Scarica il logo
open_in_new
Termini & Condizioni


Login
login
copyright

jina-colbert-v2

Il miglior ColBERT multilingue con le massime prestazioni nell'incorporamento e nella riclassificazione
Pubblicazione postarrow_forward
Licenza
copyright
CC-BY-NC-4.0
Data di rilascio
calendar_month
2024-08-31
Ingresso
abc
Testo
arrow_forward
Produzione
apps
Multi-vettore
Dettagli del modello
Parametri: 560M
Lunghezza del token di input: 8K
Dimensione di uscita: 128
Supporto linguistico
🌍 Supporto multilingue
Modelli correlati
link
jina-colbert-v1-en
Etichette
multilingual
late-interaction
long-context
high-performance
production-ready
retriever
token-level
89-languages
cross-lingual
matryoshka
storage-efficient
Disponibile tramite
API di JinaLicenza commercialeAWS SageMakerMicrosoft AzureGoogle CloudFaccia abbracciata
Grafico I/O 1
Grafico I/O 2
Scegli i modelli da confrontare
Pubblicazioni (1)
EMNLP 2024
agosto 30, 2024
Jina-ColBERT-v2: A General-Purpose Multilingual Late Interaction Retriever

Panoramica

Jina-ColBERT-v2 è un modello di recupero di informazioni multilingue rivoluzionario che risolve la sfida critica di una ricerca efficiente e di alta qualità in più lingue. Come primo modello multilingue simile a ColBERT a generare incorporamenti compatti, risponde alla crescente necessità di soluzioni di ricerca multilingue scalabili e convenienti nelle applicazioni globali. Le organizzazioni che si occupano di contenuti multilingue, dalle piattaforme di e-commerce ai sistemi di gestione dei contenuti, possono sfruttare questo modello per fornire risultati di ricerca accurati in 89 lingue, riducendo significativamente i costi di archiviazione e di elaborazione attraverso le sue innovative capacità di riduzione delle dimensioni.

Metodi

Il modello si basa sull'architettura ColBERT, introducendo un sofisticato meccanismo di interazione tardiva che cambia radicalmente il modo in cui vengono abbinate query e documenti. Al suo interno, utilizza un backbone XLM-RoBERTa modificato con 560M di parametri, potenziato da incorporamenti di posizione rotativa e ottimizzato con attenzione flash. Il processo di addestramento prevede due fasi chiave: pre-addestramento iniziale con diversi dati debolmente supervisionati da varie lingue, seguito da una messa a punto con dati di triplette etichettati e distillazione supervisionata. Ciò che rende unico questo approccio è l'implementazione dell'apprendimento della rappresentazione Matryoshka, che consente al modello di produrre incorporamenti in più dimensioni (128, 96 o 64) da un singolo processo di addestramento, consentendo l'ottimizzazione dinamica dell'archiviazione senza riaddestramento.

Prestazione

Nei test nel mondo reale, Jina-ColBERT-v2 dimostra capacità eccezionali in più benchmark. Raggiunge un miglioramento del 6,5% rispetto al ColBERT-v2 originale nelle attività in inglese, con un punteggio medio di 0,521 in 14 benchmark BEIR. Ancora più impressionante, supera i tradizionali metodi di recupero basati su BM25 in tutte le lingue testate nei benchmark MIRACL, dimostrando una particolare forza negli scenari multilinguistici. Il modello mantiene queste elevate prestazioni anche quando si utilizzano dimensioni di incorporamento ridotte: il passaggio da 128 a 64 dimensioni comporta solo una riduzione delle prestazioni dell'1,5%, dimezzando al contempo i requisiti di archiviazione. Ciò si traduce in significativi risparmi sui costi di produzione: ad esempio, l'archiviazione di 100 milioni di documenti con vettori a 64 dimensioni costa $ 659,62 al mese su AWS, rispetto a $ 1.319,24 per 128 dimensioni.

Orientamento

Per distribuire efficacemente Jina-ColBERT-v2, i team devono considerare diversi aspetti pratici. Il modello richiede hardware compatibile con CUDA per prestazioni ottimali e supporta lunghezze di documenti fino a 8.192 token (estendibili a 12.288) limitando le query a 32 token. Per la distribuzione in produzione, il modello è disponibile tramite l'API Jina Search Foundation, AWS Marketplace e Azure, con una versione non commerciale accessibile tramite Hugging Face. Durante l'implementazione, i team devono specificare se stanno incorporando query o documenti, poiché il modello utilizza la codifica asimmetrica. Il modello non è progettato per l'elaborazione in tempo reale di raccolte di documenti estremamente grandi senza un'indicizzazione adeguata e, sebbene eccella nel recupero multilingue, potrebbe mostrare prestazioni leggermente inferiori su attività specifiche di dominio specializzate rispetto ai modelli ottimizzati per quei domini specifici.
Blog che menzionano questo modello
dicembre 16, 2024 • 2 minuti letti
Re·Search: Order 2024 Annuario dei Progressi della Fondazione per la Ricerca
Scopri Re·Search, il nostro esclusivo annuario che presenta i nostri migliori articoli di ricerca e modelli di ricerca fondamentali del 2024. Con copertina rigida rifinita in UV spot, 160 pagine a colori e design meticoloso in ogni dettaglio. Disponibile in tutto il mondo a $35, spedizione inclusa.
Jina AI
Open red publication "ReSearch" volume 24 displayed on a white surface with a distinctive shadow casting over the pages.
ottobre 29, 2024 • 11 minuti letti
Oltre CLIP: Come Jina-CLIP fa progredire la ricerca multimodale
Scopri come Jina-CLIP migliora CLIP di OpenAI con una maggiore accuratezza nel recupero e risultati più diversificati attraverso embedding unificati di testo e immagini.
Bo Wang
Alex C-G
Abstract digital landscape with wave-like green and pink dunes against a dark background, conveying a tranquil atmosphere.
agosto 30, 2024 • 10 minuti letti
ColBERT v2 di Jina: Retriever di interazione tardiva multilingue per embedding e reranking
Jina ColBERT v2 supporta 89 lingue con prestazioni di recupero superiori, dimensioni di output controllate dall'utente e una lunghezza di token di 8192.
Jina AI
Dark-themed coding interface displaying English and Japanese characters with "JINA COLBERT V2" highlighted in the center.
febbraio 20, 2024 • 16 minuti letti
Cosa sono ColBERT e Late Interaction e perché sono importanti nella ricerca?
ColBERT di Jina AI su Hugging Face sta facendo parlare molto su Twitter, portando una nuova prospettiva alla ricerca con la sua capacità di gestire 8192 token. Questo articolo analizza le sfumature di ColBERT e ColBERTv2, mostrando i loro design innovativi e spiegando perché la loro funzionalità di interazione tardiva rappresenta una svolta rivoluzionaria per la ricerca.
Han Xiao
Neon theater or concert hall marquee letters lit up at night with city lights and faint "Adobe Sto" visible.
Uffici
location_on
Sunnyvale, California
710 Lakeway Dr, Ste 200, Sunnyvale, CA 94085, Stati Uniti
location_on
Berlino, Germania (sede centrale)
Prinzessinnenstraße 19-20, 10969 Berlino, Germania
location_on
Pechino, Cina
Livello 5, Edificio 6, No.48 Haidian West St. Pechino, Cina
location_on
Shenzen, Cina
402 Piano 4, Fu'an Technology Building, Shenzhen, Cina
Fondazione di ricerca
Lettore
Incorporamenti
Riclassificazione
Ricerca profonda
Classificatore
Segmentatore
Documentazione API
Ottieni la chiave API Jina
Limite di velocità
Stato dell'API
Azienda
Chi siamo
Contatta le vendite
Sala stampa
Programma di stagista
Unisciti a noi
open_in_new
Scarica il logo
open_in_new
Termini
Sicurezza
Termini & Condizioni
Privacy
Gestisci i cookie
email
Jina AI © 2020-2025.