Jina Embeddings v4: 向量模型 (Embeddings) universali per il recupero multimodale multilingue

jina-embeddings-v4: Embedding universali per il recupero multilingue multimodale

Presentiamo jina-embeddings-v4, un modello di embedding multimodale da 3,8 miliardi di parametri che unifica le rappresentazioni di testo e immagini attraverso una nuova architettura che supporta sia gli embedding a vettore singolo che a più vettori nello stile di interazione tardiva. Il modello incorpora adattatori Low-Rank Adaptation (LoRA) specifici per attività per ottimizzare le prestazioni in diversi scenari di recupero, tra cui il recupero di informazioni basato su query, la somiglianza semantica cross-modale e la ricerca di codice di programmazione. Valutazioni complete dimostrano che jina-embeddings-v4 raggiunge prestazioni all'avanguardia sia in attività di recupero a modalità singola che cross-modale, con particolare forza nell'elaborazione di contenuti visivamente ricchi come tabelle, grafici, diagrammi e formati multimediali misti. Per facilitare la valutazione di questa capacità, introduciamo anche Jina-VDR, un nuovo benchmark progettato specificamente per il recupero di immagini visivamente ricche.

arXiv.orgMichael Günther

Oggi rilasciamo jina-embeddings-v4, il nostro nuovo modello di embedding universale da 3,8 miliardi di parametri per testo e immagini. Include un set di adattatori LoRA specifici per attività che ottimizzano le prestazioni per le attività di recupero più comuni, tra cui il recupero di query-documenti, la corrispondenza semantica e la ricerca di codice. jina-embeddings-v4 raggiunge prestazioni di recupero all'avanguardia su attività multimodali e multilingue su benchmark MTEB, MMTEB, CoIR, LongEmbed, STS, Jina-VDR, CLIP e ViDoRe, con particolare forza nell'elaborazione di contenuti visivamente ricchi come tabelle, grafici, diagrammi e loro combinazioni. Il modello supporta sia gli embedding a vettore singolo che a più vettori.

Prestazioni di jina-embeddings-v4 attraverso il recupero di documenti visivi e benchmark multimodali. Le distribuzioni del boxplot mostrano i punteggi medi e la variabilità delle prestazioni per i modelli di embedding in sei categorie di benchmark: ViDoRe (recupero di documenti visivi), Jina-VDR (recupero completo di documenti visivi), Wikimedia Commons Retrieval (corrispondenza multilingue documento-descrizione), GitHub README Retrieval (recupero della documentazione del codice), Tweet Stock Retrieval (analisi dei grafici finanziari) e CLIP Benchmark (recupero generale da testo a immagine). Le varianti di Jina-embeddings-v4 (evidenziate in ciano) dimostrano prestazioni all'avanguardia nelle attività di documenti visivamente ricchi, con la versione multi-vettore che raggiunge i punteggi più alti nei benchmark di documenti visivi specializzati (90,2 su ViDoRe, 80,2 su Jina-VDR), pur mantenendo prestazioni competitive nelle attività di recupero multimodale generale (84,1 su CLIP Benchmark). I modelli sono classificati in base alle prestazioni medie all'interno di ciascuna categoria di benchmark, con singoli punti dati che mostrano le distribuzioni dei punteggi in più attività di valutazione.

jina-embeddings-v4 è il nostro modello di embedding più ambizioso finora. In quanto modello open source, jina-embeddings-v4 supera i principali modelli di embedding closed source dei principali fornitori, offrendo prestazioni migliori del 12% rispetto a text-embedding-3-large di OpenAI nel recupero multilingue (66,49 contro 59,27), un miglioramento del 28% nelle attività di documenti lunghi (67,11 contro 52,42), un miglioramento del 15% rispetto a voyage-3 nel recupero di codice (71,59 contro 67,23) e prestazioni pari a gemini-embedding-001 di Google. Ciò rende v4 il modello di embedding universale open source più capace disponibile oggi, offrendo a ricercatori e sviluppatori funzionalità di embedding multimodale di livello aziendale con piena trasparenza nel processo di formazione, nelle decisioni architetturali e nei pesi del modello tramite la nostra relazione tecnica completa.

Prestazioni di jina-embeddings-v4 attraverso cinque benchmark di recupero. Il grafico mostra le distribuzioni del boxplot con i punteggi medi per ciascun modello nei benchmark di Text Retrieval, Code Retrieval, Multilingual Retrieval, Long Context Retrieval e Semantic Textual Similarity (STS). jina-embeddings-v4 (evidenziato in ciano) dimostra prestazioni competitive o all'avanguardia in tutte le categorie di valutazione, con risultati particolarmente solidi nel recupero di testo e STS. I modelli sono classificati in base alle prestazioni medie all'interno di ciascuna categoria di benchmark, con singoli punti dati che mostrano le distribuzioni dei punteggi in più attività di valutazione.

tagNuova Architettura

Architettura di jina-embeddings-v4. Il modello è basato sulla dorsale Qwen2.5-VL-3B-Instruct (3,8 miliardi di parametri). Gli input di testo e immagine vengono elaborati attraverso un percorso condiviso: le immagini vengono prima convertite in sequenze di token tramite un codificatore di visione, quindi entrambe le modalità vengono elaborate congiuntamente dal decodificatore del modello linguistico con livelli di attenzione contestuale. Tre adattatori LoRA specifici per attività (60 milioni di parametri ciascuno) forniscono un'ottimizzazione specializzata per le attività di recupero, corrispondenza del testo e codice senza modificare i pesi della dorsale bloccata. L'architettura supporta due modalità di output: (1) embedding a vettore singolo (2048 dimensioni, troncabili a 128) generati tramite mean pooling per una ricerca di somiglianza efficiente e (2) embedding a più vettori (128 dimensioni per token) tramite livelli di proiezione per strategie di recupero di interazione tardiva.

L'aggiornamento da jina-embeddings-v3 ajina-embeddings-v4 rappresenta un cambio di paradigma dagli 向量模型 (Embeddings) solo testuali a quelli multimodali. Mentre v3 si concentrava sull'ottimizzazione degli 向量模型 (Embeddings) di testo con adattatori LoRA specifici per attività, v4 affronta la crescente esigenza di incorporare sia contenuti testuali che visivi in rappresentazioni unificate.

Aspetto	<strong>jina-embeddings-v3</strong>	<strong>jina-embeddings-v4</strong>
Modello Backbone	jina-XLM-RoBERTa	Qwen2.5-VL-3B-Instruct
Parametri (Base)	559M	3.8B
Parametri (con adattatori)	572M	3.8B + 60M per adattatore
Modalità	Solo testo	Testo + Immagini (multimodale)
Lunghezza massima input	8.192 tokens (Token)	32.768 tokens (Token)
Elaborazione immagini	Nessuna	Fino a 20 megapixel, documenti visivamente ricchi
Supporto multilingue	89 lingue	29+ lingue
Tipi di vettore	Solo vettore singolo	Vettore singolo + Vettore multiplo (interazione tardiva)
Dimensioni vettore singolo	1024 (MRL troncabile a 32)	2048 (MRL troncabile a 128)
Dimensioni vettore multiplo	Non disponibile	128 per token (Token)
Specializzazioni LoRA per attività	• Recupero asimmetrico • Somiglianza semantica • Classificazione • Separazione	• Recupero asimmetrico • Somiglianza semantica • Recupero codice
Fasi di addestramento	3 fasi: Pre-addestramento → Ottimizzazione fine dell'incorporamento → Addestramento adattatore	2 fasi: Addestramento congiunto a coppie → Addestramento adattatore specifico per attività
Funzioni di perdita	InfoNCE, CoSent, Perdita a triplette estesa	InfoNCE congiunto + Divergenza KL per vettore singolo/multiplo
Codifica posizionale	RoPE (sintonizzazione della frequenza di base rotatoria)	M-RoPE (Incorporamento di posizione rotatoria multimodale)
Elaborazione cross-modale	N/A	Codificatore unificato (gap di modalità ridotto)
Supporto MRL	Sì	Sì
Implementazione dell'attenzione	FlashAttention2	FlashAttention2

tagBackbone

Il cambiamento architetturale più significativo in v4 è il cambiamento del backbone da XLM-RoBERTa a Qwen2.5-VL-3B-Instruct. Questa decisione è stata guidata dall'obiettivo principale di v4 di creare un modello di 向量模型 (Embeddings) universale che consenta la "vera elaborazione multimodale" in cui le immagini vengono convertite in sequenze di token (Token) ed elaborate insieme al testo, eliminando il divario di modalità presente nelle architetture a doppio codificatore.

La selezione del backbone si allinea a diversi obiettivi di progettazione chiave: l'eccellenza di Qwen2.5-VL nella comprensione dei documenti supporta direttamente la forza di v4 nell'elaborazione di contenuti visivamente ricchi come tabelle, grafici e screenshot. Le capacità di risoluzione dinamica consentono a v4 di gestire immagini ridimensionate a 20 megapixel come specificato nell'architettura. La codifica posizionale avanzata fornisce le basi che consentono a v4 di ottenere un allineamento cross-modale superiore con un punteggio di allineamento di 0,71 rispetto a 0,15 per OpenAI CLIP.

tagAdattatori LoRA

V4 semplifica le cinque attività di v3 a tre attività mirate, riflettendo le lezioni apprese sull'efficacia e l'adozione da parte degli utenti:

Recupero asimmetrico (consolidando gli adattatori di query/passaggio di v3)
Somiglianza simmetrica (l'equivalente di v3 per la corrispondenza del testo per le attività STS)
Recupero del codice (appreso da v2-code, mancante in v3)

Questo consolidamento rimuove gli adattatori di classificazione e separazione di v3, concentrando v4 sui casi d'uso di 向量模型 (Embeddings) di maggiore impatto: recupero e STS.

tagOutput 向量模型 (Embeddings)

V4 introduce un sistema a doppio output che supporta sia 向量模型 (Embeddings) a vettore singolo che a vettore multiplo, mentre v3 forniva solo output a vettore singolo. Questo affronta diversi scenari di recupero:

Modalità vettore singolo: 向量模型 (Embeddings) a 2048 dimensioni (troncabili a 128 tramite MRL) per una ricerca di similarità efficiente
Modalità vettore multiplo: 128 dimensioni per token (Token) per il recupero a interazione tardiva

Questo doppio approccio offre una maggiore efficacia con rappresentazioni a vettore multiplo, in particolare nel recupero di documenti visivamente ricchi, mantenendo al contempo l'efficienza per le attività di similarità standard. Il costante vantaggio in termini di prestazioni del 7-10% del vettore multiplo rispetto alla modalità vettore singolo nelle attività visive suggerisce che l'interazione tardiva fornisce una corrispondenza semantica fondamentalmente migliore per il contenuto multimodale.

tagDimensione dei parametri

Mentre v4 è 6,7 volte più grande di v3 (3,8 miliardi contro 570 milioni di parametri), i miglioramenti delle prestazioni solo testuali sono in realtà modesti, il che suggerisce che il ridimensionamento dei parametri è stato guidato principalmente dai requisiti multimodali piuttosto che dal miglioramento del testo. Sui benchmark di testo principali, v4 ottiene 66,49 su MMTEB rispetto al 58,58 di v3 (miglioramento del 14%) e 55,97 su MTEB-EN rispetto al 54,33 di v3 (miglioramento del 3%). Per il recupero del codice, v4 ottiene 71,59 su CoIR rispetto al 55,07 di v3 (miglioramento del 30%), mentre le prestazioni sui documenti lunghi mostrano v4 a 67,11 rispetto al 55,66 di v3 su LongEmbed (miglioramento del 21%). Il ridimensionamento sostanziale diventa giustificato quando si considerano le capacità multimodali di v4: ottenendo 84,11 nDCG@5 sul recupero di documenti visivi (Jina-VDR) e 90,17 sui benchmark ViDoRe, capacità completamente assenti in v3. L'aumento dei parametri rappresenta quindi il nostro investimento nella funzionalità multimodale mantenendo al contempo prestazioni di testo competitive, con l'architettura unificata che elimina la necessità di modelli di testo e visione separati ottenendo al contempo un allineamento cross-modale di 0,71 rispetto a 0,15 per i tradizionali approcci a doppio codificatore.

tagIniziare

Per un rapido controllo delle vibrazioni, prova la nostra demo da testo a immagine nella casella degli strumenti di Search Foundation. Abbiamo preparato una raccolta di immagini di documenti dal nostro sito Web e puoi anche aggiungere i tuoi URL di immagini. Digita semplicemente la tua query e premi invio per visualizzare i risultati classificati. Puoi ritirarlo come OCR o recupero di immagini basato sul contenuto: sentiti libero di provare query anche in lingue diverse dall'inglese.

0:00

/0:22

La demo è disponibile all'indirizzo: https://jina.ai/api-dashboard/m0-image-rerank Tieni presente che l'utilizzo di questa demo consumerà i tokens (Token) della tua chiave API principale. Inoltre, la demo potrebbe sembrare un po' lenta poiché deve scaricare tutte le immagini sul server da quegli URL e nessuna cache è implementata per le immagini.

tagTramite API

Il codice seguente mostra come utilizzare jina-embeddings-v4. Puoi passare una stringa di testo, un'immagine con codifica base64 o un URL di immagine. I nuovi utenti possono ottenere una chiave API Jina con 10 milioni di tokens (Token) gratuiti.

curl https://api.jina.ai/v1/embeddings \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer JINA_API_KEY" \
  -d @- <<EOFEOF
  {
    "model": "jina-embeddings-v4",
    "task": "text-matching",
    "input": [
        {
            "text": "A beautiful sunset over the beach"
        },
        {
            "text": "Un beau coucher de soleil sur la plage"
        },
        {
            "text": "海滩上美丽的日落"
        },
        {
            "text": "浜辺に沈む美しい夕日"
        },
        {
            "image": "https://i.ibb.co/nQNGqL0/beach1.jpg"
        },
        {
            "image": "https://i.ibb.co/r5w8hG8/beach2.jpg"
        },
        {
            "image": "iVBORw0KGgoAAAANSUhEUgAAABwAAAA4CAIAAABhUg/jAAAAMklEQVR4nO3MQREAMAgAoLkoFreTiSzhy4MARGe9bX99lEqlUqlUKpVKpVKpVCqVHksHaBwCA2cPf0cAAAAASUVORK5CYII="
        }
    ]
  }
EOFEOF

A causa delle limitate risorse GPU, la nostra API di 向量模型 (Embeddings) attualmente supporta documenti fino a 8.000 词元 (tokens) di lunghezza, nonostante la capacità nativa di jina-embeddings-v4 di gestire fino a 32.000 词元 (tokens). Per le applicazioni che richiedono contesti più lunghi oltre 8.000 词元 (tokens) (come Late Chunking), consigliamo di distribuire i nostri modelli tramite CSP o di auto-ospitare il modello.

tagTramite i marketplace CSP

jina-embeddings-v4 sarà presto disponibile direttamente su AWS, Azure e GCP ai prezzi lì indicati.

tagTramite HuggingFace

Per scopi di ricerca e sperimentazione, è possibile utilizzare il modello localmente dalla nostra pagina Hugging Face. Abbiamo preparato un notebook di Google Colab che dimostra come funziona.

tagConclusione

jina-embeddings-v4 rappresenta il nostro salto in avanti più significativo: un modello di 向量模型 (Embedding) universale da 3,8 miliardi di parametri che elabora testo e immagini attraverso un percorso unificato, supportando sia il recupero denso che quello a interazione tardiva, superando i modelli proprietari di Google, OpenAI e Voyage AI, soprattutto nel recupero di documenti visivamente ricchi. Ma questa capacità non è emersa isolatamente; è il culmine di quattro generazioni di risoluzione di limitazioni fondamentali.

Quando abbiamo iniziato con jina-embeddings-v1 all'inizio del 2022, tutti presumevano che più dati significassero prestazioni migliori. Abbiamo dimostrato il contrario: filtrare 1,5 miliardi di coppie fino a 385 milioni di esempi di alta qualità ha superato di gran lunga set di dati molto più grandi. La lezione: la cura batte la raccolta.

Jina Embeddings: A Novel Set of High-Performance Sentence Embedding Models

Jina Embeddings costituisce un insieme di modelli di 向量模型 (Embedding) di frasi ad alte prestazioni, in grado di tradurre gli input testuali in rappresentazioni numeriche, catturando la semantica del testo. Questi modelli eccellono in applicazioni come il recupero denso e la similarità semantica del testo. Questo documento descrive in dettaglio lo sviluppo di Jina Embeddings, a partire dalla creazione di set di dati a coppie e terzine di alta qualità. Sottolinea il ruolo cruciale della pulizia dei dati nella preparazione del set di dati, offre approfondimenti sul processo di training del modello e si conclude con una valutazione completa delle prestazioni utilizzando il Massive Text Embedding Benchmark (MTEB). Inoltre, per aumentare la consapevolezza del modello della negazione grammaticale, costruiamo un nuovo set di dati di training e valutazione di affermazioni negate e non negate, che mettiamo a disposizione del pubblico.

arXiv.orgMichael Günther

Ma gli utenti continuavano a sbattere contro il muro dei 512 词元 (tokens) di BERT. L'addestramento su sequenze più lunghe sembrava costoso, finché jina-embeddings-v2 non ha rivelato una soluzione elegante: addestrare in breve, distribuire in lungo. I bias di attenzione lineare di ALiBi consentono ai modelli addestrati su 512 词元 (tokens) di gestire senza problemi 8.192 词元 (tokens) in fase di inferenza. Abbiamo ottenuto più capacità con meno calcolo.

Jina Embeddings 2: 8192-Token General-Purpose Text Embeddings for Long Documents

I modelli di 向量模型 (Embedding) di testo sono emersi come potenti strumenti per trasformare le frasi in vettori di caratteristiche di dimensione fissa che incapsulano le informazioni semantiche. Sebbene questi modelli siano essenziali per attività come il recupero di informazioni, il clustering semantico e il 重排器 (re-ranking) di testo, la maggior parte dei modelli open-source esistenti, in particolare quelli basati su architetture come BERT, faticano a rappresentare documenti lunghi e spesso ricorrono al troncamento. Un approccio comune per mitigare questa sfida prevede la suddivisione dei documenti in paragrafi più piccoli per l'向量模型 (Embedding). Tuttavia, questa strategia si traduce in un set di vettori molto più grande, con conseguente aumento del consumo di memoria e ricerche vettoriali computazionalmente intensive con latenza elevata. Per affrontare queste sfide, presentiamo Jina Embeddings 2, un modello di 向量模型 (Embedding) di testo open-source in grado di ospitare fino a 8192 词元 (tokens). Questo modello è progettato per trascendere il convenzionale limite di 512 词元 (tokens) e per elaborare abilmente documenti lunghi. Jina Embeddings 2 non solo ottiene prestazioni all'avanguardia su una gamma di attività correlate all'向量模型 (Embedding) nel benchmark MTEB, ma corrisponde anche alle prestazioni del modello proprietario ada-002 di OpenAI. Inoltre, i nostri esperimenti indicano che un contesto esteso può migliorare le prestazioni in attività come NarrativeQA.

arXiv.orgMichael Günther

Il successo di jina-embeddings-v2 ha esposto un altro vincolo: attività diverse necessitavano di ottimizzazioni diverse. Invece di costruire modelli separati, jina-embeddings-v3 ha utilizzato piccoli adattatori LoRA da 60 milioni per personalizzare un modello di base da 570 milioni per qualsiasi attività. Un modello è diventato cinque modelli specializzati.

jina-embeddings-v3: Multilingual Embeddings With Task LoRA

Presentiamo jina-embeddings-v3, un nuovo modello di 向量模型 (Embedding) di testo con 570 milioni di parametri, che raggiunge prestazioni all'avanguardia sui dati multilingue e sulle attività di recupero di contesti lunghi, supportando lunghezze di contesto fino a 8192 词元 (tokens). Il modello include un set di adattatori Low-Rank Adaptation (LoRA) specifici per attività per generare 向量模型 (Embedding) di alta qualità per il recupero di query-documenti, il clustering, la classificazione e la corrispondenza del testo. La valutazione sul benchmark MTEB mostra che jina-embeddings-v3 supera gli ultimi 向量模型 (Embedding) proprietari di OpenAI e Cohere su attività in inglese, raggiungendo al contempo prestazioni superiori rispetto a multilingual-e5-large-instruct su tutte le attività multilingue. Con una dimensione di output predefinita di 1024, gli utenti possono ridurre in modo flessibile le dimensioni dell'向量模型 (Embedding) fino a 32 senza compromettere le prestazioni, grazie all'apprendimento della rappresentazione di Matryoshka.

arXiv.orgSaba Sturua

Anche con la specializzazione per attività, siamo rimasti solo testuali, mentre gli utenti avevano bisogno di comprensione visiva. I modelli standard basati su CLIP come jina-clip-v1 e jina-clip-v2 utilizzano codificatori separati, creando un "divario di modalità" in cui contenuti simili in formati diversi finiscono per essere molto distanti. Come il nostro jina-reranker-m0 rilasciato di recente, jina-embeddings-v4 ha eliminato completamente questo divario: un unico percorso unificato elabora tutto, rimuovendo il divario invece di colmarlo.

jina-embeddings-v4: Universal Embeddings for Multimodal Multilingual Retrieval

Presentiamo jina-embeddings-v4, un modello di 向量模型 (Embedding) multimodale da 3,8 miliardi di parametri che unifica le rappresentazioni di testo e immagini attraverso una nuova architettura che supporta sia l'向量模型 (Embedding) a vettore singolo che a vettore multiplo nello stile a interazione tardiva. Il modello incorpora adattatori Low-Rank Adaptation (LoRA) specifici per attività per ottimizzare le prestazioni in diversi scenari di recupero, tra cui il recupero di informazioni basato su query, la similarità semantica cross-modale e la ricerca di codice di programmazione. Valutazioni complete dimostrano che jina-embeddings-v4 raggiunge prestazioni all'avanguardia sia su attività di recupero a modalità singola che cross-modale, con particolare forza nell'elaborazione di contenuti visivamente ricchi come tabelle, grafici, diagrammi e formati multimediali misti. Per facilitare la valutazione di questa capacità, presentiamo anche Jina-VDR, un nuovo benchmark progettato specificamente per il recupero di immagini visivamente ricche.

arXiv.orgMichael Günther

Sia jina-embeddings-v4 che jina-reranker-m0 condividono un cambiamento fondamentale: l'utilizzo di 大模型 (LLM) come backbone invece di modelli solo encoder. Questo non è casuale: riflette un profondo vantaggio che la maggior parte delle persone ignora: i modelli solo encoder creano "divari di modalità" in cui le immagini si raggruppano separatamente dal testo. I modelli solo decoder aprono possibilità che non erano realizzabili con architetture solo encoder, tra cui la vera rappresentazione a modalità mista e la spiegabilità.

{{{output start}}}

La nostra intuizione chiave: sia gli "向量模型 (Embeddings)" che la generazione riguardano la comprensione della semantica. I "大模型 (LLM)" che eccellono nella generazione eccellono naturalmente nella rappresentazione. Crediamo che il futuro risieda in architetture unificate in cui gli "向量模型 (Embedding)" e il "重排器 (Reranker)" emergono dallo stesso modello di base di ricerca—ed è esattamente ciò verso cui Jina AI sta costruendo.