


Oggi rilasciamo jina-embeddings-v4, il nostro nuovo modello di embedding universale da 3,8 miliardi di parametri per testo e immagini. Include un set di adattatori LoRA specifici per attività che ottimizzano le prestazioni per le attività di recupero più comuni, tra cui il recupero di query-documenti, la corrispondenza semantica e la ricerca di codice. jina-embeddings-v4 raggiunge prestazioni di recupero all'avanguardia su attività multimodali e multilingue su benchmark MTEB, MMTEB, CoIR, LongEmbed, STS, Jina-VDR, CLIP e ViDoRe, con particolare forza nell'elaborazione di contenuti visivamente ricchi come tabelle, grafici, diagrammi e loro combinazioni. Il modello supporta sia gli embedding a vettore singolo che a più vettori.

jina-embeddings-v4 è il nostro modello di embedding più ambizioso finora. In quanto modello open source, jina-embeddings-v4 supera i principali modelli di embedding closed source dei principali fornitori, offrendo prestazioni migliori del 12% rispetto a text-embedding-3-large
di OpenAI nel recupero multilingue (66,49 contro 59,27), un miglioramento del 28% nelle attività di documenti lunghi (67,11 contro 52,42), un miglioramento del 15% rispetto a voyage-3
nel recupero di codice (71,59 contro 67,23) e prestazioni pari a gemini-embedding-001
di Google. Ciò rende v4 il modello di embedding universale open source più capace disponibile oggi, offrendo a ricercatori e sviluppatori funzionalità di embedding multimodale di livello aziendale con piena trasparenza nel processo di formazione, nelle decisioni architetturali e nei pesi del modello tramite la nostra relazione tecnica completa.

tagNuova Architettura
Qwen2.5-VL-3B-Instruct
(3,8 miliardi di parametri). Gli input di testo e immagine vengono elaborati attraverso un percorso condiviso: le immagini vengono prima convertite in sequenze di token tramite un codificatore di visione, quindi entrambe le modalità vengono elaborate congiuntamente dal decodificatore del modello linguistico con livelli di attenzione contestuale. Tre adattatori LoRA specifici per attività (60 milioni di parametri ciascuno) forniscono un'ottimizzazione specializzata per le attività di recupero, corrispondenza del testo e codice senza modificare i pesi della dorsale bloccata. L'architettura supporta due modalità di output: (1) embedding a vettore singolo (2048 dimensioni, troncabili a 128) generati tramite mean pooling per una ricerca di somiglianza efficiente e (2) embedding a più vettori (128 dimensioni per token) tramite livelli di proiezione per strategie di recupero di interazione tardiva.L'aggiornamento da jina-embeddings-v3 ajina-embeddings-v4 rappresenta un cambio di paradigma dagli 向量模型 (Embeddings) solo testuali a quelli multimodali. Mentre v3 si concentrava sull'ottimizzazione degli 向量模型 (Embeddings) di testo con adattatori LoRA specifici per attività, v4 affronta la crescente esigenza di incorporare sia contenuti testuali che visivi in rappresentazioni unificate.
Aspetto | <strong>jina-embeddings-v3</strong> | <strong>jina-embeddings-v4</strong> |
---|---|---|
Modello Backbone | jina-XLM-RoBERTa | Qwen2.5-VL-3B-Instruct |
Parametri (Base) | 559M | 3.8B |
Parametri (con adattatori) | 572M | 3.8B + 60M per adattatore |
Modalità | Solo testo | Testo + Immagini (multimodale) |
Lunghezza massima input | 8.192 tokens (Token) | 32.768 tokens (Token) |
Elaborazione immagini | Nessuna | Fino a 20 megapixel, documenti visivamente ricchi |
Supporto multilingue | 89 lingue | 29+ lingue |
Tipi di vettore | Solo vettore singolo | Vettore singolo + Vettore multiplo (interazione tardiva) |
Dimensioni vettore singolo | 1024 (MRL troncabile a 32) | 2048 (MRL troncabile a 128) |
Dimensioni vettore multiplo | Non disponibile | 128 per token (Token) |
Specializzazioni LoRA per attività | • Recupero asimmetrico • Somiglianza semantica • Classificazione • Separazione |
• Recupero asimmetrico • Somiglianza semantica • Recupero codice |
Fasi di addestramento | 3 fasi: Pre-addestramento → Ottimizzazione fine dell'incorporamento → Addestramento adattatore | 2 fasi: Addestramento congiunto a coppie → Addestramento adattatore specifico per attività |
Funzioni di perdita | InfoNCE, CoSent, Perdita a triplette estesa | InfoNCE congiunto + Divergenza KL per vettore singolo/multiplo |
Codifica posizionale | RoPE (sintonizzazione della frequenza di base rotatoria) | M-RoPE (Incorporamento di posizione rotatoria multimodale) |
Elaborazione cross-modale | N/A | Codificatore unificato (gap di modalità ridotto) |
Supporto MRL | Sì | Sì |
Implementazione dell'attenzione | FlashAttention2 | FlashAttention2 |
tagBackbone
Il cambiamento architetturale più significativo in v4 è il cambiamento del backbone da XLM-RoBERTa
a Qwen2.5-VL-3B-Instruct
. Questa decisione è stata guidata dall'obiettivo principale di v4 di creare un modello di 向量模型 (Embeddings) universale che consenta la "vera elaborazione multimodale" in cui le immagini vengono convertite in sequenze di token (Token) ed elaborate insieme al testo, eliminando il divario di modalità presente nelle architetture a doppio codificatore.
La selezione del backbone si allinea a diversi obiettivi di progettazione chiave: l'eccellenza di Qwen2.5-VL nella comprensione dei documenti supporta direttamente la forza di v4 nell'elaborazione di contenuti visivamente ricchi come tabelle, grafici e screenshot. Le capacità di risoluzione dinamica consentono a v4 di gestire immagini ridimensionate a 20 megapixel come specificato nell'architettura. La codifica posizionale avanzata fornisce le basi che consentono a v4 di ottenere un allineamento cross-modale superiore con un punteggio di allineamento di 0,71 rispetto a 0,15 per OpenAI CLIP.
tagAdattatori LoRA
V4 semplifica le cinque attività di v3 a tre attività mirate, riflettendo le lezioni apprese sull'efficacia e l'adozione da parte degli utenti:
- Recupero asimmetrico (consolidando gli adattatori di query/passaggio di v3)
- Somiglianza simmetrica (l'equivalente di v3 per la corrispondenza del testo per le attività STS)
- Recupero del codice (appreso da v2-code, mancante in v3)
Questo consolidamento rimuove gli adattatori di classificazione e separazione di v3, concentrando v4 sui casi d'uso di 向量模型 (Embeddings) di maggiore impatto: recupero e STS.
tagOutput 向量模型 (Embeddings)
V4 introduce un sistema a doppio output che supporta sia 向量模型 (Embeddings) a vettore singolo che a vettore multiplo, mentre v3 forniva solo output a vettore singolo. Questo affronta diversi scenari di recupero:
- Modalità vettore singolo: 向量模型 (Embeddings) a 2048 dimensioni (troncabili a 128 tramite MRL) per una ricerca di similarità efficiente
- Modalità vettore multiplo: 128 dimensioni per token (Token) per il recupero a interazione tardiva
Questo doppio approccio offre una maggiore efficacia con rappresentazioni a vettore multiplo, in particolare nel recupero di documenti visivamente ricchi, mantenendo al contempo l'efficienza per le attività di similarità standard. Il costante vantaggio in termini di prestazioni del 7-10% del vettore multiplo rispetto alla modalità vettore singolo nelle attività visive suggerisce che l'interazione tardiva fornisce una corrispondenza semantica fondamentalmente migliore per il contenuto multimodale.
tagDimensione dei parametri
Mentre v4 è 6,7 volte più grande di v3 (3,8 miliardi contro 570 milioni di parametri), i miglioramenti delle prestazioni solo testuali sono in realtà modesti, il che suggerisce che il ridimensionamento dei parametri è stato guidato principalmente dai requisiti multimodali piuttosto che dal miglioramento del testo. Sui benchmark di testo principali, v4 ottiene 66,49 su MMTEB rispetto al 58,58 di v3 (miglioramento del 14%) e 55,97 su MTEB-EN rispetto al 54,33 di v3 (miglioramento del 3%). Per il recupero del codice, v4 ottiene 71,59 su CoIR rispetto al 55,07 di v3 (miglioramento del 30%), mentre le prestazioni sui documenti lunghi mostrano v4 a 67,11 rispetto al 55,66 di v3 su LongEmbed (miglioramento del 21%). Il ridimensionamento sostanziale diventa giustificato quando si considerano le capacità multimodali di v4: ottenendo 84,11 nDCG@5 sul recupero di documenti visivi (Jina-VDR) e 90,17 sui benchmark ViDoRe, capacità completamente assenti in v3. L'aumento dei parametri rappresenta quindi il nostro investimento nella funzionalità multimodale mantenendo al contempo prestazioni di testo competitive, con l'architettura unificata che elimina la necessità di modelli di testo e visione separati ottenendo al contempo un allineamento cross-modale di 0,71 rispetto a 0,15 per i tradizionali approcci a doppio codificatore.
tagIniziare
Per un rapido controllo delle vibrazioni, prova la nostra demo da testo a immagine nella casella degli strumenti di Search Foundation. Abbiamo preparato una raccolta di immagini di documenti dal nostro sito Web e puoi anche aggiungere i tuoi URL di immagini. Digita semplicemente la tua query e premi invio per visualizzare i risultati classificati. Puoi ritirarlo come OCR o recupero di immagini basato sul contenuto: sentiti libero di provare query anche in lingue diverse dall'inglese.
La demo è disponibile all'indirizzo: https://jina.ai/api-dashboard/m0-image-rerank Tieni presente che l'utilizzo di questa demo consumerà i tokens (Token) della tua chiave API principale. Inoltre, la demo potrebbe sembrare un po' lenta poiché deve scaricare tutte le immagini sul server da quegli URL e nessuna cache è implementata per le immagini.
tagTramite API
Il codice seguente mostra come utilizzare jina-embeddings-v4. Puoi passare una stringa di testo, un'immagine con codifica base64 o un URL di immagine. I nuovi utenti possono ottenere una chiave API Jina con 10 milioni di tokens (Token) gratuiti.
curl https://api.jina.ai/v1/embeddings \
-H "Content-Type: application/json" \
-H "Authorization: Bearer JINA_API_KEY" \
-d @- <<EOFEOF
{
"model": "jina-embeddings-v4",
"task": "text-matching",
"input": [
{
"text": "A beautiful sunset over the beach"
},
{
"text": "Un beau coucher de soleil sur la plage"
},
{
"text": "海滩上美丽的日落"
},
{
"text": "浜辺に沈む美しい夕日"
},
{
"image": "https://i.ibb.co/nQNGqL0/beach1.jpg"
},
{
"image": "https://i.ibb.co/r5w8hG8/beach2.jpg"
},
{
"image": "iVBORw0KGgoAAAANSUhEUgAAABwAAAA4CAIAAABhUg/jAAAAMklEQVR4nO3MQREAMAgAoLkoFreTiSzhy4MARGe9bX99lEqlUqlUKpVKpVKpVCqVHksHaBwCA2cPf0cAAAAASUVORK5CYII="
}
]
}
EOFEOF
A causa delle limitate risorse GPU, la nostra API di 向量模型 (Embeddings) attualmente supporta documenti fino a 8.000 词元 (tokens) di lunghezza, nonostante la capacità nativa di jina-embeddings-v4 di gestire fino a 32.000 词元 (tokens). Per le applicazioni che richiedono contesti più lunghi oltre 8.000 词元 (tokens) (come Late Chunking), consigliamo di distribuire i nostri modelli tramite CSP o di auto-ospitare il modello.
tagTramite i marketplace CSP
jina-embeddings-v4 sarà presto disponibile direttamente su AWS, Azure e GCP ai prezzi lì indicati.
tagTramite HuggingFace
Per scopi di ricerca e sperimentazione, è possibile utilizzare il modello localmente dalla nostra pagina Hugging Face. Abbiamo preparato un notebook di Google Colab che dimostra come funziona.

tagConclusione
jina-embeddings-v4 rappresenta il nostro salto in avanti più significativo: un modello di 向量模型 (Embedding) universale da 3,8 miliardi di parametri che elabora testo e immagini attraverso un percorso unificato, supportando sia il recupero denso che quello a interazione tardiva, superando i modelli proprietari di Google, OpenAI e Voyage AI, soprattutto nel recupero di documenti visivamente ricchi. Ma questa capacità non è emersa isolatamente; è il culmine di quattro generazioni di risoluzione di limitazioni fondamentali.
Quando abbiamo iniziato con jina-embeddings-v1
all'inizio del 2022, tutti presumevano che più dati significassero prestazioni migliori. Abbiamo dimostrato il contrario: filtrare 1,5 miliardi di coppie fino a 385 milioni di esempi di alta qualità ha superato di gran lunga set di dati molto più grandi. La lezione: la cura batte la raccolta.

Ma gli utenti continuavano a sbattere contro il muro dei 512 词元 (tokens) di BERT. L'addestramento su sequenze più lunghe sembrava costoso, finché jina-embeddings-v2
non ha rivelato una soluzione elegante: addestrare in breve, distribuire in lungo. I bias di attenzione lineare di ALiBi consentono ai modelli addestrati su 512 词元 (tokens) di gestire senza problemi 8.192 词元 (tokens) in fase di inferenza. Abbiamo ottenuto più capacità con meno calcolo.

Il successo di jina-embeddings-v2
ha esposto un altro vincolo: attività diverse necessitavano di ottimizzazioni diverse. Invece di costruire modelli separati, jina-embeddings-v3 ha utilizzato piccoli adattatori LoRA da 60 milioni per personalizzare un modello di base da 570 milioni per qualsiasi attività. Un modello è diventato cinque modelli specializzati.

Anche con la specializzazione per attività, siamo rimasti solo testuali, mentre gli utenti avevano bisogno di comprensione visiva. I modelli standard basati su CLIP come jina-clip-v1 e jina-clip-v2 utilizzano codificatori separati, creando un "divario di modalità" in cui contenuti simili in formati diversi finiscono per essere molto distanti. Come il nostro jina-reranker-m0 rilasciato di recente, jina-embeddings-v4 ha eliminato completamente questo divario: un unico percorso unificato elabora tutto, rimuovendo il divario invece di colmarlo.

Sia jina-embeddings-v4 che jina-reranker-m0 condividono un cambiamento fondamentale: l'utilizzo di 大模型 (LLM) come backbone invece di modelli solo encoder. Questo non è casuale: riflette un profondo vantaggio che la maggior parte delle persone ignora: i modelli solo encoder creano "divari di modalità" in cui le immagini si raggruppano separatamente dal testo. I modelli solo decoder aprono possibilità che non erano realizzabili con architetture solo encoder, tra cui la vera rappresentazione a modalità mista e la spiegabilità.
{{{output start}}}La nostra intuizione chiave: sia gli "向量模型 (Embeddings)" che la generazione riguardano la comprensione della semantica. I "大模型 (LLM)" che eccellono nella generazione eccellono naturalmente nella rappresentazione. Crediamo che il futuro risieda in architetture unificate in cui gli "向量模型 (Embedding)" e il "重排器 (Reranker)" emergono dallo stesso modello di base di ricerca—ed è esattamente ciò verso cui Jina AI sta costruendo.