Disponibile tramite
Grafico I/O 1
Grafico I/O 2
Grafico I/O 3
Grafico I/O 4
Scegli i modelli da confrontare
Pubblicazioni (1)
Panoramica
Jina Embeddings V4 è un modello di embedding multimodale da 3,8 miliardi di parametri che offre funzionalità di rappresentazione unificata di testo e immagini. Basato sul backbone Qwen2.5-VL-3B-Instruct, il modello presenta un'architettura che supporta embedding sia mono-vettore che multi-vettore nello stile di interazione tardiva, superando le limitazioni riscontrate nei tradizionali modelli a doppio encoder in stile CLIP. Il modello incorpora tre adattatori LoRA specializzati per attività specifiche (60 milioni di parametri ciascuno) che ottimizzano le prestazioni in diversi scenari di recupero, tra cui il recupero asimmetrico di query-documenti, la similarità semantica del testo e la ricerca di codice, senza modificare i pesi del backbone congelato. Il modello dimostra ottime prestazioni nell'elaborazione di contenuti visivamente ricchi come tabelle, grafici, diagrammi, screenshot e formati multimediali misti, attraverso un percorso di elaborazione unificato che riduce il divario di modalità presente nelle architetture convenzionali. Grazie al supporto di funzionalità multilingue, il modello può gestire testi di input fino a 32.768 token con immagini ridimensionate a 20 megapixel, il che lo rende adatto a varie applicazioni di recupero di documenti e di ricerca multimodale in diverse lingue e domini.
Metodi
Jina Embeddings V4 implementa un'architettura di modello linguistico multimodale unificata che si differenzia dagli approcci a doppio codificatore in stile CLIP. Il modello elabora gli input attraverso un percorso condiviso in cui le immagini vengono prima convertite in sequenze di token tramite un codificatore visivo, quindi entrambe le modalità testo e immagine vengono elaborate insieme dal decodificatore del modello linguistico con livelli di attenzione contestuale. Questa architettura supporta due modalità di output per adattarsi a diversi casi d'uso: incorporamenti a singolo vettore che producono vettori a 2048 dimensioni troncabili a 128 dimensioni tramite Matryoshka Representation Learning, generati tramite mean pooling per un'efficiente ricerca di similarità; ed incorporamenti multi-vettore che generano 128 dimensioni per token tramite livelli di proiezione per il recupero tardivo dello stile di interazione. Il modello include tre adattatori LoRA specifici per ogni attività che forniscono un'ottimizzazione specializzata: l'adattatore per il recupero utilizza una codifica asimmetrica basata su prefissi con addestramento basato su negativi rigidi per scenari di query-documento, l'adattatore per la corrispondenza del testo utilizza la perdita CoSENT per attività di similarità semantica e l'adattatore per il codice si concentra su applicazioni di recupero da linguaggio naturale a codice. L'addestramento avviene in due fasi: addestramento iniziale in coppia utilizzando la perdita contrastiva InfoNCE con coppie testo-testo e testo-immagine provenienti da oltre 300 fonti, seguito da un fine tuning specifico per l'attività dei tre adattatori LoRA utilizzando metodi basati su triplette e funzioni di perdita specializzate, adattate ai requisiti di ciascun dominio.
Prestazione
Jina Embeddings V4 raggiunge prestazioni competitive in diverse categorie di benchmark. Nel recupero di documenti visivi, ottiene un punteggio medio di 72,19 sul benchmark JinaVDR, rispetto a 64,50 per ColPali-v1.2, e 84,11 su ViDoRe, rispetto a 83,90 per ColPali, con la modalità multi-vettore che raggiunge 90,17 su ViDoRe. Per il recupero cross-modale, il modello ottiene un punteggio di 84,11 su CLIP Benchmark, rispetto a jina-clip-v2 (81,12) e nllb-clip-large-siglip (83,19). Nelle attività di recupero di testo, ottiene 55,97 su MTEB-en e 66,49 su MMTEB, con prestazioni notevoli nell'elaborazione di documenti lunghi, 67,11 su LongEmbed, rispetto a 55,66 per il suo predecessore. Il modello dimostra solide prestazioni di similarità semantica del testo con 85,89 nei compiti STS in inglese e 72,70 nei benchmark STS multilingue. Le capacità di recupero del codice raggiungono 71,59 nel benchmark CoIR, sebbene modelli specializzati come voyage-code-3 (77,33) ottengano punteggi più elevati in questo dominio. Il modello mostra un migliore allineamento cross-modale con un punteggio di 0,71 rispetto a 0,15 per OpenAI CLIP, risolvendo il problema del divario di modalità nei modelli multimodali. La modalità multi-vettore supera costantemente la modalità a vettore singolo nei compiti visivamente ricchi, mentre la modalità a vettore singolo offre prestazioni efficienti per scenari di recupero standard.
Orientamento
Per utilizzare efficacemente Jina Embeddings V4, seleziona l'adattatore LoRA appropriato in base ai requisiti specifici della tua applicazione. Utilizza l'adattatore "retrieval" per scenari di recupero asimmetrico di query e documenti in cui query e documenti hanno strutture diverse, assicurando che vengano applicati prefissi appropriati per distinguere tra il contenuto della query e quello del brano. L'adattatore "text-matching" è adatto per attività di similarità semantica e recupero simmetrico in cui l'obiettivo è trovare contenuti simili piuttosto che risposte alle query, rendendolo appropriato per il clustering di documenti, il rilevamento di duplicati e i sistemi di raccomandazione di contenuti. Per applicazioni di programmazione, l'adattatore "code" è ottimizzato per il recupero da linguaggio naturale a codice, la ricerca di similarità da codice a codice e scenari di risposta a domande tecniche. Scegli le modalità di output in base ai requisiti di prestazioni ed efficienza: gli embedding a singolo vettore offrono una ricerca di similarità efficiente e sono adatti ad ambienti con vincoli di archiviazione, con dimensioni troncabili che consentono una riduzione da 2048 a 128-512 dimensioni con compromessi di qualità accettabili, mentre gli embedding multi-vettore offrono una maggiore precisione per attività di recupero complesse, in particolare quando si lavora con documenti visivamente ricchi in cui il punteggio di interazione tardiva cattura relazioni dettagliate. L'architettura unificata del modello consente l'elaborazione di input misti testo-immagine senza richiedere codificatori separati o pre-elaborazione OCR per i documenti visivi. Le capacità di allineamento multimodale e il supporto multilingue del modello lo rendono adatto ad applicazioni internazionali. Per le distribuzioni di produzione, considera l'overhead di 60 M di parametri per adattatore LoRA quando pianifichi i requisiti di memoria, tenendo presente che tutti e tre gli adattatori possono essere gestiti simultaneamente con meno del 2% di spazio di memoria aggiuntivo, consentendo un cambio di attività flessibile durante l'inferenza.
Blog che menzionano questo modello