Notizia
Modelli
Prodotti
keyboard_arrow_down
Lettore
Leggi gli URL e cerca sul web per ottenere LLM più approfonditi.
Incorporamenti
Incorporamenti multilingue multimodali di livello mondiale.
Riclassificazione
Recupero neurale di livello mondiale per massimizzare la pertinenza della ricerca.
Ricerca profonda
Cerca, leggi e ragiona finché non trovi la risposta migliore.
Di più
keyboard_arrow_down
Classificatore
Classificazione zero-shot e few-shot per immagini e testo.
Segmentatore
Tagliare il testo lungo in blocchi ed effettuare la tokenizzazione.

Documentazione API
Generazione automatica di codice per il tuo IDE o LLM di Copilot
open_in_new


Azienda
keyboard_arrow_down
Chi siamo
Contatta le vendite
Programma di stagista
Unisciti a noi
open_in_new
Scarica il logo
open_in_new
Termini & Condizioni


Login
login
copyright

jina-embeddings-v4

Modello di incorporamento universale per il recupero multimodale e multilingue
Pubblicazione postarrow_forward
Licenza
copyright
CC-BY-NC-4.0
Data di rilascio
calendar_month
2025-06-24
Ingresso
abc
Testo
image
Immagine
picture_as_pdf
PDF
arrow_forward
Produzione
more_horiz
Vettore
apps
Multi-vettore
Dettagli del modello
Parametri: 3.8B
Lunghezza del token di input: 32K
Dimensione immagine di input: 768×28×28
Dimensione di uscita: 2048
Supporto linguistico
🌍 Supporto multilingue
Modelli correlati
link
jina-embeddings-v3
link
jina-clip-v2
Etichette
multimodal-embedding
document retrieval
multilingual
multi-vector
long-context
production
matryoshka
Disponibile tramite
API di JinaLicenza commercialeFaccia abbracciata
Grafico I/O 1
Grafico I/O 2
Grafico I/O 3
Grafico I/O 4
Scegli i modelli da confrontare
Pubblicazioni (1)
arXiv
giugno 24, 2025
jina-embeddings-v4: Universal Embeddings for Multimodal Multilingual Retrieval

Panoramica

Jina Embeddings V4 è un modello di embedding multimodale da 3,8 miliardi di parametri che offre funzionalità di rappresentazione unificata di testo e immagini. Basato sul backbone Qwen2.5-VL-3B-Instruct, il modello presenta un'architettura che supporta embedding sia mono-vettore che multi-vettore nello stile di interazione tardiva, superando le limitazioni riscontrate nei tradizionali modelli a doppio encoder in stile CLIP. Il modello incorpora tre adattatori LoRA specializzati per attività specifiche (60 milioni di parametri ciascuno) che ottimizzano le prestazioni in diversi scenari di recupero, tra cui il recupero asimmetrico di query-documenti, la similarità semantica del testo e la ricerca di codice, senza modificare i pesi del backbone congelato. Il modello dimostra ottime prestazioni nell'elaborazione di contenuti visivamente ricchi come tabelle, grafici, diagrammi, screenshot e formati multimediali misti, attraverso un percorso di elaborazione unificato che riduce il divario di modalità presente nelle architetture convenzionali. Grazie al supporto di funzionalità multilingue, il modello può gestire testi di input fino a 32.768 token con immagini ridimensionate a 20 megapixel, il che lo rende adatto a varie applicazioni di recupero di documenti e di ricerca multimodale in diverse lingue e domini.

Metodi

Jina Embeddings V4 implementa un'architettura di modello linguistico multimodale unificata che si differenzia dagli approcci a doppio codificatore in stile CLIP. Il modello elabora gli input attraverso un percorso condiviso in cui le immagini vengono prima convertite in sequenze di token tramite un codificatore visivo, quindi entrambe le modalità testo e immagine vengono elaborate insieme dal decodificatore del modello linguistico con livelli di attenzione contestuale. Questa architettura supporta due modalità di output per adattarsi a diversi casi d'uso: incorporamenti a singolo vettore che producono vettori a 2048 dimensioni troncabili a 128 dimensioni tramite Matryoshka Representation Learning, generati tramite mean pooling per un'efficiente ricerca di similarità; ed incorporamenti multi-vettore che generano 128 dimensioni per token tramite livelli di proiezione per il recupero tardivo dello stile di interazione. Il modello include tre adattatori LoRA specifici per ogni attività che forniscono un'ottimizzazione specializzata: l'adattatore per il recupero utilizza una codifica asimmetrica basata su prefissi con addestramento basato su negativi rigidi per scenari di query-documento, l'adattatore per la corrispondenza del testo utilizza la perdita CoSENT per attività di similarità semantica e l'adattatore per il codice si concentra su applicazioni di recupero da linguaggio naturale a codice. L'addestramento avviene in due fasi: addestramento iniziale in coppia utilizzando la perdita contrastiva InfoNCE con coppie testo-testo e testo-immagine provenienti da oltre 300 fonti, seguito da un fine tuning specifico per l'attività dei tre adattatori LoRA utilizzando metodi basati su triplette e funzioni di perdita specializzate, adattate ai requisiti di ciascun dominio.

Prestazione

Jina Embeddings V4 raggiunge prestazioni competitive in diverse categorie di benchmark. Nel recupero di documenti visivi, ottiene un punteggio medio di 72,19 sul benchmark JinaVDR, rispetto a 64,50 per ColPali-v1.2, e 84,11 su ViDoRe, rispetto a 83,90 per ColPali, con la modalità multi-vettore che raggiunge 90,17 su ViDoRe. Per il recupero cross-modale, il modello ottiene un punteggio di 84,11 su CLIP Benchmark, rispetto a jina-clip-v2 (81,12) e nllb-clip-large-siglip (83,19). Nelle attività di recupero di testo, ottiene 55,97 su MTEB-en e 66,49 su MMTEB, con prestazioni notevoli nell'elaborazione di documenti lunghi, 67,11 su LongEmbed, rispetto a 55,66 per il suo predecessore. Il modello dimostra solide prestazioni di similarità semantica del testo con 85,89 nei compiti STS in inglese e 72,70 nei benchmark STS multilingue. Le capacità di recupero del codice raggiungono 71,59 nel benchmark CoIR, sebbene modelli specializzati come voyage-code-3 (77,33) ottengano punteggi più elevati in questo dominio. Il modello mostra un migliore allineamento cross-modale con un punteggio di 0,71 rispetto a 0,15 per OpenAI CLIP, risolvendo il problema del divario di modalità nei modelli multimodali. La modalità multi-vettore supera costantemente la modalità a vettore singolo nei compiti visivamente ricchi, mentre la modalità a vettore singolo offre prestazioni efficienti per scenari di recupero standard.

Orientamento

Per utilizzare efficacemente Jina Embeddings V4, seleziona l'adattatore LoRA appropriato in base ai requisiti specifici della tua applicazione. Utilizza l'adattatore "retrieval" per scenari di recupero asimmetrico di query e documenti in cui query e documenti hanno strutture diverse, assicurando che vengano applicati prefissi appropriati per distinguere tra il contenuto della query e quello del brano. L'adattatore "text-matching" è adatto per attività di similarità semantica e recupero simmetrico in cui l'obiettivo è trovare contenuti simili piuttosto che risposte alle query, rendendolo appropriato per il clustering di documenti, il rilevamento di duplicati e i sistemi di raccomandazione di contenuti. Per applicazioni di programmazione, l'adattatore "code" è ottimizzato per il recupero da linguaggio naturale a codice, la ricerca di similarità da codice a codice e scenari di risposta a domande tecniche. Scegli le modalità di output in base ai requisiti di prestazioni ed efficienza: gli embedding a singolo vettore offrono una ricerca di similarità efficiente e sono adatti ad ambienti con vincoli di archiviazione, con dimensioni troncabili che consentono una riduzione da 2048 a 128-512 dimensioni con compromessi di qualità accettabili, mentre gli embedding multi-vettore offrono una maggiore precisione per attività di recupero complesse, in particolare quando si lavora con documenti visivamente ricchi in cui il punteggio di interazione tardiva cattura relazioni dettagliate. L'architettura unificata del modello consente l'elaborazione di input misti testo-immagine senza richiedere codificatori separati o pre-elaborazione OCR per i documenti visivi. Le capacità di allineamento multimodale e il supporto multilingue del modello lo rendono adatto ad applicazioni internazionali. Per le distribuzioni di produzione, considera l'overhead di 60 M di parametri per adattatore LoRA quando pianifichi i requisiti di memoria, tenendo presente che tutti e tre gli adattatori possono essere gestiti simultaneamente con meno del 2% di spazio di memoria aggiuntivo, consentendo un cambio di attività flessibile durante l'inferenza.
Blog che menzionano questo modello
giugno 30, 2025 • 8 minuti letti
Quantization-Aware Training di jina-embeddings-v4
La quantizzazione offre modelli di 向量模型 (Embeddings) più piccoli. Vi mostreremo come la quantizzazione ottimizzata vi offre modelli di 向量模型 (Embeddings) persino senza perdita di dati.
Andrei Ungureanu
Scott Martens
Bo Wang
giugno 25, 2025 • 12 minuti letti
Jina Embeddings v4: 向量模型 (Embeddings) universali per il recupero multimodale multilingue
Jina Embeddings v4 è un modello di 向量模型 (Embeddings) universale da 3,8 miliardi di parametri per il recupero multimodale e multilingue che supporta sia output di 向量模型 (Embeddings) a vettore singolo che a vettore multiplo.
Jina AI
Word "Embeddings" followed by a numeric or symbol representation, displayed in multiple colors on a technology-themed, colorf
marzo 07, 2025 • 14 minuti letti
I modelli di embedding per contesti lunghi sono ciechi oltre i 4K token
Abbiamo analizzato i modelli di embedding su nuovi task di tipo "ago nel pagliaio" e abbiamo scoperto che oltre i 4K token, si comportano come se lanciassero i dadi - anche con corrispondenze lessicali esatte o espansione delle query, non riescono a distinguere il segnale dal rumore in contesti lunghi.
Saahil Ognawala
Alex C-G
Vertical repetition of the word 'HAYSTACK' with a solitary 'NEEDLE' on a yellowish background.
gennaio 22, 2025 • 10 minuti letti
Cosa Dovremmo Imparare da ModernBERT?
Dati di addestramento più ampi, dimensionamento efficiente dei parametri e un'architettura profonda ma snella: ModernBERT traccia una direzione per i futuri modelli di tipo BERT.
Nan Wang
Alex C-G
Futuristic illustration with a central white circle surrounded by white dots on a dotted background.
Uffici
location_on
Sunnyvale, California
710 Lakeway Dr, Ste 200, Sunnyvale, CA 94085, Stati Uniti
location_on
Berlino, Germania (sede centrale)
Prinzessinnenstraße 19-20, 10969 Berlino, Germania
location_on
Pechino, Cina
Livello 5, Edificio 6, No.48 Haidian West St. Pechino, Cina
location_on
Shenzen, Cina
402 Piano 4, Fu'an Technology Building, Shenzhen, Cina
Fondazione di ricerca
Lettore
Incorporamenti
Riclassificazione
Ricerca profonda
Classificatore
Segmentatore
Documentazione API
Ottieni la chiave API Jina
Limite di velocità
Stato dell'API
Azienda
Chi siamo
Contatta le vendite
Sala stampa
Programma di stagista
Unisciti a noi
open_in_new
Scarica il logo
open_in_new
Termini
Sicurezza
Termini & Condizioni
Privacy
Gestisci i cookie
email
Jina AI © 2020-2025.