Notizia
Modelli
API
keyboard_arrow_down
Lettore
Leggi gli URL e cerca sul web per ottenere LLM più approfonditi.
Incorporamenti
Incorporamenti multilingue multimodali di livello mondiale.
Riclassificazione
Recupero neurale di livello mondiale per massimizzare la pertinenza della ricerca.
Elastic Inference Service
Esegui i modelli Jina in modo nativo all'interno di Elasticsearch.
MCP terminalCLIarticlellms.txtsmart_toyAgentidata_objectSchemamenu_bookDocumenti



Login
login
Incorporamenti
Licenza di ricerca Qwen
open_in_new Pubblicazione post

jina-embeddings-v4

Modello di incorporamento universale per il recupero multimodale e multilingue
Licenza
Qwen Research License
Data di rilascio
calendar_month
2025-06-24
Ingresso
abc
Testo
image
Immagine
picture_as_pdf
PDF
arrow_forward
Produzione
more_horiz
Vettore
apps
Multi-vettore
Dimensioni della matrioska help_outline
128
256
512
1024
2048
Chunking tardivo help_outline
check_circle
Yes
Dettagli del modello
Parametri: 3.8B
Lunghezza del token di input: 32K
Dimensione immagine di input: 768×28×28
Dimensione di uscita: 2048
Modello base help_outline
open_in_new
Qwen2.5-VL-3B-Instruct
Lingue addestrate help_outline
34 lingue
Lingue supportate help_outline
29 lingue
Quantizzazioni help_outline
GGUF
Modelli correlati
link
jina-embeddings-v3
link
jina-clip-v2
Attività supportate
search Recupero
compare_arrows Corrispondenza del testo
code Codice
Etichette
multimodal-embedding
document retrieval
multilingual
multi-vector
long-context
production
matryoshka
Disponibile tramite
API di JinaFaccia abbracciata
Grafico I/O 1

Testo

jina-embeddings-v4

Compito

Vettore

Grafico I/O 2

Immagine

jina-embeddings-v4

Compito

Vettore

Grafico I/O 3

multiplo

Vettore

Testo

jina-embeddings-v4

Compito

Grafico I/O 4

multiplo

Vettore

Immagine

jina-embeddings-v4

Compito

Scegli i modelli da confrontare
Pubblicazioni (1)
EMNLP 2025
giugno 24, 2025
jina-embeddings-v4: Universal Embeddings for Multimodal Multilingual Retrieval

Panoramica

Jina Embeddings V4 è un modello di embedding multimodale da 3,8 miliardi di parametri che offre funzionalità di rappresentazione unificata di testo e immagini. Basato sul backbone Qwen2.5-VL-3B-Instruct, il modello presenta un'architettura che supporta embedding sia mono-vettore che multi-vettore nello stile di interazione tardiva, superando le limitazioni riscontrate nei tradizionali modelli a doppio encoder in stile CLIP. Il modello incorpora tre adattatori LoRA specializzati per attività specifiche (60 milioni di parametri ciascuno) che ottimizzano le prestazioni in diversi scenari di recupero, tra cui il recupero asimmetrico di query-documenti, la similarità semantica del testo e la ricerca di codice, senza modificare i pesi del backbone congelato. Il modello dimostra ottime prestazioni nell'elaborazione di contenuti visivamente ricchi come tabelle, grafici, diagrammi, screenshot e formati multimediali misti, attraverso un percorso di elaborazione unificato che riduce il divario di modalità presente nelle architetture convenzionali. Grazie al supporto di funzionalità multilingue, il modello può gestire testi di input fino a 32.768 token con immagini ridimensionate a 20 megapixel, il che lo rende adatto a varie applicazioni di recupero di documenti e di ricerca multimodale in diverse lingue e domini.

Metodi

Jina Embeddings V4 implementa un'architettura di modello linguistico multimodale unificata che si differenzia dagli approcci a doppio codificatore in stile CLIP. Il modello elabora gli input attraverso un percorso condiviso in cui le immagini vengono prima convertite in sequenze di token tramite un codificatore visivo, quindi entrambe le modalità testo e immagine vengono elaborate insieme dal decodificatore del modello linguistico con livelli di attenzione contestuale. Questa architettura supporta due modalità di output per adattarsi a diversi casi d'uso: incorporamenti a singolo vettore che producono vettori a 2048 dimensioni troncabili a 128 dimensioni tramite Matryoshka Representation Learning, generati tramite mean pooling per un'efficiente ricerca di similarità; ed incorporamenti multi-vettore che generano 128 dimensioni per token tramite livelli di proiezione per il recupero tardivo dello stile di interazione. Il modello include tre adattatori LoRA specifici per ogni attività che forniscono un'ottimizzazione specializzata: l'adattatore per il recupero utilizza una codifica asimmetrica basata su prefissi con addestramento basato su negativi rigidi per scenari di query-documento, l'adattatore per la corrispondenza del testo utilizza la perdita CoSENT per attività di similarità semantica e l'adattatore per il codice si concentra su applicazioni di recupero da linguaggio naturale a codice. L'addestramento avviene in due fasi: addestramento iniziale in coppia utilizzando la perdita contrastiva InfoNCE con coppie testo-testo e testo-immagine provenienti da oltre 300 fonti, seguito da un fine tuning specifico per l'attività dei tre adattatori LoRA utilizzando metodi basati su triplette e funzioni di perdita specializzate, adattate ai requisiti di ciascun dominio.

Prestazione

Jina Embeddings V4 raggiunge prestazioni competitive in diverse categorie di benchmark. Nel recupero di documenti visivi, ottiene un punteggio medio di 72,19 sul benchmark JinaVDR, rispetto a 64,50 per ColPali-v1.2, e 84,11 su ViDoRe, rispetto a 83,90 per ColPali, con la modalità multi-vettore che raggiunge 90,17 su ViDoRe. Per il recupero cross-modale, il modello ottiene un punteggio di 84,11 su CLIP Benchmark, rispetto a jina-clip-v2 (81,12) e nllb-clip-large-siglip (83,19). Nelle attività di recupero di testo, ottiene 55,97 su MTEB-en e 66,49 su MMTEB, con prestazioni notevoli nell'elaborazione di documenti lunghi, 67,11 su LongEmbed, rispetto a 55,66 per il suo predecessore. Il modello dimostra solide prestazioni di similarità semantica del testo con 85,89 nei compiti STS in inglese e 72,70 nei benchmark STS multilingue. Le capacità di recupero del codice raggiungono 71,59 nel benchmark CoIR, sebbene modelli specializzati come voyage-code-3 (77,33) ottengano punteggi più elevati in questo dominio. Il modello mostra un migliore allineamento cross-modale con un punteggio di 0,71 rispetto a 0,15 per OpenAI CLIP, risolvendo il problema del divario di modalità nei modelli multimodali. La modalità multi-vettore supera costantemente la modalità a vettore singolo nei compiti visivamente ricchi, mentre la modalità a vettore singolo offre prestazioni efficienti per scenari di recupero standard.

Orientamento

Per utilizzare efficacemente Jina Embeddings V4, seleziona l'adattatore LoRA appropriato in base ai requisiti specifici della tua applicazione. Utilizza l'adattatore "retrieval" per scenari di recupero asimmetrico di query e documenti in cui query e documenti hanno strutture diverse, assicurando che vengano applicati prefissi appropriati per distinguere tra il contenuto della query e quello del brano. L'adattatore "text-matching" è adatto per attività di similarità semantica e recupero simmetrico in cui l'obiettivo è trovare contenuti simili piuttosto che risposte alle query, rendendolo appropriato per il clustering di documenti, il rilevamento di duplicati e i sistemi di raccomandazione di contenuti. Per applicazioni di programmazione, l'adattatore "code" è ottimizzato per il recupero da linguaggio naturale a codice, la ricerca di similarità da codice a codice e scenari di risposta a domande tecniche. Scegli le modalità di output in base ai requisiti di prestazioni ed efficienza: gli embedding a singolo vettore offrono una ricerca di similarità efficiente e sono adatti ad ambienti con vincoli di archiviazione, con dimensioni troncabili che consentono una riduzione da 2048 a 128-512 dimensioni con compromessi di qualità accettabili, mentre gli embedding multi-vettore offrono una maggiore precisione per attività di recupero complesse, in particolare quando si lavora con documenti visivamente ricchi in cui il punteggio di interazione tardiva cattura relazioni dettagliate. L'architettura unificata del modello consente l'elaborazione di input misti testo-immagine senza richiedere codificatori separati o pre-elaborazione OCR per i documenti visivi. Le capacità di allineamento multimodale e il supporto multilingue del modello lo rendono adatto ad applicazioni internazionali. Per le distribuzioni di produzione, considera l'overhead di 60 M di parametri per adattatore LoRA quando pianifichi i requisiti di memoria, tenendo presente che tutti e tre gli adattatori possono essere gestiti simultaneamente con meno del 2% di spazio di memoria aggiuntivo, consentendo un cambio di attività flessibile durante l'inferenza.
Blog che menzionano questo modello
giugno 30, 2025 • 8 minuti letti
Quantization-Aware Training di jina-embeddings-v4
La quantizzazione offre modelli di 向量模型 (Embeddings) più piccoli. Vi mostreremo come la quantizzazione ottimizzata vi offre modelli di 向量模型 (Embeddings) persino senza perdita di dati.
Andrei Ungureanu
Scott Martens
Bo Wang
Retro-style digital screen displaying four pixelated images: a cat, a woman, an abstract figure, and a man's portrait, with l
marzo 11, 2026 • 7 minuti letti
Bootstrapping di embedding audio da LLM multimodali
Trasforma qualsiasi LLM multimodale in un piccolo modello di embedding audio che supera CLAP con 25 volte meno dati.
Han Xiao
Abstract illustration of a sound wave or heartbeat, formed by blue, orange, and gray dots on a white background.
febbraio 19, 2026 • 7 minuti letti
jina-embeddings-v5-text: Nuovi SOTA Small Multilingual Embeddings
Due 向量模型 multilingue sotto 1B con prestazioni migliori della categoria, disponibili su Elastic Inference Service, Llama.cpp e MLX.
Han Xiao
Abstract digital artwork in black and white, featuring scattered dots forming letters in a halftone effect. The central lette
settembre 30, 2025 • 8 minuti letti
Gli Embeddings Sono il Figliastro dai Capelli Rossi dell'IA
I modelli di Embeddings non sono l'aspetto più affascinante del settore dell'IA, ma i generatori di immagini e i chatbot non potrebbero esistere senza di essi.
Scott Martens
Humorous office cartoon depicting a team gathered around robots; signs labeled "embeddings", "tools", "reasoning", and "lol"
settembre 09, 2025 • 11 minuti letti
Modelli di Embedding Multimodali in Llama.cpp e GGUF
Abbiamo introdotto i vettori modello multimodali in llama.cpp e GGUF, e abbiamo scoperto alcune problematiche sorprendenti lungo il percorso.
Andrei Ungureanu
Alex C-G
Cartoon llama in the center of a white background, emitting laser-like beams from its eyes. The illustration creates a playfu
Fondazione di ricerca
Lettore
Incorporamenti
Riclassificazione
Elastic Inference Service
open_in_new
Ottieni la chiave API Jina
Limite di velocità
Stato dell'API
Azienda
Chi siamo
Contatta le vendite
Sala stampa
Programma di stagista
Scarica il logo Jina
open_in_new
Scarica il logo Elastic
open_in_new
Termini
Sicurezza
Termini & Condizioni
Privacy
Gestisci i cookie
email
Elastic © 2020-2026.