

jina-clip-v2 API è disponibile sotto la scheda "Embeddings".
Gli embedding multimodali permettono di cercare e comprendere dati attraverso diverse modalità mediante una rappresentazione coerente. Fungono da base per il recupero di informazioni neurali e le applicazioni GenAI multimodali. Oggi siamo entusiasti di rilasciare jina-clip-v2, un nuovo modello di embedding multimodale multilingue per uso generale costruito su jina-clip-v1 e il nostro recentemente rilasciato jina-embeddings-3
, con diversi miglioramenti chiave:
- Prestazioni Migliorate: v2 mostra un miglioramento delle prestazioni del 3% rispetto a v1 sia nelle attività di recupero testo-immagine che testo-testo. Come v1, l'encoder testuale di v2 può fungere da efficace recuperatore denso multilingue per contesti lunghi. Le sue prestazioni sono alla pari con il nostro modello di frontiera jina-embeddings-v3 (attualmente i migliori embedding multilingue sotto 1B parametri su MTEB).
- Supporto Multilingue: Alimentato da jina-embeddings-v3 come torre testuale, jina-clip-v2 supporta 89 lingue per il recupero multilingue-immagine, mostrando un miglioramento fino al 4% rispetto a
nllb-clip-large-siglip
nelle attività di recupero di immagini multilingue. - Risoluzione Immagine Superiore: v2 ora supporta una risoluzione dell'immagine in input di 512x512, un aumento significativo rispetto ai 224x224 di v1. Questa risoluzione più alta permette una migliore elaborazione delle immagini dettagliate, una migliore estrazione delle caratteristiche e un riconoscimento più accurato degli elementi visivi dettagliati.
- Rappresentazioni Matrioska: v2 permette agli utenti di troncare le dimensioni di output degli embedding sia di testo che di immagini da 1024 fino a 64, riducendo l'overhead di memorizzazione ed elaborazione mantenendo prestazioni elevate.
tagArchitettura del Modello
jina-clip-v2 è un modello stile CLIP da 0.9B che combina due potenti encoder: l'encoder testuale Jina XLM-RoBERTa
(la base di jina-embeddings-v3) e l'encoder visivo EVA02-L14
(un efficiente Transformer visivo sviluppato da BAAI). Questi encoder sono addestrati congiuntamente per creare rappresentazioni allineate di immagini e testo.
Feature | Text Encoder | Image Encoder |
---|---|---|
Base Model | Jina XLM-RoBERTa | EVA02-L |
Parameters | 561M | 304M |
Input Specification | 8,192 tokens (max) | 512×512 pixels |
Min Output Dimensions | 64 | 64 |
Max Output Dimensions | 1,024 | 1,024 |
Layers | 24 | 24 |
Attention Mechanism | FlashAttention2 | xFormers |
Pooling Strategy | Mean pooling | CLS pooling |
Additional Features | 89 languages supported | Patch size 14x14 |
tagPrestazioni di Recupero Cross-Modale
Jina CLIP v2 fornisce supporto multilingue per 89 lingue e offre prestazioni di alto livello nelle principali lingue tra cui arabo, cinese, inglese, francese, tedesco, giapponese, russo e spagnolo. Nei benchmark di recupero immagini multilingue, mostra prestazioni che eguagliano o superano NLLB-CLIP-SigLIP, un modello stile CLIP leggermente più grande (1.3B, 44% più grande di jina-clip-v2) allo stato dell'arte che utilizza un encoder testuale pre-addestrato dai modelli NLLB.
tagTesto e Immagini Solo in Inglese
Sui benchmark standard di recupero cross-modale (Flickr30k e COCO), jina-clip-v2 dimostra notevoli miglioramenti su tutti i fronti. Raggiunge prestazioni allo stato dell'arte del 98.0% sul recupero immagine-testo di Flickr30k, superando sia il suo predecessore che NLLB-CLIP-SigLIP. Il modello mostra guadagni costanti in tutti gli scenari di recupero, con miglioramenti notevoli fino al 3.3% rispetto a v1 sul recupero immagine-testo di COCO, mantenendo prestazioni competitive con NLLB-CLIP-SigLIP su diversi benchmark e direzioni di modalità.
Prestazioni Flickr30k Recall@5:
Task | Model | Score | Relative to v1 | Relative to NLLB |
---|---|---|---|---|
Image-to-text | jina-clip-v2 | 98.0 | +1.7% | +0.9% |
jina-clip-v1 | 96.4 | - | -0.7% | |
nllb-siglip-large | 97.1 | - | - | |
Text-to-image | jina-clip-v2 | 89.8 | +0.9% | -2.6% |
jina-clip-v1 | 89.0 | - | -3.5% | |
nllb-siglip-large | 92.2 | - | - |
Prestazioni COCO Recall@5:
Task | Model | Score | Relative to v1 | Relative to NLLB |
---|---|---|---|---|
Image-to-text | jina-clip-v2 | 81.5 | +3.3% | +2.9% |
jina-clip-v1 | 78.9 | - | -0.4% | |
nllb-siglip-large | 79.2 | - | - | |
Text-to-image | jina-clip-v2 | 68.4 | +2.9% | -3.4% |
jina-clip-v1 | 66.5 | - | -6.1% | |
nllb-siglip-large | 70.8 | - | - |
tagTesto e Immagini Multilingue
Sui benchmark cross-modali multilingue, jina-clip-v2 dimostra prestazioni robuste, eccellendo particolarmente nel recupero immagine-testo dove supera NLLB-SigLIP su tutti i dataset, con un miglioramento fino al +3.8% su Crossmodal 3600. Mentre NLLB-SigLIP mostra capacità leggermente superiori nel recupero testo-immagine, il divario di prestazioni rimane piccolo, tipicamente entro il 3%.
Prestazioni Image2Text Recall@5:
Benchmark | Model | Score | Relative to NLLB |
---|---|---|---|
Crossmodal 3600 | jina-clip-v2 | 83.23 | +3.8% |
nllb-siglip-large | 80.16 | - | |
Multilingual MS Coco | jina-clip-v2 | 86.03 | +0.8% |
nllb-siglip-large | 85.37 | - | |
XTD10 | jina-clip-v2 | 85.98 | +0.7% |
nllb-siglip-large | 85.41 | - |
Prestazioni Text2Image Recall@5:
Benchmark | Model | Score | Relative to NLLB |
---|---|---|---|
Crossmodal 3600 | jina-clip-v2 | 81.43 | -0.8% |
nllb-siglip-large | 82.07 | - | |
Multilingual MS Coco | jina-clip-v2 | 84.87 | -3.1% |
nllb-siglip-large | 87.60 | - | |
XTD10 | jina-clip-v2 | 85.03 | -3.0% |
nllb-siglip-large | 87.63 | - |
tagPrestazioni del Retriever Denso Solo Testo
Come il suo predecessore, l'encoder testuale di jina-clip-v2 può fungere da efficace retriever multilingue denso. Sui completi benchmark Multilingual MTEB, raggiunge ottime prestazioni, toccando il 69.86% nel recupero e il 67.77% nei compiti di similarità semantica. Questi risultati dimostrano la sua versatilità, competendo con il nostro modello specializzato di embedding testuale jina-embeddings-v3:
Task | Model | Score | Relative to v3 |
---|---|---|---|
Retrieval | jina-clip-v2 | 69.86 | -3.8% |
jina-embeddings-v3 | 72.59 | - | |
Semantic Similarity | jina-clip-v2 | 67.77 | -2.9% |
jina-embeddings-v3 | 69.81 | - |
Sui task in inglese, jina-clip-v2 mostra costanti miglioramenti rispetto sia al predecessore che a NLLB-SigLIP, con vantaggi particolarmente evidenti nelle prestazioni di recupero (quasi il doppio del punteggio di NLLB-SigLIP).
Task | Model | Score | Relative to v1 |
---|---|---|---|
STS | jina-clip-v2 | 81.29 | +0.5% |
jina-clip-v1 | 80.92 | - | |
nllb-siglip-large | 74.65 | - | |
Retrieval | jina-clip-v2 | 49.33 | +2.1% |
jina-clip-v1 | 48.33 | - | |
nllb-siglip-large | 24.92 | - |
tagPrestazioni della Rappresentazione Matryoshka
Sia gli encoder testuali che quelli di immagini supportano MRL, e le loro dimensioni di output possono essere troncate a 64 mantenendo prestazioni elevate. La nostra valutazione del troncamento degli embedding ha rivelato un notevole potenziale di compressione. Persino una riduzione dimensionale aggressiva del 75% ha mantenuto oltre il 99% delle prestazioni in tutti i task testuali, di immagine e cross-modali.
tagClassificazione delle Immagini
Su 37 diversi benchmark di classificazione delle immagini, l'encoder di immagini mostra una forte resilienza alle dimensioni troncate. La compressione da 1024 a 64 dimensioni (riduzione del 94%) comporta solo un calo dell'8% nell'accuratezza top-5 e del 12.5% nella top-1, evidenziando il suo potenziale per un'implementazione efficiente con perdite di prestazioni minime.
tagRecupero Cross-Modale
Nonostante una drastica riduzione del 94% a soli 64 dimensioni, il recupero cross-modale utilizzando embedding di immagini e testo troncati è rimasto notevolmente robusto, preservando il 93% delle prestazioni immagine-testo e il 90% delle prestazioni testo-immagine.
tagRecupero Solo Testo
Sui benchmark MTEB solo in inglese, gli embedding di testo a 64 dimensioni (compressi da 1024) hanno preservato notevolmente bene la similarità semantica, con una diminuzione di solo il 2,1%, mentre il recupero ha visto un modesto calo del 17,5%.
tagPer Iniziare
tagTramite API
Il codice dimostra come generare embedding usando requests
di Python. Passa una stringa di testo con un'immagine in base64 o URL, più la dimensione desiderata (predefinita 1024, mostrata come 768 qui sotto).
import requests
import numpy as np
from numpy.linalg import norm
cos_sim = lambda a,b: (a @ b.T) / (norm(a)*norm(b))
url = 'https://api.jina.ai/v1/embeddings'
headers = {
'Content-Type': 'application/json',
'Authorization': 'Bearer <YOUR_JINA_AI_API_KEY>'
}
data = {
'input': [
{"text": "Bridge close-shot"},
{"url": "https://fastly.picsum.photos/id/84/1280/848.jpg?hmac=YFRYDI4UsfbeTzI8ZakNOR98wVU7a-9a2tGF542539s"}],
'model': 'jina-clip-v2',
'encoding_type': 'float',
'dimensions': '768'
}
response = requests.post(url, headers=headers, json=data)
sim = cos_sim(np.array(response.json()['data'][0]['embedding']), np.array(response.json()['data'][1]['embedding']))
print(f"Cosine text<->image: {sim}")
Ricorda di sostituire <YOUR_JINA_AI_API_KEY> con una chiave API Jina attivata. Puoi ottenere una chiave API gratuita con un milione di token gratuiti qui.
tagPrezzi dei Token Immagine
La nostra API conta sia i token di testo che di immagine. Per le immagini, il consumo di token si basa sul numero di tessere da 512x512 pixel necessarie per coprire l'intera area dell'immagine. Ogni tessera costa 4.000 token da elaborare, incluse le tessere parzialmente riempite. Per un'ottimale efficienza dei costi, raccomandiamo agli utenti dell'API di ridimensionare le loro immagini a 512x512 prima di inviare le richieste.
Risoluzione Immagine | Tessere Richieste | Costo Token |
---|---|---|
512x512 | 1 | 4.000 |
720x720 | 4 | 16.000 |
1080x1080 | 9 | 36.000 |
tagTramite i Marketplace CSP
Jina CLIP v2 è disponibile direttamente su AWS, Azure e GCP ai prezzi elencati.

tagVia VectorDB



tagConclusione
Sulla base del nostro rilascio di jina-clip-v1 a giugno, che ha esteso il modello CLIP di OpenAI con input di testo fino a 8.192 token, e del pionieristico jina-embeddings-v3 multilingue, jina-clip-v2 introduce tre importanti avanzamenti: supporto multilingue per 89 lingue, maggiore risoluzione delle immagini a 512x512 e apprendimento della rappresentazione Matryoshka per embedding più troncati.
I modelli simili a CLIP si sono affermati come la spina dorsale per applicazioni multimodali general-purpose. Con jina-clip-v2, stiamo portando queste capacità al livello successivo, abbattendo le barriere linguistiche per offrire una comprensione e un recupero cross-modale più accurati. Crediamo che questo rilascio mantenga la promessa di rendere la ricerca e il recupero multimodale sia più potenti che più accessibili agli sviluppatori di tutto il mondo.