Jina CLIP v2: Embedding multilingue e multimodale per testo e immagini

jina-clip-v2 API è disponibile sotto la scheda "Embeddings".

Gli embedding multimodali permettono di cercare e comprendere dati attraverso diverse modalità mediante una rappresentazione coerente. Fungono da base per il recupero di informazioni neurali e le applicazioni GenAI multimodali. Oggi siamo entusiasti di rilasciare jina-clip-v2, un nuovo modello di embedding multimodale multilingue per uso generale costruito su jina-clip-v1 e il nostro recentemente rilasciato jina-embeddings-3, con diversi miglioramenti chiave:

Prestazioni Migliorate: v2 mostra un miglioramento delle prestazioni del 3% rispetto a v1 sia nelle attività di recupero testo-immagine che testo-testo. Come v1, l'encoder testuale di v2 può fungere da efficace recuperatore denso multilingue per contesti lunghi. Le sue prestazioni sono alla pari con il nostro modello di frontiera jina-embeddings-v3 (attualmente i migliori embedding multilingue sotto 1B parametri su MTEB).
Supporto Multilingue: Alimentato da jina-embeddings-v3 come torre testuale, jina-clip-v2 supporta 89 lingue per il recupero multilingue-immagine, mostrando un miglioramento fino al 4% rispetto a nllb-clip-large-siglip nelle attività di recupero di immagini multilingue.
Risoluzione Immagine Superiore: v2 ora supporta una risoluzione dell'immagine in input di 512x512, un aumento significativo rispetto ai 224x224 di v1. Questa risoluzione più alta permette una migliore elaborazione delle immagini dettagliate, una migliore estrazione delle caratteristiche e un riconoscimento più accurato degli elementi visivi dettagliati.
Rappresentazioni Matrioska: v2 permette agli utenti di troncare le dimensioni di output degli embedding sia di testo che di immagini da 1024 fino a 64, riducendo l'overhead di memorizzazione ed elaborazione mantenendo prestazioni elevate.

tagArchitettura del Modello

jina-clip-v2 è un modello stile CLIP da 0.9B che combina due potenti encoder: l'encoder testuale Jina XLM-RoBERTa (la base di jina-embeddings-v3) e l'encoder visivo EVA02-L14 (un efficiente Transformer visivo sviluppato da BAAI). Questi encoder sono addestrati congiuntamente per creare rappresentazioni allineate di immagini e testo.

Feature	Text Encoder	Image Encoder
Base Model	Jina XLM-RoBERTa	EVA02-L
Parameters	561M	304M
Input Specification	8,192 tokens (max)	512×512 pixels
Min Output Dimensions	64	64
Max Output Dimensions	1,024	1,024
Layers	24	24
Attention Mechanism	FlashAttention2	xFormers
Pooling Strategy	Mean pooling	CLS pooling
Additional Features	89 languages supported	Patch size 14x14

Jina CLIP v2 fornisce supporto multilingue per 89 lingue e offre prestazioni di alto livello nelle principali lingue tra cui arabo, cinese, inglese, francese, tedesco, giapponese, russo e spagnolo. Nei benchmark di recupero immagini multilingue, mostra prestazioni che eguagliano o superano NLLB-CLIP-SigLIP, un modello stile CLIP leggermente più grande (1.3B, 44% più grande di jina-clip-v2) allo stato dell'arte che utilizza un encoder testuale pre-addestrato dai modelli NLLB.

tagTesto e Immagini Solo in Inglese

Sui benchmark standard di recupero cross-modale (Flickr30k e COCO), jina-clip-v2 dimostra notevoli miglioramenti su tutti i fronti. Raggiunge prestazioni allo stato dell'arte del 98.0% sul recupero immagine-testo di Flickr30k, superando sia il suo predecessore che NLLB-CLIP-SigLIP. Il modello mostra guadagni costanti in tutti gli scenari di recupero, con miglioramenti notevoli fino al 3.3% rispetto a v1 sul recupero immagine-testo di COCO, mantenendo prestazioni competitive con NLLB-CLIP-SigLIP su diversi benchmark e direzioni di modalità.

Prestazioni Flickr30k Recall@5:

Task	Model	Score	Relative to v1	Relative to NLLB
Image-to-text	jina-clip-v2	98.0	+1.7%	+0.9%
	jina-clip-v1	96.4	-	-0.7%
	nllb-siglip-large	97.1	-	-
Text-to-image	jina-clip-v2	89.8	+0.9%	-2.6%
	jina-clip-v1	89.0	-	-3.5%
	nllb-siglip-large	92.2	-	-

Prestazioni COCO Recall@5:

Task	Model	Score	Relative to v1	Relative to NLLB
Image-to-text	jina-clip-v2	81.5	+3.3%	+2.9%
	jina-clip-v1	78.9	-	-0.4%
	nllb-siglip-large	79.2	-	-
Text-to-image	jina-clip-v2	68.4	+2.9%	-3.4%
	jina-clip-v1	66.5	-	-6.1%
	nllb-siglip-large	70.8	-	-

tagTesto e Immagini Multilingue

Sui benchmark cross-modali multilingue, jina-clip-v2 dimostra prestazioni robuste, eccellendo particolarmente nel recupero immagine-testo dove supera NLLB-SigLIP su tutti i dataset, con un miglioramento fino al +3.8% su Crossmodal 3600. Mentre NLLB-SigLIP mostra capacità leggermente superiori nel recupero testo-immagine, il divario di prestazioni rimane piccolo, tipicamente entro il 3%.

Prestazioni Image2Text Recall@5:

Benchmark	Model	Score	Relative to NLLB
Crossmodal 3600	jina-clip-v2	83.23	+3.8%
	nllb-siglip-large	80.16	-
Multilingual MS Coco	jina-clip-v2	86.03	+0.8%
	nllb-siglip-large	85.37	-
XTD10	jina-clip-v2	85.98	+0.7%
	nllb-siglip-large	85.41	-

Prestazioni Text2Image Recall@5:

Benchmark	Model	Score	Relative to NLLB
Crossmodal 3600	jina-clip-v2	81.43	-0.8%
	nllb-siglip-large	82.07	-
Multilingual MS Coco	jina-clip-v2	84.87	-3.1%
	nllb-siglip-large	87.60	-
XTD10	jina-clip-v2	85.03	-3.0%
	nllb-siglip-large	87.63	-

tagPrestazioni del Retriever Denso Solo Testo

Come il suo predecessore, l'encoder testuale di jina-clip-v2 può fungere da efficace retriever multilingue denso. Sui completi benchmark Multilingual MTEB, raggiunge ottime prestazioni, toccando il 69.86% nel recupero e il 67.77% nei compiti di similarità semantica. Questi risultati dimostrano la sua versatilità, competendo con il nostro modello specializzato di embedding testuale jina-embeddings-v3:

Task	Model	Score	Relative to v3
Retrieval	jina-clip-v2	69.86	-3.8%
	jina-embeddings-v3	72.59	-
Semantic Similarity	jina-clip-v2	67.77	-2.9%
	jina-embeddings-v3	69.81	-

Sui task in inglese, jina-clip-v2 mostra costanti miglioramenti rispetto sia al predecessore che a NLLB-SigLIP, con vantaggi particolarmente evidenti nelle prestazioni di recupero (quasi il doppio del punteggio di NLLB-SigLIP).

Task	Model	Score	Relative to v1
STS	jina-clip-v2	81.29	+0.5%
	jina-clip-v1	80.92	-
	nllb-siglip-large	74.65	-
Retrieval	jina-clip-v2	49.33	+2.1%
	jina-clip-v1	48.33	-
	nllb-siglip-large	24.92	-

tagPrestazioni della Rappresentazione Matryoshka

Sia gli encoder testuali che quelli di immagini supportano MRL, e le loro dimensioni di output possono essere troncate a 64 mantenendo prestazioni elevate. La nostra valutazione del troncamento degli embedding ha rivelato un notevole potenziale di compressione. Persino una riduzione dimensionale aggressiva del 75% ha mantenuto oltre il 99% delle prestazioni in tutti i task testuali, di immagine e cross-modali.

tagClassificazione delle Immagini

Su 37 diversi benchmark di classificazione delle immagini, l'encoder di immagini mostra una forte resilienza alle dimensioni troncate. La compressione da 1024 a 64 dimensioni (riduzione del 94%) comporta solo un calo dell'8% nell'accuratezza top-5 e del 12.5% nella top-1, evidenziando il suo potenziale per un'implementazione efficiente con perdite di prestazioni minime.

Per la classificazione delle immagini, abbiamo utilizzato i 19 benchmark nel dataset VTAB, VOC 2007, SUN397, STL10, Rendered SST2, ObjectNet, MNIST, German Traffic Sign Recognition Benchmark (GTSRB), Fine-Grained Visual Classification of Aircraft (FGVC-Aircraft), FER 2013, Country211, Cars196, ImageNet-A, ImageNet-O,IxmageNet1k, ImageNet Sketch e ImageNet v2.

Nonostante una drastica riduzione del 94% a soli 64 dimensioni, il recupero cross-modale utilizzando embedding di immagini e testo troncati è rimasto notevolmente robusto, preservando il 93% delle prestazioni immagine-testo e il 90% delle prestazioni testo-immagine.

Abbiamo utilizzato sei benchmark, tre dei quali sono multilingue: Crossmodal-3600 (36 lingue), flickr30k (solo inglese), flickr8k (solo inglese), MS COCO Captions (solo inglese), Multilingual MS COCO Captions (10 lingue), XTD 200 (27 lingue)

tagRecupero Solo Testo

Sui benchmark MTEB solo in inglese, gli embedding di testo a 64 dimensioni (compressi da 1024) hanno preservato notevolmente bene la similarità semantica, con una diminuzione di solo il 2,1%, mentre il recupero ha visto un modesto calo del 17,5%.

tagPer Iniziare

tagTramite API

Il codice dimostra come generare embedding usando requests di Python. Passa una stringa di testo con un'immagine in base64 o URL, più la dimensione desiderata (predefinita 1024, mostrata come 768 qui sotto).

import requests
import numpy as np
from numpy.linalg import norm

cos_sim = lambda a,b: (a @ b.T) / (norm(a)*norm(b))

url = 'https://api.jina.ai/v1/embeddings'

headers = {
  'Content-Type': 'application/json',
  'Authorization': 'Bearer <YOUR_JINA_AI_API_KEY>'
}

data = {
  'input': [
     {"text": "Bridge close-shot"},
     {"url": "https://fastly.picsum.photos/id/84/1280/848.jpg?hmac=YFRYDI4UsfbeTzI8ZakNOR98wVU7a-9a2tGF542539s"}],
  'model': 'jina-clip-v2',
  'encoding_type': 'float',
  'dimensions': '768' 
}

response = requests.post(url, headers=headers, json=data)
sim = cos_sim(np.array(response.json()['data'][0]['embedding']), np.array(response.json()['data'][1]['embedding']))
print(f"Cosine text<->image: {sim}")

Ricorda di sostituire <YOUR_JINA_AI_API_KEY> con una chiave API Jina attivata. Puoi ottenere una chiave API gratuita con un milione di token gratuiti qui.

tagPrezzi dei Token Immagine

La nostra API conta sia i token di testo che di immagine. Per le immagini, il consumo di token si basa sul numero di tessere da 512x512 pixel necessarie per coprire l'intera area dell'immagine. Ogni tessera costa 4.000 token da elaborare, incluse le tessere parzialmente riempite. Per un'ottimale efficienza dei costi, raccomandiamo agli utenti dell'API di ridimensionare le loro immagini a 512x512 prima di inviare le richieste.

Risoluzione Immagine	Tessere Richieste	Costo Token
512x512	1	4.000
720x720	4	16.000
1080x1080	9	36.000

Per le immagini quadrate, ridimensiona a 512x512 per la migliore efficienza dei costi. Per le attività sensibili al rapporto d'aspetto, scala il lato più lungo a 512, centra l'immagine e riempi con il nero. Per scopi generali, il ridimensionamento diretto a 512x512 funziona bene.

tagTramite i Marketplace CSP

Jina CLIP v2 è disponibile direttamente su AWS, Azure e GCP ai prezzi elencati.

Microsoft Azure Marketplace

Google Cloud console

Spendi in modo intelligente, acquista più velocemente e utilizza il credito impegnato su Google Cloud con Google Cloud Marketplace. Sfoglia il catalogo di oltre 2000 SaaS, VM, stack di sviluppo e app Kubernetes ottimizzate per l'esecuzione su Google Cloud.

tagVia VectorDB

tagConclusione

Sulla base del nostro rilascio di jina-clip-v1 a giugno, che ha esteso il modello CLIP di OpenAI con input di testo fino a 8.192 token, e del pionieristico jina-embeddings-v3 multilingue, jina-clip-v2 introduce tre importanti avanzamenti: supporto multilingue per 89 lingue, maggiore risoluzione delle immagini a 512x512 e apprendimento della rappresentazione Matryoshka per embedding più troncati.

I modelli simili a CLIP si sono affermati come la spina dorsale per applicazioni multimodali general-purpose. Con jina-clip-v2, stiamo portando queste capacità al livello successivo, abbattendo le barriere linguistiche per offrire una comprensione e un recupero cross-modale più accurati. Crediamo che questo rilascio mantenga la promessa di rendere la ricerca e il recupero multimodale sia più potenti che più accessibili agli sviluppatori di tutto il mondo.