Notizia
Modelli
Prodotti
keyboard_arrow_down
Lettore
Leggi gli URL e cerca sul web per ottenere LLM più approfonditi.
Incorporamenti
Incorporamenti multilingue multimodali di livello mondiale.
Riclassificazione
Recupero neurale di livello mondiale per massimizzare la pertinenza della ricerca.
Ricerca profonda
Cerca, leggi e ragiona finché non trovi la risposta migliore.
Di più
keyboard_arrow_down
Classificatore
Classificazione zero-shot e few-shot per immagini e testo.
Segmentatore
Tagliare il testo lungo in blocchi ed effettuare la tokenizzazione.

Documentazione API
Generazione automatica di codice per il tuo IDE o LLM di Copilot
open_in_new


Azienda
keyboard_arrow_down
Chi siamo
Contatta le vendite
Programma di stagista
Unisciti a noi
open_in_new
Scarica il logo
open_in_new
Termini & Condizioni


Login
login
Architettura del Modello
Prestazioni di Recupero Cross-Modale
Prestazioni del Retriever Denso Solo Testo
Prestazioni della Rappresentazione Matryoshka
Per Iniziare
Conclusione
star
In primo piano
comunicato stampa
novembre 21, 2024

Jina CLIP v2: Embedding multilingue e multimodale per testo e immagini

Jina-CLIP v2, un modello di embedding multimodale da 0,9B con supporto multilingue per 89 lingue, alta risoluzione delle immagini a 512x512 e rappresentazioni Matryoshka.
Jina AI
Jina AI • 8 minuti letti
jinaai/jina-clip-v2 · Hugging Face
Siamo in un viaggio per far progredire e democratizzare l'intelligenza artificiale attraverso l'open source e la scienza aperta.
Jina AI - La tua base di ricerca, potenziata.
I migliori embedding, rerankers, LLM-reader, web scraper, classificatori. La migliore AI di ricerca per dati multilingue e multimodali.
La tua base di ricerca, potenziata.

jina-clip-v2 API è disponibile sotto la scheda "Embeddings".

Gli embedding multimodali permettono di cercare e comprendere dati attraverso diverse modalità mediante una rappresentazione coerente. Fungono da base per il recupero di informazioni neurali e le applicazioni GenAI multimodali. Oggi siamo entusiasti di rilasciare jina-clip-v2, un nuovo modello di embedding multimodale multilingue per uso generale costruito su jina-clip-v1 e il nostro recentemente rilasciato jina-embeddings-3, con diversi miglioramenti chiave:

  • Prestazioni Migliorate: v2 mostra un miglioramento delle prestazioni del 3% rispetto a v1 sia nelle attività di recupero testo-immagine che testo-testo. Come v1, l'encoder testuale di v2 può fungere da efficace recuperatore denso multilingue per contesti lunghi. Le sue prestazioni sono alla pari con il nostro modello di frontiera jina-embeddings-v3 (attualmente i migliori embedding multilingue sotto 1B parametri su MTEB).
  • Supporto Multilingue: Alimentato da jina-embeddings-v3 come torre testuale, jina-clip-v2 supporta 89 lingue per il recupero multilingue-immagine, mostrando un miglioramento fino al 4% rispetto a nllb-clip-large-siglip nelle attività di recupero di immagini multilingue.
  • Risoluzione Immagine Superiore: v2 ora supporta una risoluzione dell'immagine in input di 512x512, un aumento significativo rispetto ai 224x224 di v1. Questa risoluzione più alta permette una migliore elaborazione delle immagini dettagliate, una migliore estrazione delle caratteristiche e un riconoscimento più accurato degli elementi visivi dettagliati.
  • Rappresentazioni Matrioska: v2 permette agli utenti di troncare le dimensioni di output degli embedding sia di testo che di immagini da 1024 fino a 64, riducendo l'overhead di memorizzazione ed elaborazione mantenendo prestazioni elevate.

tagArchitettura del Modello

jina-clip-v2 è un modello stile CLIP da 0.9B che combina due potenti encoder: l'encoder testuale Jina XLM-RoBERTa (la base di jina-embeddings-v3) e l'encoder visivo EVA02-L14 (un efficiente Transformer visivo sviluppato da BAAI). Questi encoder sono addestrati congiuntamente per creare rappresentazioni allineate di immagini e testo.

Feature Text Encoder Image Encoder
Base Model Jina XLM-RoBERTa EVA02-L
Parameters 561M 304M
Input Specification 8,192 tokens (max) 512×512 pixels
Min Output Dimensions 64 64
Max Output Dimensions 1,024 1,024
Layers 24 24
Attention Mechanism FlashAttention2 xFormers
Pooling Strategy Mean pooling CLS pooling
Additional Features 89 languages supported Patch size 14x14

tagPrestazioni di Recupero Cross-Modale

Jina CLIP v2 fornisce supporto multilingue per 89 lingue e offre prestazioni di alto livello nelle principali lingue tra cui arabo, cinese, inglese, francese, tedesco, giapponese, russo e spagnolo. Nei benchmark di recupero immagini multilingue, mostra prestazioni che eguagliano o superano NLLB-CLIP-SigLIP, un modello stile CLIP leggermente più grande (1.3B, 44% più grande di jina-clip-v2) allo stato dell'arte che utilizza un encoder testuale pre-addestrato dai modelli NLLB.

tagTesto e Immagini Solo in Inglese

Sui benchmark standard di recupero cross-modale (Flickr30k e COCO), jina-clip-v2 dimostra notevoli miglioramenti su tutti i fronti. Raggiunge prestazioni allo stato dell'arte del 98.0% sul recupero immagine-testo di Flickr30k, superando sia il suo predecessore che NLLB-CLIP-SigLIP. Il modello mostra guadagni costanti in tutti gli scenari di recupero, con miglioramenti notevoli fino al 3.3% rispetto a v1 sul recupero immagine-testo di COCO, mantenendo prestazioni competitive con NLLB-CLIP-SigLIP su diversi benchmark e direzioni di modalità.

Prestazioni Flickr30k Recall@5:

Task Model Score Relative to v1 Relative to NLLB
Image-to-text jina-clip-v2 98.0 +1.7% +0.9%
jina-clip-v1 96.4 - -0.7%
nllb-siglip-large 97.1 - -
Text-to-image jina-clip-v2 89.8 +0.9% -2.6%
jina-clip-v1 89.0 - -3.5%
nllb-siglip-large 92.2 - -

Prestazioni COCO Recall@5:

Task Model Score Relative to v1 Relative to NLLB
Image-to-text jina-clip-v2 81.5 +3.3% +2.9%
jina-clip-v1 78.9 - -0.4%
nllb-siglip-large 79.2 - -
Text-to-image jina-clip-v2 68.4 +2.9% -3.4%
jina-clip-v1 66.5 - -6.1%
nllb-siglip-large 70.8 - -

tagTesto e Immagini Multilingue

Sui benchmark cross-modali multilingue, jina-clip-v2 dimostra prestazioni robuste, eccellendo particolarmente nel recupero immagine-testo dove supera NLLB-SigLIP su tutti i dataset, con un miglioramento fino al +3.8% su Crossmodal 3600. Mentre NLLB-SigLIP mostra capacità leggermente superiori nel recupero testo-immagine, il divario di prestazioni rimane piccolo, tipicamente entro il 3%.

Prestazioni Image2Text Recall@5:

Benchmark Model Score Relative to NLLB
Crossmodal 3600 jina-clip-v2 83.23 +3.8%
nllb-siglip-large 80.16 -
Multilingual MS Coco jina-clip-v2 86.03 +0.8%
nllb-siglip-large 85.37 -
XTD10 jina-clip-v2 85.98 +0.7%
nllb-siglip-large 85.41 -

Prestazioni Text2Image Recall@5:

Benchmark Model Score Relative to NLLB
Crossmodal 3600 jina-clip-v2 81.43 -0.8%
nllb-siglip-large 82.07 -
Multilingual MS Coco jina-clip-v2 84.87 -3.1%
nllb-siglip-large 87.60 -
XTD10 jina-clip-v2 85.03 -3.0%
nllb-siglip-large 87.63 -

tagPrestazioni del Retriever Denso Solo Testo

Come il suo predecessore, l'encoder testuale di jina-clip-v2 può fungere da efficace retriever multilingue denso. Sui completi benchmark Multilingual MTEB, raggiunge ottime prestazioni, toccando il 69.86% nel recupero e il 67.77% nei compiti di similarità semantica. Questi risultati dimostrano la sua versatilità, competendo con il nostro modello specializzato di embedding testuale jina-embeddings-v3:

Task Model Score Relative to v3
Retrieval jina-clip-v2 69.86 -3.8%
jina-embeddings-v3 72.59 -
Semantic Similarity jina-clip-v2 67.77 -2.9%
jina-embeddings-v3 69.81 -

Sui task in inglese, jina-clip-v2 mostra costanti miglioramenti rispetto sia al predecessore che a NLLB-SigLIP, con vantaggi particolarmente evidenti nelle prestazioni di recupero (quasi il doppio del punteggio di NLLB-SigLIP).

Task Model Score Relative to v1
STS jina-clip-v2 81.29 +0.5%
jina-clip-v1 80.92 -
nllb-siglip-large 74.65 -
Retrieval jina-clip-v2 49.33 +2.1%
jina-clip-v1 48.33 -
nllb-siglip-large 24.92 -

tagPrestazioni della Rappresentazione Matryoshka

Sia gli encoder testuali che quelli di immagini supportano MRL, e le loro dimensioni di output possono essere troncate a 64 mantenendo prestazioni elevate. La nostra valutazione del troncamento degli embedding ha rivelato un notevole potenziale di compressione. Persino una riduzione dimensionale aggressiva del 75% ha mantenuto oltre il 99% delle prestazioni in tutti i task testuali, di immagine e cross-modali.

tagClassificazione delle Immagini

Su 37 diversi benchmark di classificazione delle immagini, l'encoder di immagini mostra una forte resilienza alle dimensioni troncate. La compressione da 1024 a 64 dimensioni (riduzione del 94%) comporta solo un calo dell'8% nell'accuratezza top-5 e del 12.5% nella top-1, evidenziando il suo potenziale per un'implementazione efficiente con perdite di prestazioni minime.

Per la classificazione delle immagini, abbiamo utilizzato i 19 benchmark nel dataset VTAB, VOC 2007, SUN397, STL10, Rendered SST2, ObjectNet, MNIST, German Traffic Sign Recognition Benchmark (GTSRB), Fine-Grained Visual Classification of Aircraft (FGVC-Aircraft), FER 2013, Country211, Cars196, ImageNet-A, ImageNet-O,IxmageNet1k, ImageNet Sketch e ImageNet v2.

tagRecupero Cross-Modale

Nonostante una drastica riduzione del 94% a soli 64 dimensioni, il recupero cross-modale utilizzando embedding di immagini e testo troncati è rimasto notevolmente robusto, preservando il 93% delle prestazioni immagine-testo e il 90% delle prestazioni testo-immagine.

Abbiamo utilizzato sei benchmark, tre dei quali sono multilingue: Crossmodal-3600 (36 lingue), flickr30k (solo inglese), flickr8k (solo inglese), MS COCO Captions (solo inglese), Multilingual MS COCO Captions (10 lingue), XTD 200 (27 lingue)

tagRecupero Solo Testo

Sui benchmark MTEB solo in inglese, gli embedding di testo a 64 dimensioni (compressi da 1024) hanno preservato notevolmente bene la similarità semantica, con una diminuzione di solo il 2,1%, mentre il recupero ha visto un modesto calo del 17,5%.

tagPer Iniziare

tagTramite API

Il codice dimostra come generare embedding usando requests di Python. Passa una stringa di testo con un'immagine in base64 o URL, più la dimensione desiderata (predefinita 1024, mostrata come 768 qui sotto).

import requests
import numpy as np
from numpy.linalg import norm

cos_sim = lambda a,b: (a @ b.T) / (norm(a)*norm(b))

url = 'https://api.jina.ai/v1/embeddings'

headers = {
  'Content-Type': 'application/json',
  'Authorization': 'Bearer <YOUR_JINA_AI_API_KEY>'
}

data = {
  'input': [
     {"text": "Bridge close-shot"},
     {"url": "https://fastly.picsum.photos/id/84/1280/848.jpg?hmac=YFRYDI4UsfbeTzI8ZakNOR98wVU7a-9a2tGF542539s"}],
  'model': 'jina-clip-v2',
  'encoding_type': 'float',
  'dimensions': '768' 
}

response = requests.post(url, headers=headers, json=data)
sim = cos_sim(np.array(response.json()['data'][0]['embedding']), np.array(response.json()['data'][1]['embedding']))
print(f"Cosine text<->image: {sim}")

Ricorda di sostituire <YOUR_JINA_AI_API_KEY> con una chiave API Jina attivata. Puoi ottenere una chiave API gratuita con un milione di token gratuiti qui.

tagPrezzi dei Token Immagine

La nostra API conta sia i token di testo che di immagine. Per le immagini, il consumo di token si basa sul numero di tessere da 512x512 pixel necessarie per coprire l'intera area dell'immagine. Ogni tessera costa 4.000 token da elaborare, incluse le tessere parzialmente riempite. Per un'ottimale efficienza dei costi, raccomandiamo agli utenti dell'API di ridimensionare le loro immagini a 512x512 prima di inviare le richieste.

Risoluzione Immagine Tessere Richieste Costo Token
512x512 1 4.000
720x720 4 16.000
1080x1080 9 36.000
Per le immagini quadrate, ridimensiona a 512x512 per la migliore efficienza dei costi. Per le attività sensibili al rapporto d'aspetto, scala il lato più lungo a 512, centra l'immagine e riempi con il nero. Per scopi generali, il ridimensionamento diretto a 512x512 funziona bene.

tagTramite i Marketplace CSP

Jina CLIP v2 è disponibile direttamente su AWS, Azure e GCP ai prezzi elencati.

AWS Marketplace: Jina CLIP v2
Microsoft Azure Marketplace
Google Cloud console
Spendi in modo intelligente, acquista più velocemente e utilizza il credito impegnato su Google Cloud con Google Cloud Marketplace. Sfoglia il catalogo di oltre 2000 SaaS, VM, stack di sviluppo e app Kubernetes ottimizzate per l'esecuzione su Google Cloud.

tagVia VectorDB

Il database vettoriale per costruire AI consapevole | Pinecone
Cerca tra miliardi di elementi le corrispondenze simili a qualsiasi oggetto, in millisecondi. È la prossima generazione di ricerca, a portata di chiamata API.
Pinecone Docs
Embeddings Multimodali | Weaviate
L'integrazione di Weaviate con le API di Jina AI ti permette di accedere direttamente alle capacità dei loro modelli da Weaviate.
Weaviate
Jina Embeddings - Qdrant
Qdrant è un Database Vettoriale e un Motore di Ricerca Vettoriale Open-Source scritto in Rust. Fornisce un servizio di ricerca per similarità vettoriale veloce e scalabile con API intuitive.
editQdrant

tagConclusione

Sulla base del nostro rilascio di jina-clip-v1 a giugno, che ha esteso il modello CLIP di OpenAI con input di testo fino a 8.192 token, e del pionieristico jina-embeddings-v3 multilingue, jina-clip-v2 introduce tre importanti avanzamenti: supporto multilingue per 89 lingue, maggiore risoluzione delle immagini a 512x512 e apprendimento della rappresentazione Matryoshka per embedding più troncati.

I modelli simili a CLIP si sono affermati come la spina dorsale per applicazioni multimodali general-purpose. Con jina-clip-v2, stiamo portando queste capacità al livello successivo, abbattendo le barriere linguistiche per offrire una comprensione e un recupero cross-modale più accurati. Crediamo che questo rilascio mantenga la promessa di rendere la ricerca e il recupero multimodale sia più potenti che più accessibili agli sviluppatori di tutto il mondo.

Categorie:
star
In primo piano
comunicato stampa
rss_feed
Uffici
location_on
Sunnyvale, California
710 Lakeway Dr, Ste 200, Sunnyvale, CA 94085, Stati Uniti
location_on
Berlino, Germania (sede centrale)
Prinzessinnenstraße 19-20, 10969 Berlino, Germania
location_on
Pechino, Cina
Livello 5, Edificio 6, No.48 Haidian West St. Pechino, Cina
location_on
Shenzen, Cina
402 Piano 4, Fu'an Technology Building, Shenzhen, Cina
Fondazione di ricerca
Lettore
Incorporamenti
Riclassificazione
Ricerca profonda
Classificatore
Segmentatore
Documentazione API
Ottieni la chiave API Jina
Limite di velocità
Stato dell'API
Azienda
Chi siamo
Contatta le vendite
Sala stampa
Programma di stagista
Unisciti a noi
open_in_new
Scarica il logo
open_in_new
Termini
Sicurezza
Termini & Condizioni
Privacy
Gestisci i cookie
email
Jina AI © 2020-2025.