jina-clip-v1

Questo modello è obsoleto nei modelli più recenti.

Incorporamenti

Licenza Apache 2.0

Pubblicazione post

jina-clip-v1

Modelli di incorporamento multimodale per immagini e testo inglese

Licenza

Apache-2.0

Data di rilascio

2024-06-05

Ingresso

Immagine

Testo

Produzione

Vettore

Dettagli del modello

Parametri: 223M

Lunghezza del token di input: 8K

Dimensione immagine di input: 224×224

Dimensione di uscita: 768

Modello base

EVA02-B-16

jina-embeddings-v2-base-en

Lingue addestrate

1 lingue

Modelli correlati

jina-clip-v2

jina-embeddings-v3

jina-colbert-v2

Etichette

multimodal-embedding

image-text-alignment

english-only

zero-shot-classification

cross-modal-search

long-text-support

unified-embeddings

text-to-text

text-to-image

visual-semantic

Disponibile tramite

API di Jina AWS SageMaker Microsoft Azure Faccia abbracciata

Grafico I/O 1

Grafico I/O 2

Scegli i modelli da confrontare

jina-clip-v1

jina-clip-v2

jina-embeddings-v3

jina-colbert-v2

Pubblicazioni (1)

ICML 2024

maggio 30, 2024

Jina CLIP: Your CLIP Model Is Also Your Text Retriever

Panoramica

Jina CLIP v1 rivoluziona l'intelligenza artificiale multimodale, essendo il primo modello a eccellere in egual misura sia nelle attività di recupero testo-testo che testo-immagine. A differenza dei tradizionali modelli CLIP che hanno difficoltà con scenari solo testo, questo modello raggiunge prestazioni all'avanguardia in tutte le combinazioni di recupero, mantenendo al contempo una dimensione dei parametri notevolmente compatta di 223 M. Il modello affronta una sfida critica del settore eliminando la necessità di modelli separati per l'elaborazione di testo e immagini, riducendo la complessità del sistema e il sovraccarico computazionale. Per i team che creano sistemi di ricerca, motori di raccomandazione o strumenti di analisi dei contenuti, Jina CLIP v1 offre un'unica soluzione efficiente che gestisce sia il testo che i contenuti visivi con eccezionale accuratezza.

Metodi

L'architettura del modello rappresenta un'innovazione significativa nella progettazione di AI multimodale, combinando un codificatore di testo Jina BERT v2 adattato con il codificatore di immagini EVA-02 all'avanguardia della Beijing Academy for Artificial Intelligence. Il codificatore di testo supporta sequenze fino a 12.288 token, oltre 100 volte più lunghe del limite di 77 token del CLIP originale, mentre il codificatore di immagini elabora in modo efficiente 16 token patch. Il processo di addestramento segue un nuovo approccio in tre fasi: in primo luogo, allineare le coppie immagine-didascalia mantenendo la comprensione del testo tramite l'addestramento di coppie di testo interlacciate; in secondo luogo, incorporare descrizioni di testo più lunghe generate dall'AI delle immagini; e infine, utilizzare triplette di testo negative rigide per migliorare le capacità di distinzione semantica. Questa metodologia di addestramento unica consente al modello di mantenere prestazioni elevate sia nelle didascalie brevi che nelle descrizioni testuali dettagliate, preservando al contempo una solida comprensione visiva.

Prestazione

Jina CLIP v1 dimostra notevoli miglioramenti rispetto al CLIP originale di OpenAI in tutti i benchmark. Nel recupero solo testo, ottiene un aumento delle prestazioni del 165% con un punteggio di 0,429 rispetto a 0,162 di CLIP. Per le attività correlate alle immagini, mostra miglioramenti costanti: 2% in più nel recupero testo-immagine (0,899), 6% nel recupero immagine-testo (0,803) e 12% nel recupero immagine-immagine (0,916). Il modello brilla in particolare nelle attività di classificazione visiva zero-shot, categorizzando con successo le immagini senza formazione precedente su domini specifici. Quando valutato su benchmark standard come MTEB per il recupero testo, CIFAR-100 per le attività immagine e Flickr8k/30k e MSCOCO Captions per le prestazioni cross-modali, supera costantemente i modelli specializzati a modalità singola mantenendo prestazioni competitive nelle attività cross-modali.

Orientamento

Per distribuire efficacemente Jina CLIP v1, i team devono considerare sia le sue capacità che i requisiti di risorse. Il modello elabora le immagini in tile da 224x224 pixel, con ogni tile che consuma 1.000 token di capacità di elaborazione. Per prestazioni ottimali, implementa un'efficiente pre-elaborazione delle immagini per adattarla a queste dimensioni. Sebbene il modello eccella sia nell'elaborazione di testo breve che lungo, al momento supporta solo l'input in lingua inglese. I team devono considerare attentamente l'utilizzo dei token: il testo richiede circa 1,1 token per parola, mentre le immagini vengono elaborate in tile (ad esempio, un'immagine da 750x500 pixel richiede 12 tile, consumando 12.000 token). Il modello è disponibile sia tramite l'API Jina Embeddings sia come release open source su Hugging Face con licenza Apache 2.0, offrendo flessibilità nelle opzioni di distribuzione. Per gli ambienti di produzione, prendi in considerazione l'utilizzo delle opzioni di distribuzione AWS Marketplace o Azure, che forniscono configurazioni di infrastruttura ottimizzate.

Blog che menzionano questo modello

giugno 25, 2025 • 12 minuti letti

Jina Embeddings v4: 向量模型 (Embeddings) universali per il recupero multimodale multilingue

Jina Embeddings v4 è un modello di 向量模型 (Embeddings) universale da 3,8 miliardi di parametri per il recupero multimodale e multilingue che supporta sia output di 向量模型 (Embeddings) a vettore singolo che a vettore multiplo.