Disponibile tramite
Grafico I/O 1
Grafico I/O 2
Scegli i modelli da confrontare
Pubblicazioni (1)
Panoramica
Jina CLIP v1 rivoluziona l'intelligenza artificiale multimodale, essendo il primo modello a eccellere in egual misura sia nelle attività di recupero testo-testo che testo-immagine. A differenza dei tradizionali modelli CLIP che hanno difficoltà con scenari solo testo, questo modello raggiunge prestazioni all'avanguardia in tutte le combinazioni di recupero, mantenendo al contempo una dimensione dei parametri notevolmente compatta di 223 M. Il modello affronta una sfida critica del settore eliminando la necessità di modelli separati per l'elaborazione di testo e immagini, riducendo la complessità del sistema e il sovraccarico computazionale. Per i team che creano sistemi di ricerca, motori di raccomandazione o strumenti di analisi dei contenuti, Jina CLIP v1 offre un'unica soluzione efficiente che gestisce sia il testo che i contenuti visivi con eccezionale accuratezza.
Metodi
L'architettura del modello rappresenta un'innovazione significativa nella progettazione di AI multimodale, combinando un codificatore di testo Jina BERT v2 adattato con il codificatore di immagini EVA-02 all'avanguardia della Beijing Academy for Artificial Intelligence. Il codificatore di testo supporta sequenze fino a 12.288 token, oltre 100 volte più lunghe del limite di 77 token del CLIP originale, mentre il codificatore di immagini elabora in modo efficiente 16 token patch. Il processo di addestramento segue un nuovo approccio in tre fasi: in primo luogo, allineare le coppie immagine-didascalia mantenendo la comprensione del testo tramite l'addestramento di coppie di testo interlacciate; in secondo luogo, incorporare descrizioni di testo più lunghe generate dall'AI delle immagini; e infine, utilizzare triplette di testo negative rigide per migliorare le capacità di distinzione semantica. Questa metodologia di addestramento unica consente al modello di mantenere prestazioni elevate sia nelle didascalie brevi che nelle descrizioni testuali dettagliate, preservando al contempo una solida comprensione visiva.
Prestazione
Jina CLIP v1 dimostra notevoli miglioramenti rispetto al CLIP originale di OpenAI in tutti i benchmark. Nel recupero solo testo, ottiene un aumento delle prestazioni del 165% con un punteggio di 0,429 rispetto a 0,162 di CLIP. Per le attività correlate alle immagini, mostra miglioramenti costanti: 2% in più nel recupero testo-immagine (0,899), 6% nel recupero immagine-testo (0,803) e 12% nel recupero immagine-immagine (0,916). Il modello brilla in particolare nelle attività di classificazione visiva zero-shot, categorizzando con successo le immagini senza formazione precedente su domini specifici. Quando valutato su benchmark standard come MTEB per il recupero testo, CIFAR-100 per le attività immagine e Flickr8k/30k e MSCOCO Captions per le prestazioni cross-modali, supera costantemente i modelli specializzati a modalità singola mantenendo prestazioni competitive nelle attività cross-modali.
Orientamento
Per distribuire efficacemente Jina CLIP v1, i team devono considerare sia le sue capacità che i requisiti di risorse. Il modello elabora le immagini in tile da 224x224 pixel, con ogni tile che consuma 1.000 token di capacità di elaborazione. Per prestazioni ottimali, implementa un'efficiente pre-elaborazione delle immagini per adattarla a queste dimensioni. Sebbene il modello eccella sia nell'elaborazione di testo breve che lungo, al momento supporta solo l'input in lingua inglese. I team devono considerare attentamente l'utilizzo dei token: il testo richiede circa 1,1 token per parola, mentre le immagini vengono elaborate in tile (ad esempio, un'immagine da 750x500 pixel richiede 12 tile, consumando 12.000 token). Il modello è disponibile sia tramite l'API Jina Embeddings sia come release open source su Hugging Face con licenza Apache 2.0, offrendo flessibilità nelle opzioni di distribuzione. Per gli ambienti di produzione, prendi in considerazione l'utilizzo delle opzioni di distribuzione AWS Marketplace o Azure, che forniscono configurazioni di infrastruttura ottimizzate.
Blog che menzionano questo modello









