Notizia
Modelli
API
keyboard_arrow_down
Lettore
Leggi gli URL e cerca sul web per ottenere LLM più approfonditi.
Incorporamenti
Incorporamenti multilingue multimodali di livello mondiale.
Riclassificazione
Recupero neurale di livello mondiale per massimizzare la pertinenza della ricerca.
Elastic Inference Service
Esegui i modelli Jina in modo nativo all'interno di Elasticsearch.
MCP terminalCLIarticlellms.txtsmart_toyAgentidata_objectSchemamenu_bookDocumenti



Login
login
warning
Questo modello è obsoleto nei modelli più recenti.
Incorporamenti
Licenza Apache 2.0
open_in_new Pubblicazione post

jina-clip-v1

Modelli di incorporamento multimodale per immagini e testo inglese
Licenza
Apache-2.0
Data di rilascio
calendar_month
2024-06-05
Ingresso
image
Immagine
abc
Testo
arrow_forward
Produzione
more_horiz
Vettore
Dettagli del modello
Parametri: 223M
Lunghezza del token di input: 8K
Dimensione immagine di input: 224×224
Dimensione di uscita: 768
Modello base help_outline
open_in_new
EVA02-B-16
open_in_new
jina-embeddings-v2-base-en
Lingue addestrate help_outline
1 lingue
Modelli correlati
link
jina-clip-v2
link
jina-embeddings-v3
link
jina-colbert-v2
Etichette
multimodal-embedding
image-text-alignment
english-only
zero-shot-classification
cross-modal-search
long-text-support
unified-embeddings
text-to-text
text-to-image
visual-semantic
Disponibile tramite
API di JinaAWS SageMakerMicrosoft AzureFaccia abbracciata
Grafico I/O 1

Testo

jina-clip-v1

Vettore

Grafico I/O 2

Immagine

jina-clip-v1

Vettore

Scegli i modelli da confrontare
Pubblicazioni (1)
ICML 2024
maggio 30, 2024
Jina CLIP: Your CLIP Model Is Also Your Text Retriever

Panoramica

Jina CLIP v1 rivoluziona l'intelligenza artificiale multimodale, essendo il primo modello a eccellere in egual misura sia nelle attività di recupero testo-testo che testo-immagine. A differenza dei tradizionali modelli CLIP che hanno difficoltà con scenari solo testo, questo modello raggiunge prestazioni all'avanguardia in tutte le combinazioni di recupero, mantenendo al contempo una dimensione dei parametri notevolmente compatta di 223 M. Il modello affronta una sfida critica del settore eliminando la necessità di modelli separati per l'elaborazione di testo e immagini, riducendo la complessità del sistema e il sovraccarico computazionale. Per i team che creano sistemi di ricerca, motori di raccomandazione o strumenti di analisi dei contenuti, Jina CLIP v1 offre un'unica soluzione efficiente che gestisce sia il testo che i contenuti visivi con eccezionale accuratezza.

Metodi

L'architettura del modello rappresenta un'innovazione significativa nella progettazione di AI multimodale, combinando un codificatore di testo Jina BERT v2 adattato con il codificatore di immagini EVA-02 all'avanguardia della Beijing Academy for Artificial Intelligence. Il codificatore di testo supporta sequenze fino a 12.288 token, oltre 100 volte più lunghe del limite di 77 token del CLIP originale, mentre il codificatore di immagini elabora in modo efficiente 16 token patch. Il processo di addestramento segue un nuovo approccio in tre fasi: in primo luogo, allineare le coppie immagine-didascalia mantenendo la comprensione del testo tramite l'addestramento di coppie di testo interlacciate; in secondo luogo, incorporare descrizioni di testo più lunghe generate dall'AI delle immagini; e infine, utilizzare triplette di testo negative rigide per migliorare le capacità di distinzione semantica. Questa metodologia di addestramento unica consente al modello di mantenere prestazioni elevate sia nelle didascalie brevi che nelle descrizioni testuali dettagliate, preservando al contempo una solida comprensione visiva.

Prestazione

Jina CLIP v1 dimostra notevoli miglioramenti rispetto al CLIP originale di OpenAI in tutti i benchmark. Nel recupero solo testo, ottiene un aumento delle prestazioni del 165% con un punteggio di 0,429 rispetto a 0,162 di CLIP. Per le attività correlate alle immagini, mostra miglioramenti costanti: 2% in più nel recupero testo-immagine (0,899), 6% nel recupero immagine-testo (0,803) e 12% nel recupero immagine-immagine (0,916). Il modello brilla in particolare nelle attività di classificazione visiva zero-shot, categorizzando con successo le immagini senza formazione precedente su domini specifici. Quando valutato su benchmark standard come MTEB per il recupero testo, CIFAR-100 per le attività immagine e Flickr8k/30k e MSCOCO Captions per le prestazioni cross-modali, supera costantemente i modelli specializzati a modalità singola mantenendo prestazioni competitive nelle attività cross-modali.

Orientamento

Per distribuire efficacemente Jina CLIP v1, i team devono considerare sia le sue capacità che i requisiti di risorse. Il modello elabora le immagini in tile da 224x224 pixel, con ogni tile che consuma 1.000 token di capacità di elaborazione. Per prestazioni ottimali, implementa un'efficiente pre-elaborazione delle immagini per adattarla a queste dimensioni. Sebbene il modello eccella sia nell'elaborazione di testo breve che lungo, al momento supporta solo l'input in lingua inglese. I team devono considerare attentamente l'utilizzo dei token: il testo richiede circa 1,1 token per parola, mentre le immagini vengono elaborate in tile (ad esempio, un'immagine da 750x500 pixel richiede 12 tile, consumando 12.000 token). Il modello è disponibile sia tramite l'API Jina Embeddings sia come release open source su Hugging Face con licenza Apache 2.0, offrendo flessibilità nelle opzioni di distribuzione. Per gli ambienti di produzione, prendi in considerazione l'utilizzo delle opzioni di distribuzione AWS Marketplace o Azure, che forniscono configurazioni di infrastruttura ottimizzate.
Blog che menzionano questo modello
giugno 25, 2025 • 12 minuti letti
Jina Embeddings v4: 向量模型 (Embeddings) universali per il recupero multimodale multilingue
Jina Embeddings v4 è un modello di 向量模型 (Embeddings) universale da 3,8 miliardi di parametri per il recupero multimodale e multilingue che supporta sia output di 向量模型 (Embeddings) a vettore singolo che a vettore multiplo.
Jina AI
Word "Embeddings" followed by a numeric or symbol representation, displayed in multiple colors on a technology-themed, colorf
aprile 08, 2025 • 21 minuti letti
jina-reranker-m0: Reranker multilingue e multimodale per documenti
Presentiamo jina-reranker-m0, il nostro nuovo reranker multimodale multilingue per il recupero di documenti visivi, con prestazioni allo stato dell'arte su documenti lunghi multilingue e attività di ricerca codice.
Jina AI
Modern dot matrix text display on a dark blue background, conveying a digital feel.
dicembre 12, 2024 • 12 minuti letti
Scalare il Calcolo di Test-Time per i Modelli di Embedding
I risultati migliori si ottengono con più potenza di calcolo—più per l'apprendimento, più per la ricerca. Un buon modello pre-addestrato ti porta lontano, ma la potenza di calcolo in fase di test ti porta ancora più lontano. È importante riconoscere questo nuovo paradigma di scaling della potenza di calcolo in fase di test, anche per i modelli di embedding.
Han Xiao
David Hockney artwork of a hand holding a rod with three colored spheres on a blue-toned background.
dicembre 04, 2024 • 13 minuti letti
C'è Ancora Bisogno del Chunking Quando i Modelli Long-Context Possono Fare Tutto?
Confronto delle prestazioni dei modelli di embedding a contesto lungo con diverse strategie di suddivisione per trovare l'approccio ottimale per le tue esigenze.
Michael Günther
Alex C-G
Artistic pixel art of two seagulls on colored pipes with speech bubbles; one reads "Too long?" and the other shows math equat
novembre 21, 2024 • 9 minuti letti
Jina CLIP v2: Embedding multilingue e multimodale per testo e immagini
Jina-CLIP v2, un modello di embedding multimodale da 0,9B con supporto multilingue per 89 lingue, alta risoluzione delle immagini a 512x512 e rappresentazioni Matryoshka.
Jina AI
Digital number "2" displayed in a mosaic of colorful squares against a dark background, creating a futuristic vibe.
Fondazione di ricerca
Lettore
Incorporamenti
Riclassificazione
Elastic Inference Service
open_in_new
Ottieni la chiave API Jina
Limite di velocità
Stato dell'API
Azienda
Chi siamo
Contatta le vendite
Sala stampa
Programma di stagista
Scarica il logo Jina
open_in_new
Scarica il logo Elastic
open_in_new
Termini
Sicurezza
Termini & Condizioni
Privacy
Gestisci i cookie
email
Elastic © 2020-2026.