jina-clip-v1

Dieses Modell wird durch neuere Modelle ersetzt.

Einbettungen

Beitrag veröffentlichen

jina-clip-v1

Multimodale Einbettungsmodelle für Bilder und englischen Text

Lizenz

Apache-2.0

Veröffentlichungsdatum

2024-06-05

Eingang

Bild

Text

Ausgabe

Vektor

Modelldetails

Parameter: 223M

Länge des Eingabetokens: 8K

Eingabebildgröße: 224×224

Ausgabedimension: 768

Sprachunterstützung

🇺🇸 Englisch

Ähnliche Modelle

jina-clip-v2

jina-embeddings-v3

jina-colbert-v2

Schlagwörter

multimodal-embedding

image-text-alignment

english-only

zero-shot-classification

cross-modal-search

long-text-support

unified-embeddings

text-to-text

text-to-image

visual-semantic

Erhältlich über

Jina-API AWS SageMaker Microsoft Azure Umarmendes Gesicht

Wählen Sie Modelle zum Vergleichen aus

jina-clip-v1

jina-clip-v2

jina-embeddings-v3

jina-colbert-v2

Publikationen (1)

ICML 2024

Mai 30, 2024

Jina CLIP: Your CLIP Model Is Also Your Text Retriever

Überblick

Jina CLIP v1 revolutioniert die multimodale KI, indem es das erste Modell ist, das sowohl bei Text-zu-Text- als auch bei Text-zu-Bild-Abrufaufgaben gleichermaßen hervorragende Ergebnisse liefert. Im Gegensatz zu herkömmlichen CLIP-Modellen, die mit reinen Textszenarien zu kämpfen haben, erreicht dieses Modell eine hochmoderne Leistung über alle Abrufkombinationen hinweg und behält dabei eine bemerkenswert kompakte Parametergröße von 223 M bei. Das Modell befasst sich mit einer kritischen Herausforderung der Branche, indem es die Notwendigkeit separater Modelle für die Text- und Bildverarbeitung eliminiert und so die Systemkomplexität und den Rechenaufwand reduziert. Für Teams, die Suchsysteme, Empfehlungsmaschinen oder Tools zur Inhaltsanalyse erstellen, bietet Jina CLIP v1 eine einzige, effiziente Lösung, die sowohl Text- als auch visuelle Inhalte mit außergewöhnlicher Genauigkeit verarbeitet.

Methoden

Die Architektur des Modells stellt eine bedeutende Innovation im multimodalen KI-Design dar und kombiniert einen angepassten Jina BERT v2-Textencoder mit dem hochmodernen EVA-02-Bildencoder der Beijing Academy for Artificial Intelligence. Der Textencoder unterstützt Sequenzen mit bis zu 12.288 Token – über 100-mal länger als das 77-Token-Limit des ursprünglichen CLIP – während der Bildencoder 16 Patch-Token effizient verarbeitet. Der Trainingsprozess folgt einem neuartigen dreistufigen Ansatz: Erstens das Ausrichten von Bild-Untertitel-Paaren unter Beibehaltung des Textverständnisses durch verschachteltes Textpaartraining; zweitens das Integrieren von KI-generierten längeren Textbeschreibungen von Bildern; und schließlich die Verwendung harter negativer Texttripel zur Verbesserung der semantischen Unterscheidungsfähigkeiten. Diese einzigartige Trainingsmethode ermöglicht es dem Modell, sowohl bei kurzen Untertiteln als auch bei detaillierten Textbeschreibungen eine hohe Leistung aufrechtzuerhalten und gleichzeitig ein starkes visuelles Verständnis zu bewahren.

Leistung

Jina CLIP v1 weist in allen Benchmarks bemerkenswerte Verbesserungen gegenüber OpenAIs ursprünglichem CLIP auf. Bei der Nur-Text-Abfrage erreicht es eine Leistungssteigerung von 165 % mit einem Ergebnis von 0,429 im Vergleich zu CLIPs 0,162. Bei bildbezogenen Aufgaben zeigt es durchgängige Verbesserungen: 2 % besser bei der Text-zu-Bild-Abfrage (0,899), 6 % bei der Bild-zu-Text-Abfrage (0,803) und 12 % bei der Bild-zu-Bild-Abfrage (0,916). Das Modell glänzt insbesondere bei Aufgaben zur visuellen Klassifizierung ohne vorheriges Training in bestimmten Domänen und kategorisiert erfolgreich Bilder. Bei der Bewertung anhand von Standardbenchmarks wie MTEB für die Textabfrage, CIFAR-100 für Bildaufgaben und Flickr8k/30k und MSCOCO Captions für modalübergreifende Leistung übertrifft es durchgängig spezialisierte Einzelmodalitätsmodelle und behält gleichzeitig die wettbewerbsfähige Leistung bei modalübergreifenden Aufgaben bei.

Anleitung

Um Jina CLIP v1 effektiv einzusetzen, sollten Teams sowohl dessen Fähigkeiten als auch Ressourcenanforderungen berücksichtigen. Das Modell verarbeitet Bilder in 224 x 224 Pixel großen Kacheln, wobei jede Kachel 1.000 Tokens Verarbeitungskapazität verbraucht. Für eine optimale Leistung implementieren Sie eine effiziente Bildvorverarbeitung, die diesen Abmessungen entspricht. Obwohl das Modell sowohl bei der Verarbeitung kurzer als auch langer Texte hervorragend ist, unterstützt es derzeit nur Eingaben in englischer Sprache. Teams sollten die Token-Nutzung sorgfältig abwägen: Text erfordert ungefähr 1,1 Tokens pro Wort, während Bilder in Kacheln verarbeitet werden (z. B. erfordert ein 750 x 500 Pixel großes Bild 12 Kacheln und verbraucht 12.000 Tokens). Das Modell ist sowohl über die Jina Embeddings API als auch als Open-Source-Version auf Hugging Face unter der Apache 2.0-Lizenz verfügbar und bietet Flexibilität bei den Bereitstellungsoptionen. Erwägen Sie für Produktionsumgebungen die Verwendung der Bereitstellungsoptionen AWS Marketplace oder Azure, die optimierte Infrastruktur-Setups bieten.

Blogs, die dieses Modell erwähnen

Dezember 12, 2024

jina-clip-v2: Multilingual Multimodal Embeddings for Text and Images

Contrastive Language-Image Pretraining (CLIP) is a highly effective method for aligning images and texts in a shared embedding space. These models are widely used for tasks such as cross-modal information retrieval and multi-modal understanding. However, CLIP models often struggle with text-only tasks, underperforming compared to specialized text models. This performance disparity forces retrieval systems to rely on separate models for text-only and multi-modal tasks. In this work, we build upon our previous model, jina-clip-v1, by introducing a refined framework that utilizes multi-task, multi-stage contrastive learning across multiple languages, coupled with an improved training recipe to enhance text-only retrieval. The resulting model, jina-clip-v2, outperforms its predecessor on text-only and multimodal tasks, while adding multilingual support, better understanding of complex visual documents and efficiency gains thanks to Matryoshka Representation Learning and vector truncation. The model performs comparably to the state-of-the-art in both multilingual-multimodal and multilingual text retrieval benchmarks, addressing the challenge of unifying text-only and multi-modal retrieval systems.