Pressemitteilungen
Modelle
Produkte
keyboard_arrow_down
Leser
Lesen Sie URLs und suchen Sie im Internet nach fundierteren LLMs.
Einbettungen
Multimodale und mehrsprachige Einbettungen von Weltklasse.
Reranker
Neural Retriever der Weltklasse zur Maximierung der Suchrelevanz.
DeepSearch
Suchen, lesen und überlegen, bis die beste Antwort gefunden ist.
Mehr
keyboard_arrow_down
Klassifikator
Zero-Shot- und Few-Shot-Klassifizierung für Bild und Text.
Segmentierer
Schneiden Sie langen Text in Abschnitte und führen Sie eine Tokenisierung durch.

MCP-Server
Fügen Sie mcp.jina.ai als Ihren MCP-Server hinzu, um in LLMs auf unsere API zuzugreifen
open_in_new
API-Dokumente
Automatische Codegenerierung für Ihre Copilot-IDE oder LLM
open_in_new


Unternehmen
keyboard_arrow_down
Über uns
Kontaktieren Sie unseren Vertrieb
Praktikantenprogramm
Terms & amp; Bedingungen
Logo herunterladen
open_in_new



Einloggen
login
warning
Dieses Modell wird durch neuere Modelle ersetzt.
Einbettungen
open_in_new Beitrag veröffentlichen

jina-clip-v1

Multimodale Einbettungsmodelle für Bilder und englischen Text
Lizenz
license Apache-2.0
Veröffentlichungsdatum
calendar_month
2024-06-05
Eingang
image
Bild
abc
Text
arrow_forward
Ausgabe
more_horiz
Vektor
Modelldetails
Parameter: 223M
Länge des Eingabetokens: 8K
Eingabebildgröße: 224×224
Ausgabedimension: 768
Sprachunterstützung
🇺🇸 Englisch
Ähnliche Modelle
link
jina-clip-v2
link
jina-embeddings-v3
link
jina-colbert-v2
Schlagwörter
multimodal-embedding
image-text-alignment
english-only
zero-shot-classification
cross-modal-search
long-text-support
unified-embeddings
text-to-text
text-to-image
visual-semantic
Erhältlich über
Jina-APIAWS SageMakerMicrosoft AzureUmarmendes Gesicht
Wählen Sie Modelle zum Vergleichen aus
Publikationen (1)
ICML 2024
Mai 30, 2024
Jina CLIP: Your CLIP Model Is Also Your Text Retriever

Überblick

Jina CLIP v1 revolutioniert die multimodale KI, indem es das erste Modell ist, das sowohl bei Text-zu-Text- als auch bei Text-zu-Bild-Abrufaufgaben gleichermaßen hervorragende Ergebnisse liefert. Im Gegensatz zu herkömmlichen CLIP-Modellen, die mit reinen Textszenarien zu kämpfen haben, erreicht dieses Modell eine hochmoderne Leistung über alle Abrufkombinationen hinweg und behält dabei eine bemerkenswert kompakte Parametergröße von 223 M bei. Das Modell befasst sich mit einer kritischen Herausforderung der Branche, indem es die Notwendigkeit separater Modelle für die Text- und Bildverarbeitung eliminiert und so die Systemkomplexität und den Rechenaufwand reduziert. Für Teams, die Suchsysteme, Empfehlungsmaschinen oder Tools zur Inhaltsanalyse erstellen, bietet Jina CLIP v1 eine einzige, effiziente Lösung, die sowohl Text- als auch visuelle Inhalte mit außergewöhnlicher Genauigkeit verarbeitet.

Methoden

Die Architektur des Modells stellt eine bedeutende Innovation im multimodalen KI-Design dar und kombiniert einen angepassten Jina BERT v2-Textencoder mit dem hochmodernen EVA-02-Bildencoder der Beijing Academy for Artificial Intelligence. Der Textencoder unterstützt Sequenzen mit bis zu 12.288 Token – über 100-mal länger als das 77-Token-Limit des ursprünglichen CLIP – während der Bildencoder 16 Patch-Token effizient verarbeitet. Der Trainingsprozess folgt einem neuartigen dreistufigen Ansatz: Erstens das Ausrichten von Bild-Untertitel-Paaren unter Beibehaltung des Textverständnisses durch verschachteltes Textpaartraining; zweitens das Integrieren von KI-generierten längeren Textbeschreibungen von Bildern; und schließlich die Verwendung harter negativer Texttripel zur Verbesserung der semantischen Unterscheidungsfähigkeiten. Diese einzigartige Trainingsmethode ermöglicht es dem Modell, sowohl bei kurzen Untertiteln als auch bei detaillierten Textbeschreibungen eine hohe Leistung aufrechtzuerhalten und gleichzeitig ein starkes visuelles Verständnis zu bewahren.

Leistung

Jina CLIP v1 weist in allen Benchmarks bemerkenswerte Verbesserungen gegenüber OpenAIs ursprünglichem CLIP auf. Bei der Nur-Text-Abfrage erreicht es eine Leistungssteigerung von 165 % mit einem Ergebnis von 0,429 im Vergleich zu CLIPs 0,162. Bei bildbezogenen Aufgaben zeigt es durchgängige Verbesserungen: 2 % besser bei der Text-zu-Bild-Abfrage (0,899), 6 % bei der Bild-zu-Text-Abfrage (0,803) und 12 % bei der Bild-zu-Bild-Abfrage (0,916). Das Modell glänzt insbesondere bei Aufgaben zur visuellen Klassifizierung ohne vorheriges Training in bestimmten Domänen und kategorisiert erfolgreich Bilder. Bei der Bewertung anhand von Standardbenchmarks wie MTEB für die Textabfrage, CIFAR-100 für Bildaufgaben und Flickr8k/30k und MSCOCO Captions für modalübergreifende Leistung übertrifft es durchgängig spezialisierte Einzelmodalitätsmodelle und behält gleichzeitig die wettbewerbsfähige Leistung bei modalübergreifenden Aufgaben bei.

Anleitung

Um Jina CLIP v1 effektiv einzusetzen, sollten Teams sowohl dessen Fähigkeiten als auch Ressourcenanforderungen berücksichtigen. Das Modell verarbeitet Bilder in 224 x 224 Pixel großen Kacheln, wobei jede Kachel 1.000 Tokens Verarbeitungskapazität verbraucht. Für eine optimale Leistung implementieren Sie eine effiziente Bildvorverarbeitung, die diesen Abmessungen entspricht. Obwohl das Modell sowohl bei der Verarbeitung kurzer als auch langer Texte hervorragend ist, unterstützt es derzeit nur Eingaben in englischer Sprache. Teams sollten die Token-Nutzung sorgfältig abwägen: Text erfordert ungefähr 1,1 Tokens pro Wort, während Bilder in Kacheln verarbeitet werden (z. B. erfordert ein 750 x 500 Pixel großes Bild 12 Kacheln und verbraucht 12.000 Tokens). Das Modell ist sowohl über die Jina Embeddings API als auch als Open-Source-Version auf Hugging Face unter der Apache 2.0-Lizenz verfügbar und bietet Flexibilität bei den Bereitstellungsoptionen. Erwägen Sie für Produktionsumgebungen die Verwendung der Bereitstellungsoptionen AWS Marketplace oder Azure, die optimierte Infrastruktur-Setups bieten.
Blogs, die dieses Modell erwähnen
Dezember 12, 2024
jina-clip-v2: Multilingual Multimodal Embeddings for Text and Images
Contrastive Language-Image Pretraining (CLIP) is a highly effective method for aligning images and texts in a shared embedding space. These models are widely used for tasks such as cross-modal information retrieval and multi-modal understanding. However, CLIP models often struggle with text-only tasks, underperforming compared to specialized text models. This performance disparity forces retrieval systems to rely on separate models for text-only and multi-modal tasks. In this work, we build upon our previous model, jina-clip-v1, by introducing a refined framework that utilizes multi-task, multi-stage contrastive learning across multiple languages, coupled with an improved training recipe to enhance text-only retrieval. The resulting model, jina-clip-v2, outperforms its predecessor on text-only and multimodal tasks, while adding multilingual support, better understanding of complex visual documents and efficiency gains thanks to Matryoshka Representation Learning and vector truncation. The model performs comparably to the state-of-the-art in both multilingual-multimodal and multilingual text retrieval benchmarks, addressing the challenge of unifying text-only and multi-modal retrieval systems.
jina-clip-v2: Multilingual Multimodal Embeddings for Text and Images
ICLR 2025
Mai 30, 2024
Jina CLIP: Your CLIP Model Is Also Your Text Retriever
Contrastive Language-Image Pretraining (CLIP) is widely used to train models to align images and texts in a common embedding space by mapping them to fixed-sized vectors. These models are key to multimodal information retrieval and related tasks. However, CLIP models generally underperform in text-only tasks compared to specialized text models. This creates inefficiencies for information retrieval systems that keep separate embeddings and models for text-only and multimodal tasks. We propose a novel, multi-task contrastive training method to address this issue, which we use to train the jina-clip-v1 model to achieve the state-of-the-art performance on both text-image and text-text retrieval tasks.
Jina CLIP: Your CLIP Model Is Also Your Text Retriever
ICML 2024
Juni 25, 2025 • 12 Minuten gelesen
Jina Embeddings v4: Universelle Vektor Modelle (Embeddings) für Multimodale, Mehrsprachige Suche
Jina Embeddings v4 ist ein universelles 向量模型 (Embeddings)-Modell mit 3,8 Milliarden Parametern für multimodale und mehrsprachige Suche, das sowohl Single-Vektor- als auch Multi-Vektor-Embedding-Ausgaben unterstützt.
Jina AI
Word "Embeddings" followed by a numeric or symbol representation, displayed in multiple colors on a technology-themed, colorf
April 08, 2025 • 21 Minuten gelesen
jina-reranker-m0: Mehrsprachiger multimodaler Dokument-Reranker
Wir stellen jina-reranker-m0 vor, unseren neuen mehrsprachigen multimodalen Reranker für das Abrufen visueller Dokumente, mit SOTA-Performance bei mehrsprachigen langen Dokumenten und Code-Suchaufgaben.
Jina AI
Modern dot matrix text display on a dark blue background, conveying a digital feel.
Dezember 12, 2024 • 12 Minuten gelesen
Skalierung der Rechenleistung zur Testzeit bei Embedding-Modellen
Bessere Ergebnisse skalieren mit Rechenleistung—mehr beim Lernen, mehr bei der Suche. Ein gutes vortrainiertes Modell bringt einen weit, aber Rechenleistung zur Testzeit bringt einen noch weiter. Es ist wichtig, dieses neue Paradigma der Skalierung von Rechenleistung zur Testzeit zu erkennen, selbst bei Embedding-Modellen.
Han Xiao
David Hockney artwork of a hand holding a rod with three colored spheres on a blue-toned background.
Büros
location_on
Sunnyvale, Kalifornien
710 Lakeway Dr, Ste 200, Sunnyvale, CA 94085, USA
location_on
Berlin, Deutschland (Hauptsitz)
Prinzessinnenstraße 19-20, 10969 Berlin, Deutschland
Stiftung durchsuchen
Leser
Einbettungen
Reranker
DeepSearch
Klassifikator
Segmentierer
Jina API-Schlüssel abrufen
Ratenbegrenzung
API-Status
Unternehmen
Über uns
Kontaktieren Sie unseren Vertrieb
Pressemitteilungen
Praktikantenprogramm
Logo herunterladen
open_in_new
Bedingungen
Sicherheit
Terms & amp; Bedingungen
Privatsphäre
Cookie-Einstellungen
email
Jina AI © 2020-2025.