Pressemitteilungen
Modelle
Produkte
keyboard_arrow_down
Leser
Lesen Sie URLs und suchen Sie im Internet nach fundierteren LLMs.
Einbettungen
Multimodale und mehrsprachige Einbettungen von Weltklasse.
Reranker
Neural Retriever der Weltklasse zur Maximierung der Suchrelevanz.
DeepSearch
Suchen, lesen und überlegen, bis die beste Antwort gefunden ist.
Mehr
keyboard_arrow_down
Klassifikator
Zero-Shot- und Few-Shot-Klassifizierung für Bild und Text.
Segmentierer
Schneiden Sie langen Text in Abschnitte und führen Sie eine Tokenisierung durch.

API-Dokumente
Automatische Codegenerierung für Ihre Copilot-IDE oder LLM
open_in_new


Unternehmen
keyboard_arrow_down
Über uns
Kontaktieren Sie unseren Vertrieb
Praktikantenprogramm
Begleiten Sie uns
open_in_new
Logo herunterladen
open_in_new
Terms & amp; Bedingungen


Einloggen
login
warning
Dieses Modell wird durch neuere Modelle ersetzt.

jina-clip-v1

Multimodale Einbettungsmodelle für Bilder und englischen Text
Beitrag veröffentlichenarrow_forward
Lizenz
license
Apache-2.0
Veröffentlichungsdatum
calendar_month
2024-06-05
Eingang
image
Bild
abc
Text
arrow_forward
Ausgabe
more_horiz
Vektor
Modelldetails
Parameter: 223M
Länge des Eingabetokens: 8K
Eingabebildgröße: 224×224
Ausgabedimension: 768
Sprachunterstützung
🇺🇸 Englisch
Ähnliche Modelle
link
jina-clip-v2
link
jina-embeddings-v3
link
jina-colbert-v2
Schlagwörter
multimodal-embedding
image-text-alignment
english-only
zero-shot-classification
cross-modal-search
long-text-support
unified-embeddings
text-to-text
text-to-image
visual-semantic
Erhältlich über
Jina-APIAWS SageMakerMicrosoft AzureUmarmendes Gesicht
Wählen Sie Modelle zum Vergleichen aus
Publikationen (1)
ICML 2024
Mai 30, 2024
Jina CLIP: Your CLIP Model Is Also Your Text Retriever

Überblick

Jina CLIP v1 revolutioniert die multimodale KI, indem es das erste Modell ist, das sowohl bei Text-zu-Text- als auch bei Text-zu-Bild-Abrufaufgaben gleichermaßen hervorragende Ergebnisse liefert. Im Gegensatz zu herkömmlichen CLIP-Modellen, die mit reinen Textszenarien zu kämpfen haben, erreicht dieses Modell eine hochmoderne Leistung über alle Abrufkombinationen hinweg und behält dabei eine bemerkenswert kompakte Parametergröße von 223 M bei. Das Modell befasst sich mit einer kritischen Herausforderung der Branche, indem es die Notwendigkeit separater Modelle für die Text- und Bildverarbeitung eliminiert und so die Systemkomplexität und den Rechenaufwand reduziert. Für Teams, die Suchsysteme, Empfehlungsmaschinen oder Tools zur Inhaltsanalyse erstellen, bietet Jina CLIP v1 eine einzige, effiziente Lösung, die sowohl Text- als auch visuelle Inhalte mit außergewöhnlicher Genauigkeit verarbeitet.

Methoden

Die Architektur des Modells stellt eine bedeutende Innovation im multimodalen KI-Design dar und kombiniert einen angepassten Jina BERT v2-Textencoder mit dem hochmodernen EVA-02-Bildencoder der Beijing Academy for Artificial Intelligence. Der Textencoder unterstützt Sequenzen mit bis zu 12.288 Token – über 100-mal länger als das 77-Token-Limit des ursprünglichen CLIP – während der Bildencoder 16 Patch-Token effizient verarbeitet. Der Trainingsprozess folgt einem neuartigen dreistufigen Ansatz: Erstens das Ausrichten von Bild-Untertitel-Paaren unter Beibehaltung des Textverständnisses durch verschachteltes Textpaartraining; zweitens das Integrieren von KI-generierten längeren Textbeschreibungen von Bildern; und schließlich die Verwendung harter negativer Texttripel zur Verbesserung der semantischen Unterscheidungsfähigkeiten. Diese einzigartige Trainingsmethode ermöglicht es dem Modell, sowohl bei kurzen Untertiteln als auch bei detaillierten Textbeschreibungen eine hohe Leistung aufrechtzuerhalten und gleichzeitig ein starkes visuelles Verständnis zu bewahren.

Leistung

Jina CLIP v1 weist in allen Benchmarks bemerkenswerte Verbesserungen gegenüber OpenAIs ursprünglichem CLIP auf. Bei der Nur-Text-Abfrage erreicht es eine Leistungssteigerung von 165 % mit einem Ergebnis von 0,429 im Vergleich zu CLIPs 0,162. Bei bildbezogenen Aufgaben zeigt es durchgängige Verbesserungen: 2 % besser bei der Text-zu-Bild-Abfrage (0,899), 6 % bei der Bild-zu-Text-Abfrage (0,803) und 12 % bei der Bild-zu-Bild-Abfrage (0,916). Das Modell glänzt insbesondere bei Aufgaben zur visuellen Klassifizierung ohne vorheriges Training in bestimmten Domänen und kategorisiert erfolgreich Bilder. Bei der Bewertung anhand von Standardbenchmarks wie MTEB für die Textabfrage, CIFAR-100 für Bildaufgaben und Flickr8k/30k und MSCOCO Captions für modalübergreifende Leistung übertrifft es durchgängig spezialisierte Einzelmodalitätsmodelle und behält gleichzeitig die wettbewerbsfähige Leistung bei modalübergreifenden Aufgaben bei.

Anleitung

Um Jina CLIP v1 effektiv einzusetzen, sollten Teams sowohl dessen Fähigkeiten als auch Ressourcenanforderungen berücksichtigen. Das Modell verarbeitet Bilder in 224 x 224 Pixel großen Kacheln, wobei jede Kachel 1.000 Tokens Verarbeitungskapazität verbraucht. Für eine optimale Leistung implementieren Sie eine effiziente Bildvorverarbeitung, die diesen Abmessungen entspricht. Obwohl das Modell sowohl bei der Verarbeitung kurzer als auch langer Texte hervorragend ist, unterstützt es derzeit nur Eingaben in englischer Sprache. Teams sollten die Token-Nutzung sorgfältig abwägen: Text erfordert ungefähr 1,1 Tokens pro Wort, während Bilder in Kacheln verarbeitet werden (z. B. erfordert ein 750 x 500 Pixel großes Bild 12 Kacheln und verbraucht 12.000 Tokens). Das Modell ist sowohl über die Jina Embeddings API als auch als Open-Source-Version auf Hugging Face unter der Apache 2.0-Lizenz verfügbar und bietet Flexibilität bei den Bereitstellungsoptionen. Erwägen Sie für Produktionsumgebungen die Verwendung der Bereitstellungsoptionen AWS Marketplace oder Azure, die optimierte Infrastruktur-Setups bieten.
Blogs, die dieses Modell erwähnen
Juni 25, 2025 • 12 Minuten gelesen
Jina Embeddings v4: Universelle Vektor Modelle (Embeddings) für Multimodale, Mehrsprachige Suche
Jina Embeddings v4 ist ein universelles 向量模型 (Embeddings)-Modell mit 3,8 Milliarden Parametern für multimodale und mehrsprachige Suche, das sowohl Single-Vektor- als auch Multi-Vektor-Embedding-Ausgaben unterstützt.
Jina AI
Word "Embeddings" followed by a numeric or symbol representation, displayed in multiple colors on a technology-themed, colorf
April 08, 2025 • 21 Minuten gelesen
jina-reranker-m0: Mehrsprachiger multimodaler Dokument-Reranker
Wir stellen jina-reranker-m0 vor, unseren neuen mehrsprachigen multimodalen Reranker für das Abrufen visueller Dokumente, mit SOTA-Performance bei mehrsprachigen langen Dokumenten und Code-Suchaufgaben.
Jina AI
Modern dot matrix text display on a dark blue background, conveying a digital feel.
Dezember 12, 2024 • 12 Minuten gelesen
Skalierung der Rechenleistung zur Testzeit bei Embedding-Modellen
Bessere Ergebnisse skalieren mit Rechenleistung—mehr beim Lernen, mehr bei der Suche. Ein gutes vortrainiertes Modell bringt einen weit, aber Rechenleistung zur Testzeit bringt einen noch weiter. Es ist wichtig, dieses neue Paradigma der Skalierung von Rechenleistung zur Testzeit zu erkennen, selbst bei Embedding-Modellen.
Han Xiao
David Hockney artwork of a hand holding a rod with three colored spheres on a blue-toned background.
Dezember 04, 2024 • 13 Minuten gelesen
Braucht man immer noch Chunking, wenn Long-Context-Modelle alles können?
Vergleich der Leistung von Long-Context-Embedding-Modellen mit verschiedenen Chunking-Strategien, um den optimalen Ansatz für Ihre Anforderungen zu finden.
Michael Günther
Alex C-G
Artistic pixel art of two seagulls on colored pipes with speech bubbles; one reads "Too long?" and the other shows math equat
November 21, 2024 • 9 Minuten gelesen
Jina CLIP v2: Multilinguale und Multimodale Embeddings für Text und Bilder
Jina-CLIP v2, ein multimodales Embedding-Modell mit 0,9 Milliarden Parametern, das 89 Sprachen unterstützt, eine hohe Bildauflösung von 512x512 bietet und Matryoshka-Repräsentationen verwendet.
Jina AI
Digital number "2" displayed in a mosaic of colorful squares against a dark background, creating a futuristic vibe.
Büros
location_on
Sunnyvale, Kalifornien
710 Lakeway Dr, Ste 200, Sunnyvale, CA 94085, USA
location_on
Berlin, Deutschland (Hauptsitz)
Prinzessinnenstraße 19-20, 10969 Berlin, Deutschland
location_on
Peking, China
Ebene 5, Gebäude 6, Nr. 48 Haidian West St. Peking, China
location_on
Shenzhen, China
402 Etage 4, Fu'an Technology Building, Shenzhen, China
Stiftung durchsuchen
Leser
Einbettungen
Reranker
DeepSearch
Klassifikator
Segmentierer
API-Dokumentation
Jina API-Schlüssel abrufen
Ratenbegrenzung
API-Status
Unternehmen
Über uns
Kontaktieren Sie unseren Vertrieb
Pressemitteilungen
Praktikantenprogramm
Begleiten Sie uns
open_in_new
Logo herunterladen
open_in_new
Bedingungen
Sicherheit
Terms & amp; Bedingungen
Privatsphäre
Cookie-Einstellungen
email
Jina AI © 2020-2025.