Erhältlich über
Wählen Sie Modelle zum Vergleichen aus
Publikationen (1)
Überblick
Jina CLIP v1 revolutioniert die multimodale KI, indem es das erste Modell ist, das sowohl bei Text-zu-Text- als auch bei Text-zu-Bild-Abrufaufgaben gleichermaßen hervorragende Ergebnisse liefert. Im Gegensatz zu herkömmlichen CLIP-Modellen, die mit reinen Textszenarien zu kämpfen haben, erreicht dieses Modell eine hochmoderne Leistung über alle Abrufkombinationen hinweg und behält dabei eine bemerkenswert kompakte Parametergröße von 223 M bei. Das Modell befasst sich mit einer kritischen Herausforderung der Branche, indem es die Notwendigkeit separater Modelle für die Text- und Bildverarbeitung eliminiert und so die Systemkomplexität und den Rechenaufwand reduziert. Für Teams, die Suchsysteme, Empfehlungsmaschinen oder Tools zur Inhaltsanalyse erstellen, bietet Jina CLIP v1 eine einzige, effiziente Lösung, die sowohl Text- als auch visuelle Inhalte mit außergewöhnlicher Genauigkeit verarbeitet.
Methoden
Die Architektur des Modells stellt eine bedeutende Innovation im multimodalen KI-Design dar und kombiniert einen angepassten Jina BERT v2-Textencoder mit dem hochmodernen EVA-02-Bildencoder der Beijing Academy for Artificial Intelligence. Der Textencoder unterstützt Sequenzen mit bis zu 12.288 Token – über 100-mal länger als das 77-Token-Limit des ursprünglichen CLIP – während der Bildencoder 16 Patch-Token effizient verarbeitet. Der Trainingsprozess folgt einem neuartigen dreistufigen Ansatz: Erstens das Ausrichten von Bild-Untertitel-Paaren unter Beibehaltung des Textverständnisses durch verschachteltes Textpaartraining; zweitens das Integrieren von KI-generierten längeren Textbeschreibungen von Bildern; und schließlich die Verwendung harter negativer Texttripel zur Verbesserung der semantischen Unterscheidungsfähigkeiten. Diese einzigartige Trainingsmethode ermöglicht es dem Modell, sowohl bei kurzen Untertiteln als auch bei detaillierten Textbeschreibungen eine hohe Leistung aufrechtzuerhalten und gleichzeitig ein starkes visuelles Verständnis zu bewahren.
Leistung
Jina CLIP v1 weist in allen Benchmarks bemerkenswerte Verbesserungen gegenüber OpenAIs ursprünglichem CLIP auf. Bei der Nur-Text-Abfrage erreicht es eine Leistungssteigerung von 165 % mit einem Ergebnis von 0,429 im Vergleich zu CLIPs 0,162. Bei bildbezogenen Aufgaben zeigt es durchgängige Verbesserungen: 2 % besser bei der Text-zu-Bild-Abfrage (0,899), 6 % bei der Bild-zu-Text-Abfrage (0,803) und 12 % bei der Bild-zu-Bild-Abfrage (0,916). Das Modell glänzt insbesondere bei Aufgaben zur visuellen Klassifizierung ohne vorheriges Training in bestimmten Domänen und kategorisiert erfolgreich Bilder. Bei der Bewertung anhand von Standardbenchmarks wie MTEB für die Textabfrage, CIFAR-100 für Bildaufgaben und Flickr8k/30k und MSCOCO Captions für modalübergreifende Leistung übertrifft es durchgängig spezialisierte Einzelmodalitätsmodelle und behält gleichzeitig die wettbewerbsfähige Leistung bei modalübergreifenden Aufgaben bei.
Anleitung
Um Jina CLIP v1 effektiv einzusetzen, sollten Teams sowohl dessen Fähigkeiten als auch Ressourcenanforderungen berücksichtigen. Das Modell verarbeitet Bilder in 224 x 224 Pixel großen Kacheln, wobei jede Kachel 1.000 Tokens Verarbeitungskapazität verbraucht. Für eine optimale Leistung implementieren Sie eine effiziente Bildvorverarbeitung, die diesen Abmessungen entspricht. Obwohl das Modell sowohl bei der Verarbeitung kurzer als auch langer Texte hervorragend ist, unterstützt es derzeit nur Eingaben in englischer Sprache. Teams sollten die Token-Nutzung sorgfältig abwägen: Text erfordert ungefähr 1,1 Tokens pro Wort, während Bilder in Kacheln verarbeitet werden (z. B. erfordert ein 750 x 500 Pixel großes Bild 12 Kacheln und verbraucht 12.000 Tokens). Das Modell ist sowohl über die Jina Embeddings API als auch als Open-Source-Version auf Hugging Face unter der Apache 2.0-Lizenz verfügbar und bietet Flexibilität bei den Bereitstellungsoptionen. Erwägen Sie für Produktionsumgebungen die Verwendung der Bereitstellungsoptionen AWS Marketplace oder Azure, die optimierte Infrastruktur-Setups bieten.
Blogs, die dieses Modell erwähnen