Jina CLIP v2: Multilinguale und Multimodale Embeddings für Text und Bilder

jina-clip-v2 API ist unter dem Tab „Embeddings" verfügbar.

Multimodale Embeddings ermöglichen die Suche und das Verstehen von Daten über verschiedene Modalitäten hinweg durch eine kohärente Darstellung. Sie dienen als Rückgrat für Neural Information Retrieval und multimodale GenAI-Anwendungen. Heute freuen wir uns, jina-clip-v2 vorzustellen, neue universelle multilinguale multimodale Embeddings, die auf jina-clip-v1 und unserem kürzlich veröffentlichten jina-embeddings-3 aufbauen und mehrere wichtige Verbesserungen bieten:

Verbesserte Leistung: v2 zeigt eine 3%ige Leistungsverbesserung gegenüber v1 sowohl bei Text-Bild- als auch bei Text-Text-Retrieval-Aufgaben. Ähnlich wie v1 kann der Textencoder von v2 als effektiver multilingualer Long-Context Dense Retriever dienen. Er arbeitet auf Augenhöhe mit unserem Spitzenmodell jina-embeddings-v3 (derzeit die besten multilingualen Embeddings unter 1B Parametern auf MTEB).
Multilinguale Unterstützung: Mit jina-embeddings-v3 als Text-Tower unterstützt jina-clip-v2 89 Sprachen für multilinguale Bildsuche und zeigt bis zu 4% Verbesserung im Vergleich zu nllb-clip-large-siglip bei multilingualen Bildsuche-Aufgaben.
Höhere Bildauflösung: v2 unterstützt jetzt eine Eingabebildauflösung von 512x512, eine deutliche Steigerung gegenüber v1's 224x224. Diese höhere Auflösung ermöglicht eine bessere Verarbeitung detaillierter Bilder, verbesserte Merkmalsextraktion und genauere Erkennung feinkörniger visueller Elemente.
Matryoshka-Darstellungen: v2 ermöglicht es Benutzern, die Ausgabedimensionen sowohl von Text- als auch von Bild-Embeddings von 1024 bis auf 64 zu reduzieren, wodurch Speicher- und Verarbeitungsaufwand reduziert werden, während die starke Leistung erhalten bleibt.

tagModellarchitektur

jina-clip-v2 ist ein 0,9B CLIP-Style-Modell, das zwei leistungsstarke Encoder kombiniert: den Text-Encoder Jina XLM-RoBERTa (das Rückgrat von jina-embeddings-v3) und den Vision-Encoder EVA02-L14 (ein effizienter Vision Transformer entwickelt von BAAI). Diese Encoder werden gemeinsam trainiert, um alignierte Darstellungen von Bildern und Text zu erstellen.

Feature	Text Encoder	Image Encoder
Base Model	Jina XLM-RoBERTa	EVA02-L
Parameters	561M	304M
Input Specification	8,192 tokens (max)	512×512 pixels
Min Output Dimensions	64	64
Max Output Dimensions	1,024	1,024
Layers	24	24
Attention Mechanism	FlashAttention2	xFormers
Pooling Strategy	Mean pooling	CLS pooling
Additional Features	89 languages supported	Patch size 14x14

Jina CLIP v2 bietet multilinguale Unterstützung für 89 Sprachen und Spitzenleistung in wichtigen Sprachen wie Arabisch, Chinesisch, Englisch, Französisch, Deutsch, Japanisch, Russisch und Spanisch. In multilingualen Bildsuche-Benchmarks zeigt es eine Leistung, die NLLB-CLIP-SigLIP entspricht oder übertrifft, ein etwas größeres (1,3B, 44% größer als jina-clip-v2) State-of-the-Art CLIP-Style-Modell, das einen vortrainierten Text-Encoder aus NLLB-Modellen verwendet.

tagNur englische Texte und Bilder

Bei Standard-Cross-Modal-Retrieval-Benchmarks (Flickr30k und COCO) zeigt jina-clip-v2 durchweg starke Verbesserungen. Es erreicht State-of-the-Art-Leistung von 98,0% bei Flickr30k Bild-zu-Text-Retrieval und übertrifft damit sowohl seinen Vorgänger als auch NLLB-CLIP-SigLIP. Das Modell zeigt konsistente Verbesserungen in allen Retrieval-Szenarien, mit bemerkenswerten Steigerungen von bis zu 3,3% gegenüber v1 bei COCO Bild-zu-Text-Retrieval, während es über verschiedene Benchmarks und Modalitätsrichtungen hinweg eine wettbewerbsfähige Leistung mit NLLB-CLIP-SigLIP beibehält.

Flickr30k Recall@5 Leistung:

Task	Model	Score	Relative to v1	Relative to NLLB
Image-to-text	jina-clip-v2	98.0	+1.7%	+0.9%
	jina-clip-v1	96.4	-	-0.7%
	nllb-siglip-large	97.1	-	-
Text-to-image	jina-clip-v2	89.8	+0.9%	-2.6%
	jina-clip-v1	89.0	-	-3.5%
	nllb-siglip-large	92.2	-	-

COCO Recall@5 Leistung:

Task	Model	Score	Relative to v1	Relative to NLLB
Image-to-text	jina-clip-v2	81.5	+3.3%	+2.9%
	jina-clip-v1	78.9	-	-0.4%
	nllb-siglip-large	79.2	-	-
Text-to-image	jina-clip-v2	68.4	+2.9%	-3.4%
	jina-clip-v1	66.5	-	-6.1%
	nllb-siglip-large	70.8	-	-

tagMultilinguale Texte und Bilder

Bei multilingualen Cross-Modal-Benchmarks zeigt jina-clip-v2 robuste Leistung, insbesondere beim Bild-zu-Text-Retrieval, wo es NLLB-SigLIP über alle Datensätze hinweg übertrifft, mit bis zu +3,8% Verbesserung bei Crossmodal 3600. Während NLLB-SigLIP etwas stärkere Text-zu-Bild-Retrieval-Fähigkeiten zeigt, bleibt der Leistungsunterschied gering, typischerweise innerhalb von 3%.

Image2Text Recall@5 Performance:

Benchmark	Model	Score	Relative to NLLB
Crossmodal 3600	jina-clip-v2	83.23	+3.8%
	nllb-siglip-large	80.16	-
Multilingual MS Coco	jina-clip-v2	86.03	+0.8%
	nllb-siglip-large	85.37	-
XTD10	jina-clip-v2	85.98	+0.7%
	nllb-siglip-large	85.41	-

Text2Image Recall@5 Performance:

Benchmark	Model	Score	Relative to NLLB
Crossmodal 3600	jina-clip-v2	81.43	-0.8%
	nllb-siglip-large	82.07	-
Multilingual MS Coco	jina-clip-v2	84.87	-3.1%
	nllb-siglip-large	87.60	-
XTD10	jina-clip-v2	85.03	-3.0%
	nllb-siglip-large	87.63	-

tagLeistung des Text-Only Dense Retrievers

Ähnlich wie sein Vorgänger kann der Text-Encoder von jina-clip-v2 als effektiver mehrsprachiger Dense Retriever dienen. Bei den umfassenden Multilingual MTEB Benchmarks erzielt er starke Leistungen mit 69,86 % beim Retrieval und 67,77 % bei Aufgaben zur semantischen Ähnlichkeit. Diese Ergebnisse zeigen seine Vielseitigkeit und sind wettbewerbsfähig mit unserem spezialisierten Text-Embedding-Modell jina-embeddings-v3:

Task	Model	Score	Relative to v3
Retrieval	jina-clip-v2	69.86	-3.8%
	jina-embeddings-v3	72.59	-
Semantic Similarity	jina-clip-v2	67.77	-2.9%
	jina-embeddings-v3	69.81	-

Bei englischsprachigen Aufgaben zeigt jina-clip-v2 konstante Verbesserungen gegenüber sowohl seinem Vorgänger als auch NLLB-SigLIP, mit besonders starken Vorteilen bei der Retrieval-Leistung (fast das Doppelte des NLLB-SigLIP-Scores).

Task	Model	Score	Relative to v1
STS	jina-clip-v2	81.29	+0.5%
	jina-clip-v1	80.92	-
	nllb-siglip-large	74.65	-
Retrieval	jina-clip-v2	49.33	+2.1%
	jina-clip-v1	48.33	-
	nllb-siglip-large	24.92	-

tagLeistung der Matryoshka-Repräsentation

Sowohl Text- als auch Bild-Encoder unterstützen MRL, und ihre Ausgabedimensionen können auf 64 reduziert werden, während sie weiterhin starke Leistung zeigen. Unsere Evaluierung der Embedding-Kürzung zeigte bemerkenswerte Komprimierungspotenziale. Selbst eine aggressive Dimensionsreduktion um 75 % behielt über 99 % der Leistung bei Text-, Bild- und Cross-Modal-Aufgaben bei.

tagBildklassifizierung

Über 37 verschiedene Bildklassifizierungs-Benchmarks hinweg zeigt der Bild-Encoder eine starke Widerstandsfähigkeit gegenüber reduzierten Dimensionen. Eine Komprimierung von 1024 auf 64 Dimensionen (94 % Reduktion) führt nur zu einem Rückgang von 8 % bei der Top-5-Genauigkeit und 12,5 % bei Top-1, was sein Potenzial für einen effizienten Einsatz bei minimalem Leistungsverlust unterstreicht.

Für die Bildklassifizierung verwendeten wir die 19 Benchmarks aus dem VTAB-Datensatz, VOC 2007, SUN397, STL10, Rendered SST2, ObjectNet, MNIST, German Traffic Sign Recognition Benchmark (GTSRB), Fine-Grained Visual Classification of Aircraft (FGVC-Aircraft), FER 2013, Country211, Cars196, ImageNet-A, ImageNet-O,IxmageNet1k, ImageNet Sketch und ImageNet v2.

Trotz einer drastischen Reduzierung um 94% auf nur 64 Dimensionen blieb das modalitätsübergreifende Retrieval unter Verwendung von gekürzten Bild- und Text-Embeddings bemerkenswert robust und bewahrte 93% der Bild-zu-Text- und 90% der Text-zu-Bild-Leistung.

Wir verwendeten sechs Benchmarks, von denen drei mehrsprachig sind: Crossmodal-3600 (36 Sprachen), flickr30k (nur Englisch), flickr8k (nur Englisch), MS COCO Captions (nur Englisch), Multilingual MS COCO Captions (10 Sprachen), XTD 200 (27 Sprachen)

tagReiner Text-Retrieval

Bei rein englischsprachigen MTEB-Benchmarks bewahrten 64-dimensionale Text-Embeddings (komprimiert von 1024) die semantische Ähnlichkeit bemerkenswert gut und zeigten nur einen Rückgang von 2,1%, während das Retrieval einen moderaten Rückgang von 17,5% verzeichnete.

tagErste Schritte

tagÜber die API

Der Code zeigt, wie man Embeddings mit Python's requests generiert. Übergeben Sie einen Text-String mit entweder einem base64-codierten Bild oder einer URL sowie Ihre gewünschte Dimensionsgröße (Standard 1024, hier 768 gezeigt).

import requests
import numpy as np
from numpy.linalg import norm

cos_sim = lambda a,b: (a @ b.T) / (norm(a)*norm(b))

url = 'https://api.jina.ai/v1/embeddings'

headers = {
  'Content-Type': 'application/json',
  'Authorization': 'Bearer <YOUR_JINA_AI_API_KEY>'
}

data = {
  'input': [
     {"text": "Bridge close-shot"},
     {"url": "https://fastly.picsum.photos/id/84/1280/848.jpg?hmac=YFRYDI4UsfbeTzI8ZakNOR98wVU7a-9a2tGF542539s"}],
  'model': 'jina-clip-v2',
  'encoding_type': 'float',
  'dimensions': '768' 
}

response = requests.post(url, headers=headers, json=data)
sim = cos_sim(np.array(response.json()['data'][0]['embedding']), np.array(response.json()['data'][1]['embedding']))
print(f"Cosine text<->image: {sim}")

Denken Sie daran, <YOUR_JINA_AI_API_KEY> durch einen aktivierten Jina API-Schlüssel zu ersetzen. Sie können hier einen kostenlosen API-Schlüssel mit einer Million kostenloser Token erhalten.

tagBild-Token-Preise

Unsere API zählt sowohl Text- als auch Bild-Token. Bei Bildern basiert der Token-Verbrauch auf der Anzahl der 512x512-Pixel-Kacheln, die benötigt werden, um die gesamte Bildfläche abzudecken. Jede Kachel kostet 4.000 Token für die Verarbeitung, einschließlich teilweise gefüllter Kacheln. Für optimale Kosteneffizienz empfehlen wir API-Nutzern, ihre Bilder vor dem Senden der Anfragen auf 512x512 zu skalieren.

Bildauflösung	Benötigte Kacheln	Token-Kosten
512x512	1	4.000
720x720	4	16.000
1080x1080	9	36.000

Für quadratische Bilder empfiehlt sich die Skalierung auf 512x512 für beste Kosteneffizienz. Für Aufgaben, bei denen das Seitenverhältnis wichtig ist, skalieren Sie die längste Kante auf 512, zentrieren Sie das Bild und füllen Sie mit Schwarz auf. Für allgemeine Zwecke funktioniert die direkte Skalierung auf 512x512 gut.

tagÜber CSP-Marktplätze

Jina CLIP v2 ist direkt auf AWS, Azure und GCP zu den dort aufgeführten Preisen verfügbar.

Microsoft Azure Marketplace

Google Cloud console

Geben Sie intelligent aus, beschaffen Sie schneller und nutzen Sie die zugesagten Google Cloud-Ausgaben mit Google Cloud Marketplace. Durchsuchen Sie den Katalog mit über 2000 SaaS, VMs, Entwicklungs-Stacks und Kubernetes-Apps, die für Google Cloud optimiert sind.

tagÜber VectorDB

tagFazit

Aufbauend auf unserer jina-clip-v1 Veröffentlichung im Juni, die das CLIP-Modell von OpenAI um Texteingaben von bis zu 8.192 Token erweiterte, und dem bahnbrechenden mehrsprachigen jina-embeddings-v3, bringt jina-clip-v2 drei wichtige Fortschritte: mehrsprachige Unterstützung für 89 Sprachen, erhöhte Bildauflösung von 512x512 und Matryoshka-Repräsentationslernen für genauere verkürzte Embeddings.

CLIP-ähnliche Modelle haben sich als Rückgrat für universelle multimodale Anwendungen etabliert. Mit jina-clip-v2 heben wir diese Fähigkeiten auf die nächste Stufe und bauen Sprachbarrieren ab, um ein genaueres modalitätsübergreifendes Verständnis und Abrufen zu ermöglichen. Wir glauben, dass diese Version ein Versprechen einlöst, multimodale Suche und Abruf sowohl leistungsfähiger als auch zugänglicher für Entwickler weltweit zu machen.