Jina CLIP v2 : Embeddings multilingues et multimodales pour le texte et les images

jina-clip-v2 API est disponible sous l'onglet "Embeddings".

Les embeddings multimodaux permettent de rechercher et de comprendre les données à travers différentes modalités grâce à une représentation cohérente. Ils constituent la colonne vertébrale de la recherche d'information neuronale et des applications GenAI multimodales. Aujourd'hui, nous sommes ravis de publier jina-clip-v2, de nouveaux embeddings multimodaux multilingues à usage général construits sur jina-clip-v1 et notre récent jina-embeddings-3, présentant plusieurs améliorations clés :

Performance améliorée : v2 montre une amélioration de 3 % par rapport à v1 dans les tâches de recherche texte-image et texte-texte. Comme pour v1, l'encodeur de texte v2 peut servir de récupérateur dense multilingue efficace pour les contextes longs. Il offre des performances équivalentes à notre modèle phare jina-embeddings-v3 (actuellement les meilleurs embeddings multilingues de moins d'1B paramètres sur MTEB).
Support multilingue : Propulsé par jina-embeddings-v3 comme tour de texte, jina-clip-v2 prend en charge 89 langues pour la recherche multilingue d'images, montrant une amélioration jusqu'à 4 % par rapport à nllb-clip-large-siglip sur les tâches de recherche d'images multilingues.
Résolution d'image plus élevée : v2 prend désormais en charge une résolution d'image d'entrée de 512x512, une augmentation significative par rapport au 224x224 de v1. Cette résolution plus élevée permet un meilleur traitement des images détaillées, une meilleure extraction des caractéristiques et une reconnaissance plus précise des éléments visuels détaillés.
Représentations Matryoshka : v2 permet aux utilisateurs de tronquer les dimensions de sortie des embeddings de texte et d'image de 1024 à 64, réduisant ainsi les coûts de stockage et de traitement tout en maintenant de fortes performances.

tagArchitecture du modèle

jina-clip-v2 est un modèle de style CLIP de 0,9B qui combine deux puissants encodeurs : l'encodeur de texte Jina XLM-RoBERTa (la base de jina-embeddings-v3) et l'encodeur de vision EVA02-L14 (un Transformer de vision efficace développé par BAAI). Ces encodeurs sont entraînés conjointement pour créer des représentations alignées d'images et de texte.

Feature	Text Encoder	Image Encoder
Base Model	Jina XLM-RoBERTa	EVA02-L
Parameters	561M	304M
Input Specification	8,192 tokens (max)	512×512 pixels
Min Output Dimensions	64	64
Max Output Dimensions	1,024	1,024
Layers	24	24
Attention Mechanism	FlashAttention2	xFormers
Pooling Strategy	Mean pooling	CLS pooling
Additional Features	89 languages supported	Patch size 14x14

Jina CLIP v2 offre un support multilingue pour 89 langues avec des performances de pointe dans les principales langues, notamment l'arabe, le chinois, l'anglais, le français, l'allemand, le japonais, le russe et l'espagnol. Dans les benchmarks de recherche d'images multilingues, il montre des performances égales ou supérieures à NLLB-CLIP-SigLIP, un modèle de style CLIP état de l'art légèrement plus grand (1,3B, 44 % plus grand que jina-clip-v2) qui utilise un encodeur de texte pré-entraîné des modèles NLLB.

tagTexte et images en anglais uniquement

Sur les benchmarks standard de recherche intermodale (Flickr30k et COCO), jina-clip-v2 démontre de fortes améliorations dans tous les domaines. Il atteint une performance état de l'art de 98,0 % sur la recherche image-vers-texte Flickr30k, surpassant à la fois son prédécesseur et NLLB-CLIP-SigLIP. Le modèle montre des gains constants dans tous les scénarios de recherche, avec des améliorations notables allant jusqu'à 3,3 % par rapport à v1 sur la recherche image-vers-texte COCO, tout en maintenant des performances compétitives avec NLLB-CLIP-SigLIP à travers différents benchmarks et directions de modalité.

Performance Flickr30k Recall@5 :

Task	Model	Score	Relative to v1	Relative to NLLB
Image-to-text	jina-clip-v2	98.0	+1.7%	+0.9%
	jina-clip-v1	96.4	-	-0.7%
	nllb-siglip-large	97.1	-	-
Text-to-image	jina-clip-v2	89.8	+0.9%	-2.6%
	jina-clip-v1	89.0	-	-3.5%
	nllb-siglip-large	92.2	-	-

Performance COCO Recall@5 :

Task	Model	Score	Relative to v1	Relative to NLLB
Image-to-text	jina-clip-v2	81.5	+3.3%	+2.9%
	jina-clip-v1	78.9	-	-0.4%
	nllb-siglip-large	79.2	-	-
Text-to-image	jina-clip-v2	68.4	+2.9%	-3.4%
	jina-clip-v1	66.5	-	-6.1%
	nllb-siglip-large	70.8	-	-

tagTexte et images multilingues

Sur les benchmarks intermodaux multilingues, jina-clip-v2 démontre des performances robustes, excellant particulièrement dans la recherche image-vers-texte où il surpasse NLLB-SigLIP sur tous les jeux de données, avec une amélioration allant jusqu'à +3,8 % sur Crossmodal 3600. Bien que NLLB-SigLIP montre des capacités légèrement plus fortes en recherche texte-vers-image, l'écart de performance reste faible, généralement inférieur à 3 %.

Performance Image2Text Recall@5 :

Benchmark	Model	Score	Relative to NLLB
Crossmodal 3600	jina-clip-v2	83.23	+3.8%
	nllb-siglip-large	80.16	-
Multilingual MS Coco	jina-clip-v2	86.03	+0.8%
	nllb-siglip-large	85.37	-
XTD10	jina-clip-v2	85.98	+0.7%
	nllb-siglip-large	85.41	-

Performance Text2Image Recall@5 :

Benchmark	Model	Score	Relative to NLLB
Crossmodal 3600	jina-clip-v2	81.43	-0.8%
	nllb-siglip-large	82.07	-
Multilingual MS Coco	jina-clip-v2	84.87	-3.1%
	nllb-siglip-large	87.60	-
XTD10	jina-clip-v2	85.03	-3.0%
	nllb-siglip-large	87.63	-

tagPerformance du Retrieveur Dense Text-Only

Comme son prédécesseur, l'encodeur de texte de jina-clip-v2 peut servir de retrieveur multilingue dense efficace. Sur les benchmarks complets Multilingual MTEB, il atteint de bonnes performances, avec 69,86 % sur la récupération et 67,77 % sur les tâches de similarité sémantique. Ces résultats démontrent sa polyvalence, performant de manière compétitive avec notre modèle spécialisé d'embedding de texte jina-embeddings-v3 :

Tâche	Model	Score	Relative to v3
Retrieval	jina-clip-v2	69.86	-3.8%
	jina-embeddings-v3	72.59	-
Similarité Sémantique	jina-clip-v2	67.77	-2.9%
	jina-embeddings-v3	69.81	-

Sur les tâches en anglais, jina-clip-v2 montre des améliorations constantes par rapport à son prédécesseur et à NLLB-SigLIP, avec des avantages particulièrement importants en termes de performance de récupération (presque le double du score de NLLB-SigLIP).

Tâche	Model	Score	Relative to v1
STS	jina-clip-v2	81.29	+0.5%
	jina-clip-v1	80.92	-
	nllb-siglip-large	74.65	-
Retrieval	jina-clip-v2	49.33	+2.1%
	jina-clip-v1	48.33	-
	nllb-siglip-large	24.92	-

tagPerformance de la Représentation Matryoshka

Les encodeurs de texte et d'image prennent en charge MRL, et leurs dimensions de sortie peuvent être tronquées à 64 tout en maintenant de bonnes performances. Notre évaluation de la troncature des embeddings a révélé un potentiel de compression remarquable. Même une réduction dimensionnelle agressive de 75 % a maintenu plus de 99 % des performances sur les tâches de texte, d'image et cross-modales.

tagClassification d'Images

Sur 37 benchmarks divers de classification d'images, l'encodeur d'images montre une forte résilience aux dimensions tronquées. La compression de 1024 à 64 dimensions (réduction de 94 %) n'entraîne qu'une baisse de 8 % de la précision top-5 et de 12,5 % en top-1, soulignant son potentiel pour un déploiement efficace avec une perte de performance minimale.

Pour la classification d'images, nous avons utilisé les 19 benchmarks du jeu de données VTAB, VOC 2007, SUN397, STL10, Rendered SST2, ObjectNet, MNIST, German Traffic Sign Recognition Benchmark (GTSRB), Fine-Grained Visual Classification of Aircraft (FGVC-Aircraft), FER 2013, Country211, Cars196, ImageNet-A, ImageNet-O,IxmageNet1k, ImageNet Sketch, et ImageNet v2.

Malgré une réduction drastique de 94 % à seulement 64 dimensions, la recherche cross-modale utilisant les embeddings d'images et de textes tronqués est restée remarquablement robuste, conservant 93 % des performances image-vers-texte et 90 % des performances texte-vers-image.

Nous avons utilisé six benchmarks, dont trois sont multilingues : Crossmodal-3600 (36 langues), flickr30k (anglais uniquement), flickr8k (anglais uniquement), MS COCO Captions (anglais uniquement), Multilingual MS COCO Captions (10 langues), XTD 200 (27 langues)

tagRecherche Texte Uniquement

Sur les benchmarks MTEB en anglais uniquement, les embeddings de texte à 64 dimensions (compressés à partir de 1024) ont remarquablement bien préservé la similarité sémantique, avec une baisse de seulement 2,1 %, tandis que la recherche a connu une modeste diminution de 17,5 %.

tagPour Commencer

tagVia API

Le code montre comment générer des embeddings en utilisant requests en Python. Passez une chaîne de texte avec soit une image en base64 soit une URL, plus la taille de dimension souhaitée (1024 par défaut, 768 montré ci-dessous).

import requests
import numpy as np
from numpy.linalg import norm

cos_sim = lambda a,b: (a @ b.T) / (norm(a)*norm(b))

url = 'https://api.jina.ai/v1/embeddings'

headers = {
  'Content-Type': 'application/json',
  'Authorization': 'Bearer <YOUR_JINA_AI_API_KEY>'
}

data = {
  'input': [
     {"text": "Bridge close-shot"},
     {"url": "https://fastly.picsum.photos/id/84/1280/848.jpg?hmac=YFRYDI4UsfbeTzI8ZakNOR98wVU7a-9a2tGF542539s"}],
  'model': 'jina-clip-v2',
  'encoding_type': 'float',
  'dimensions': '768' 
}

response = requests.post(url, headers=headers, json=data)
sim = cos_sim(np.array(response.json()['data'][0]['embedding']), np.array(response.json()['data'][1]['embedding']))
print(f"Cosine text<->image: {sim}")

N'oubliez pas de remplacer <YOUR_JINA_AI_API_KEY> par une clé API Jina activée. Vous pouvez obtenir une clé API gratuite avec un million de tokens gratuits ici.

tagTarification des Tokens d'Image

Notre API compte les tokens à la fois pour le texte et les images. Pour les images, la consommation de tokens est basée sur le nombre de tuiles de 512x512 pixels nécessaires pour couvrir toute la surface de l'image. Chaque tuile coûte 4 000 tokens à traiter, y compris les tuiles partiellement remplies. Pour une efficacité optimale des coûts, nous recommandons aux utilisateurs de l'API de redimensionner leurs images à 512x512 avant d'envoyer les requêtes.

Résolution d'Image	Tuiles Requises	Coût en Tokens
512x512	1	4,000
720x720	4	16,000
1080x1080	9	36,000

Pour les images carrées, redimensionnez à 512x512 pour une meilleure efficacité des coûts. Pour les tâches sensibles au ratio d'aspect, mettez à l'échelle le bord le plus long à 512, centrez l'image et complétez avec du noir. Pour les usages généraux, le redimensionnement direct à 512x512 fonctionne bien.

tagVia les Places de Marché CSP

Jina CLIP v2 est disponible directement sur AWS, Azure et GCP aux prix indiqués.

Microsoft Azure Marketplace

Google Cloud console

Dépensez intelligemment, procurez-vous plus rapidement et utilisez les dépenses engagées sur Google Cloud avec Google Cloud Marketplace. Parcourez le catalogue de plus de 2000 applications SaaS, VMs, stacks de développement et applications Kubernetes optimisées pour fonctionner sur Google Cloud.

tagVia VectorDB

tagConclusion

S'appuyant sur notre version jina-clip-v1 de juin, qui a étendu le modèle CLIP d'OpenAI avec une entrée de texte allant jusqu'à 8 192 tokens, et le pionnier multilingue jina-embeddings-v3, jina-clip-v2 apporte trois avancées majeures : le support multilingue pour 89 langues, une résolution d'image accrue à 512x512, et l'apprentissage de représentation Matryoshka pour des embeddings plus tronqués.

Les modèles de type CLIP se sont imposés comme la colonne vertébrale des applications multimodales à usage général. Avec jina-clip-v2, nous portons ces capacités au niveau supérieur, en brisant les barrières linguistiques pour offrir une compréhension et une recherche cross-modale plus précises. Nous pensons que cette version tient la promesse de rendre la recherche et la récupération multimodales à la fois plus puissantes et plus accessibles aux développeurs du monde entier.