

jina-clip-v2 API est disponible sous l'onglet "Embeddings".
Les embeddings multimodaux permettent de rechercher et de comprendre les données à travers différentes modalités grâce à une représentation cohérente. Ils constituent la colonne vertébrale de la recherche d'information neuronale et des applications GenAI multimodales. Aujourd'hui, nous sommes ravis de publier jina-clip-v2, de nouveaux embeddings multimodaux multilingues à usage général construits sur jina-clip-v1 et notre récent jina-embeddings-3
, présentant plusieurs améliorations clés :
- Performance améliorée : v2 montre une amélioration de 3 % par rapport à v1 dans les tâches de recherche texte-image et texte-texte. Comme pour v1, l'encodeur de texte v2 peut servir de récupérateur dense multilingue efficace pour les contextes longs. Il offre des performances équivalentes à notre modèle phare jina-embeddings-v3 (actuellement les meilleurs embeddings multilingues de moins d'1B paramètres sur MTEB).
- Support multilingue : Propulsé par jina-embeddings-v3 comme tour de texte, jina-clip-v2 prend en charge 89 langues pour la recherche multilingue d'images, montrant une amélioration jusqu'à 4 % par rapport à
nllb-clip-large-siglip
sur les tâches de recherche d'images multilingues. - Résolution d'image plus élevée : v2 prend désormais en charge une résolution d'image d'entrée de 512x512, une augmentation significative par rapport au 224x224 de v1. Cette résolution plus élevée permet un meilleur traitement des images détaillées, une meilleure extraction des caractéristiques et une reconnaissance plus précise des éléments visuels détaillés.
- Représentations Matryoshka : v2 permet aux utilisateurs de tronquer les dimensions de sortie des embeddings de texte et d'image de 1024 à 64, réduisant ainsi les coûts de stockage et de traitement tout en maintenant de fortes performances.
tagArchitecture du modèle
jina-clip-v2 est un modèle de style CLIP de 0,9B qui combine deux puissants encodeurs : l'encodeur de texte Jina XLM-RoBERTa
(la base de jina-embeddings-v3) et l'encodeur de vision EVA02-L14
(un Transformer de vision efficace développé par BAAI). Ces encodeurs sont entraînés conjointement pour créer des représentations alignées d'images et de texte.
Feature | Text Encoder | Image Encoder |
---|---|---|
Base Model | Jina XLM-RoBERTa | EVA02-L |
Parameters | 561M | 304M |
Input Specification | 8,192 tokens (max) | 512×512 pixels |
Min Output Dimensions | 64 | 64 |
Max Output Dimensions | 1,024 | 1,024 |
Layers | 24 | 24 |
Attention Mechanism | FlashAttention2 | xFormers |
Pooling Strategy | Mean pooling | CLS pooling |
Additional Features | 89 languages supported | Patch size 14x14 |
tagPerformance de recherche intermodale
Jina CLIP v2 offre un support multilingue pour 89 langues avec des performances de pointe dans les principales langues, notamment l'arabe, le chinois, l'anglais, le français, l'allemand, le japonais, le russe et l'espagnol. Dans les benchmarks de recherche d'images multilingues, il montre des performances égales ou supérieures à NLLB-CLIP-SigLIP, un modèle de style CLIP état de l'art légèrement plus grand (1,3B, 44 % plus grand que jina-clip-v2) qui utilise un encodeur de texte pré-entraîné des modèles NLLB.
tagTexte et images en anglais uniquement
Sur les benchmarks standard de recherche intermodale (Flickr30k et COCO), jina-clip-v2 démontre de fortes améliorations dans tous les domaines. Il atteint une performance état de l'art de 98,0 % sur la recherche image-vers-texte Flickr30k, surpassant à la fois son prédécesseur et NLLB-CLIP-SigLIP. Le modèle montre des gains constants dans tous les scénarios de recherche, avec des améliorations notables allant jusqu'à 3,3 % par rapport à v1 sur la recherche image-vers-texte COCO, tout en maintenant des performances compétitives avec NLLB-CLIP-SigLIP à travers différents benchmarks et directions de modalité.
Performance Flickr30k Recall@5 :
Task | Model | Score | Relative to v1 | Relative to NLLB |
---|---|---|---|---|
Image-to-text | jina-clip-v2 | 98.0 | +1.7% | +0.9% |
jina-clip-v1 | 96.4 | - | -0.7% | |
nllb-siglip-large | 97.1 | - | - | |
Text-to-image | jina-clip-v2 | 89.8 | +0.9% | -2.6% |
jina-clip-v1 | 89.0 | - | -3.5% | |
nllb-siglip-large | 92.2 | - | - |
Performance COCO Recall@5 :
Task | Model | Score | Relative to v1 | Relative to NLLB |
---|---|---|---|---|
Image-to-text | jina-clip-v2 | 81.5 | +3.3% | +2.9% |
jina-clip-v1 | 78.9 | - | -0.4% | |
nllb-siglip-large | 79.2 | - | - | |
Text-to-image | jina-clip-v2 | 68.4 | +2.9% | -3.4% |
jina-clip-v1 | 66.5 | - | -6.1% | |
nllb-siglip-large | 70.8 | - | - |
tagTexte et images multilingues
Sur les benchmarks intermodaux multilingues, jina-clip-v2 démontre des performances robustes, excellant particulièrement dans la recherche image-vers-texte où il surpasse NLLB-SigLIP sur tous les jeux de données, avec une amélioration allant jusqu'à +3,8 % sur Crossmodal 3600. Bien que NLLB-SigLIP montre des capacités légèrement plus fortes en recherche texte-vers-image, l'écart de performance reste faible, généralement inférieur à 3 %.
Performance Image2Text Recall@5 :
Benchmark | Model | Score | Relative to NLLB |
---|---|---|---|
Crossmodal 3600 | jina-clip-v2 | 83.23 | +3.8% |
nllb-siglip-large | 80.16 | - | |
Multilingual MS Coco | jina-clip-v2 | 86.03 | +0.8% |
nllb-siglip-large | 85.37 | - | |
XTD10 | jina-clip-v2 | 85.98 | +0.7% |
nllb-siglip-large | 85.41 | - |
Performance Text2Image Recall@5 :
Benchmark | Model | Score | Relative to NLLB |
---|---|---|---|
Crossmodal 3600 | jina-clip-v2 | 81.43 | -0.8% |
nllb-siglip-large | 82.07 | - | |
Multilingual MS Coco | jina-clip-v2 | 84.87 | -3.1% |
nllb-siglip-large | 87.60 | - | |
XTD10 | jina-clip-v2 | 85.03 | -3.0% |
nllb-siglip-large | 87.63 | - |
tagPerformance du Retrieveur Dense Text-Only
Comme son prédécesseur, l'encodeur de texte de jina-clip-v2 peut servir de retrieveur multilingue dense efficace. Sur les benchmarks complets Multilingual MTEB, il atteint de bonnes performances, avec 69,86 % sur la récupération et 67,77 % sur les tâches de similarité sémantique. Ces résultats démontrent sa polyvalence, performant de manière compétitive avec notre modèle spécialisé d'embedding de texte jina-embeddings-v3 :
Tâche | Model | Score | Relative to v3 |
---|---|---|---|
Retrieval | jina-clip-v2 | 69.86 | -3.8% |
jina-embeddings-v3 | 72.59 | - | |
Similarité Sémantique | jina-clip-v2 | 67.77 | -2.9% |
jina-embeddings-v3 | 69.81 | - |
Sur les tâches en anglais, jina-clip-v2 montre des améliorations constantes par rapport à son prédécesseur et à NLLB-SigLIP, avec des avantages particulièrement importants en termes de performance de récupération (presque le double du score de NLLB-SigLIP).
Tâche | Model | Score | Relative to v1 |
---|---|---|---|
STS | jina-clip-v2 | 81.29 | +0.5% |
jina-clip-v1 | 80.92 | - | |
nllb-siglip-large | 74.65 | - | |
Retrieval | jina-clip-v2 | 49.33 | +2.1% |
jina-clip-v1 | 48.33 | - | |
nllb-siglip-large | 24.92 | - |
tagPerformance de la Représentation Matryoshka
Les encodeurs de texte et d'image prennent en charge MRL, et leurs dimensions de sortie peuvent être tronquées à 64 tout en maintenant de bonnes performances. Notre évaluation de la troncature des embeddings a révélé un potentiel de compression remarquable. Même une réduction dimensionnelle agressive de 75 % a maintenu plus de 99 % des performances sur les tâches de texte, d'image et cross-modales.
tagClassification d'Images
Sur 37 benchmarks divers de classification d'images, l'encodeur d'images montre une forte résilience aux dimensions tronquées. La compression de 1024 à 64 dimensions (réduction de 94 %) n'entraîne qu'une baisse de 8 % de la précision top-5 et de 12,5 % en top-1, soulignant son potentiel pour un déploiement efficace avec une perte de performance minimale.
tagRecherche Cross-Modale
Malgré une réduction drastique de 94 % à seulement 64 dimensions, la recherche cross-modale utilisant les embeddings d'images et de textes tronqués est restée remarquablement robuste, conservant 93 % des performances image-vers-texte et 90 % des performances texte-vers-image.
tagRecherche Texte Uniquement
Sur les benchmarks MTEB en anglais uniquement, les embeddings de texte à 64 dimensions (compressés à partir de 1024) ont remarquablement bien préservé la similarité sémantique, avec une baisse de seulement 2,1 %, tandis que la recherche a connu une modeste diminution de 17,5 %.
tagPour Commencer
tagVia API
Le code montre comment générer des embeddings en utilisant requests
en Python. Passez une chaîne de texte avec soit une image en base64 soit une URL, plus la taille de dimension souhaitée (1024 par défaut, 768 montré ci-dessous).
import requests
import numpy as np
from numpy.linalg import norm
cos_sim = lambda a,b: (a @ b.T) / (norm(a)*norm(b))
url = 'https://api.jina.ai/v1/embeddings'
headers = {
'Content-Type': 'application/json',
'Authorization': 'Bearer <YOUR_JINA_AI_API_KEY>'
}
data = {
'input': [
{"text": "Bridge close-shot"},
{"url": "https://fastly.picsum.photos/id/84/1280/848.jpg?hmac=YFRYDI4UsfbeTzI8ZakNOR98wVU7a-9a2tGF542539s"}],
'model': 'jina-clip-v2',
'encoding_type': 'float',
'dimensions': '768'
}
response = requests.post(url, headers=headers, json=data)
sim = cos_sim(np.array(response.json()['data'][0]['embedding']), np.array(response.json()['data'][1]['embedding']))
print(f"Cosine text<->image: {sim}")
N'oubliez pas de remplacer <YOUR_JINA_AI_API_KEY> par une clé API Jina activée. Vous pouvez obtenir une clé API gratuite avec un million de tokens gratuits ici.
tagTarification des Tokens d'Image
Notre API compte les tokens à la fois pour le texte et les images. Pour les images, la consommation de tokens est basée sur le nombre de tuiles de 512x512 pixels nécessaires pour couvrir toute la surface de l'image. Chaque tuile coûte 4 000 tokens à traiter, y compris les tuiles partiellement remplies. Pour une efficacité optimale des coûts, nous recommandons aux utilisateurs de l'API de redimensionner leurs images à 512x512 avant d'envoyer les requêtes.
Résolution d'Image | Tuiles Requises | Coût en Tokens |
---|---|---|
512x512 | 1 | 4,000 |
720x720 | 4 | 16,000 |
1080x1080 | 9 | 36,000 |
tagVia les Places de Marché CSP
Jina CLIP v2 est disponible directement sur AWS, Azure et GCP aux prix indiqués.

tagVia VectorDB



tagConclusion
S'appuyant sur notre version jina-clip-v1 de juin, qui a étendu le modèle CLIP d'OpenAI avec une entrée de texte allant jusqu'à 8 192 tokens, et le pionnier multilingue jina-embeddings-v3, jina-clip-v2 apporte trois avancées majeures : le support multilingue pour 89 langues, une résolution d'image accrue à 512x512, et l'apprentissage de représentation Matryoshka pour des embeddings plus tronqués.
Les modèles de type CLIP se sont imposés comme la colonne vertébrale des applications multimodales à usage général. Avec jina-clip-v2, nous portons ces capacités au niveau supérieur, en brisant les barrières linguistiques pour offrir une compréhension et une recherche cross-modale plus précises. Nous pensons que cette version tient la promesse de rendre la recherche et la récupération multimodales à la fois plus puissantes et plus accessibles aux développeurs du monde entier.