Nouvelles
Modèles
Des produits
keyboard_arrow_down
Recherche profonde
Recherchez, lisez et raisonnez jusqu'à trouver la meilleure réponse.
Lecteur
Lisez les URL et effectuez des recherches sur le Web pour de meilleurs LLM de base.
Intégrations
Intégrations multimodales et multilingues de classe mondiale.
Reclasseur
Récupérateur neuronal de classe mondiale pour maximiser la pertinence de la recherche.
Plus
keyboard_arrow_down
Classificateur
Classification à zéro plan et à quelques plans pour l'image et le texte.
Segmenteur
Coupez un long texte en morceaux et effectuez la tokenisation.

Documentation de l'API
Génération automatique de code pour votre IDE ou LLM copilote
open_in_new


Entreprise
keyboard_arrow_down
À propos de nous
Contacter le service commercial
Programme de stage
Rejoignez-nous
open_in_new
Télécharger le logo
open_in_new
termes et conditions


Se connecter
login
Architecture du modèle
Performance de recherche intermodale
Performance du Retrieveur Dense Text-Only
Performance de la Représentation Matryoshka
Pour Commencer
Conclusion
star
Mis en exergue
communiqué de presse
novembre 21, 2024

Jina CLIP v2 : Embeddings multilingues et multimodales pour le texte et les images

Jina-CLIP v2, un modèle d'embedding multimodal de 0,9B avec un support multilingue de 89 langues, une haute résolution d'image à 512x512, et des représentations Matryoshka.
Jina AI
Jina AI • 8 minutes lues
jinaai/jina-clip-v2 · Hugging Face
Nous sommes en mission pour faire progresser et démocratiser l'intelligence artificielle grâce à l'open source et la science ouverte.
Jina AI - Votre base de recherche, surpuissante.
Les meilleurs embeddings, rerankers, LLM-reader, web scraper, classificateurs. La meilleure IA de recherche pour les données multilingues et multimodales.
Votre base de recherche, surpuissante.

jina-clip-v2 API est disponible sous l'onglet "Embeddings".

Les embeddings multimodaux permettent de rechercher et de comprendre les données à travers différentes modalités grâce à une représentation cohérente. Ils constituent la colonne vertébrale de la recherche d'information neuronale et des applications GenAI multimodales. Aujourd'hui, nous sommes ravis de publier jina-clip-v2, de nouveaux embeddings multimodaux multilingues à usage général construits sur jina-clip-v1 et notre récent jina-embeddings-3, présentant plusieurs améliorations clés :

  • Performance améliorée : v2 montre une amélioration de 3 % par rapport à v1 dans les tâches de recherche texte-image et texte-texte. Comme pour v1, l'encodeur de texte v2 peut servir de récupérateur dense multilingue efficace pour les contextes longs. Il offre des performances équivalentes à notre modèle phare jina-embeddings-v3 (actuellement les meilleurs embeddings multilingues de moins d'1B paramètres sur MTEB).
  • Support multilingue : Propulsé par jina-embeddings-v3 comme tour de texte, jina-clip-v2 prend en charge 89 langues pour la recherche multilingue d'images, montrant une amélioration jusqu'à 4 % par rapport à nllb-clip-large-siglip sur les tâches de recherche d'images multilingues.
  • Résolution d'image plus élevée : v2 prend désormais en charge une résolution d'image d'entrée de 512x512, une augmentation significative par rapport au 224x224 de v1. Cette résolution plus élevée permet un meilleur traitement des images détaillées, une meilleure extraction des caractéristiques et une reconnaissance plus précise des éléments visuels détaillés.
  • Représentations Matryoshka : v2 permet aux utilisateurs de tronquer les dimensions de sortie des embeddings de texte et d'image de 1024 à 64, réduisant ainsi les coûts de stockage et de traitement tout en maintenant de fortes performances.

tagArchitecture du modèle

jina-clip-v2 est un modèle de style CLIP de 0,9B qui combine deux puissants encodeurs : l'encodeur de texte Jina XLM-RoBERTa (la base de jina-embeddings-v3) et l'encodeur de vision EVA02-L14 (un Transformer de vision efficace développé par BAAI). Ces encodeurs sont entraînés conjointement pour créer des représentations alignées d'images et de texte.

Feature Text Encoder Image Encoder
Base Model Jina XLM-RoBERTa EVA02-L
Parameters 561M 304M
Input Specification 8,192 tokens (max) 512×512 pixels
Min Output Dimensions 64 64
Max Output Dimensions 1,024 1,024
Layers 24 24
Attention Mechanism FlashAttention2 xFormers
Pooling Strategy Mean pooling CLS pooling
Additional Features 89 languages supported Patch size 14x14

tagPerformance de recherche intermodale

Jina CLIP v2 offre un support multilingue pour 89 langues avec des performances de pointe dans les principales langues, notamment l'arabe, le chinois, l'anglais, le français, l'allemand, le japonais, le russe et l'espagnol. Dans les benchmarks de recherche d'images multilingues, il montre des performances égales ou supérieures à NLLB-CLIP-SigLIP, un modèle de style CLIP état de l'art légèrement plus grand (1,3B, 44 % plus grand que jina-clip-v2) qui utilise un encodeur de texte pré-entraîné des modèles NLLB.

tagTexte et images en anglais uniquement

Sur les benchmarks standard de recherche intermodale (Flickr30k et COCO), jina-clip-v2 démontre de fortes améliorations dans tous les domaines. Il atteint une performance état de l'art de 98,0 % sur la recherche image-vers-texte Flickr30k, surpassant à la fois son prédécesseur et NLLB-CLIP-SigLIP. Le modèle montre des gains constants dans tous les scénarios de recherche, avec des améliorations notables allant jusqu'à 3,3 % par rapport à v1 sur la recherche image-vers-texte COCO, tout en maintenant des performances compétitives avec NLLB-CLIP-SigLIP à travers différents benchmarks et directions de modalité.

Performance Flickr30k Recall@5 :

Task Model Score Relative to v1 Relative to NLLB
Image-to-text jina-clip-v2 98.0 +1.7% +0.9%
jina-clip-v1 96.4 - -0.7%
nllb-siglip-large 97.1 - -
Text-to-image jina-clip-v2 89.8 +0.9% -2.6%
jina-clip-v1 89.0 - -3.5%
nllb-siglip-large 92.2 - -

Performance COCO Recall@5 :

Task Model Score Relative to v1 Relative to NLLB
Image-to-text jina-clip-v2 81.5 +3.3% +2.9%
jina-clip-v1 78.9 - -0.4%
nllb-siglip-large 79.2 - -
Text-to-image jina-clip-v2 68.4 +2.9% -3.4%
jina-clip-v1 66.5 - -6.1%
nllb-siglip-large 70.8 - -

tagTexte et images multilingues

Sur les benchmarks intermodaux multilingues, jina-clip-v2 démontre des performances robustes, excellant particulièrement dans la recherche image-vers-texte où il surpasse NLLB-SigLIP sur tous les jeux de données, avec une amélioration allant jusqu'à +3,8 % sur Crossmodal 3600. Bien que NLLB-SigLIP montre des capacités légèrement plus fortes en recherche texte-vers-image, l'écart de performance reste faible, généralement inférieur à 3 %.

Performance Image2Text Recall@5 :

Benchmark Model Score Relative to NLLB
Crossmodal 3600 jina-clip-v2 83.23 +3.8%
nllb-siglip-large 80.16 -
Multilingual MS Coco jina-clip-v2 86.03 +0.8%
nllb-siglip-large 85.37 -
XTD10 jina-clip-v2 85.98 +0.7%
nllb-siglip-large 85.41 -

Performance Text2Image Recall@5 :

Benchmark Model Score Relative to NLLB
Crossmodal 3600 jina-clip-v2 81.43 -0.8%
nllb-siglip-large 82.07 -
Multilingual MS Coco jina-clip-v2 84.87 -3.1%
nllb-siglip-large 87.60 -
XTD10 jina-clip-v2 85.03 -3.0%
nllb-siglip-large 87.63 -

tagPerformance du Retrieveur Dense Text-Only

Comme son prédécesseur, l'encodeur de texte de jina-clip-v2 peut servir de retrieveur multilingue dense efficace. Sur les benchmarks complets Multilingual MTEB, il atteint de bonnes performances, avec 69,86 % sur la récupération et 67,77 % sur les tâches de similarité sémantique. Ces résultats démontrent sa polyvalence, performant de manière compétitive avec notre modèle spécialisé d'embedding de texte jina-embeddings-v3 :

Tâche Model Score Relative to v3
Retrieval jina-clip-v2 69.86 -3.8%
jina-embeddings-v3 72.59 -
Similarité Sémantique jina-clip-v2 67.77 -2.9%
jina-embeddings-v3 69.81 -

Sur les tâches en anglais, jina-clip-v2 montre des améliorations constantes par rapport à son prédécesseur et à NLLB-SigLIP, avec des avantages particulièrement importants en termes de performance de récupération (presque le double du score de NLLB-SigLIP).

Tâche Model Score Relative to v1
STS jina-clip-v2 81.29 +0.5%
jina-clip-v1 80.92 -
nllb-siglip-large 74.65 -
Retrieval jina-clip-v2 49.33 +2.1%
jina-clip-v1 48.33 -
nllb-siglip-large 24.92 -

tagPerformance de la Représentation Matryoshka

Les encodeurs de texte et d'image prennent en charge MRL, et leurs dimensions de sortie peuvent être tronquées à 64 tout en maintenant de bonnes performances. Notre évaluation de la troncature des embeddings a révélé un potentiel de compression remarquable. Même une réduction dimensionnelle agressive de 75 % a maintenu plus de 99 % des performances sur les tâches de texte, d'image et cross-modales.

tagClassification d'Images

Sur 37 benchmarks divers de classification d'images, l'encodeur d'images montre une forte résilience aux dimensions tronquées. La compression de 1024 à 64 dimensions (réduction de 94 %) n'entraîne qu'une baisse de 8 % de la précision top-5 et de 12,5 % en top-1, soulignant son potentiel pour un déploiement efficace avec une perte de performance minimale.

Pour la classification d'images, nous avons utilisé les 19 benchmarks du jeu de données VTAB, VOC 2007, SUN397, STL10, Rendered SST2, ObjectNet, MNIST, German Traffic Sign Recognition Benchmark (GTSRB), Fine-Grained Visual Classification of Aircraft (FGVC-Aircraft), FER 2013, Country211, Cars196, ImageNet-A, ImageNet-O,IxmageNet1k, ImageNet Sketch, et ImageNet v2.

tagRecherche Cross-Modale

Malgré une réduction drastique de 94 % à seulement 64 dimensions, la recherche cross-modale utilisant les embeddings d'images et de textes tronqués est restée remarquablement robuste, conservant 93 % des performances image-vers-texte et 90 % des performances texte-vers-image.

Nous avons utilisé six benchmarks, dont trois sont multilingues : Crossmodal-3600 (36 langues), flickr30k (anglais uniquement), flickr8k (anglais uniquement), MS COCO Captions (anglais uniquement), Multilingual MS COCO Captions (10 langues), XTD 200 (27 langues)

tagRecherche Texte Uniquement

Sur les benchmarks MTEB en anglais uniquement, les embeddings de texte à 64 dimensions (compressés à partir de 1024) ont remarquablement bien préservé la similarité sémantique, avec une baisse de seulement 2,1 %, tandis que la recherche a connu une modeste diminution de 17,5 %.

tagPour Commencer

tagVia API

Le code montre comment générer des embeddings en utilisant requests en Python. Passez une chaîne de texte avec soit une image en base64 soit une URL, plus la taille de dimension souhaitée (1024 par défaut, 768 montré ci-dessous).

import requests
import numpy as np
from numpy.linalg import norm

cos_sim = lambda a,b: (a @ b.T) / (norm(a)*norm(b))

url = 'https://api.jina.ai/v1/embeddings'

headers = {
  'Content-Type': 'application/json',
  'Authorization': 'Bearer <YOUR_JINA_AI_API_KEY>'
}

data = {
  'input': [
     {"text": "Bridge close-shot"},
     {"url": "https://fastly.picsum.photos/id/84/1280/848.jpg?hmac=YFRYDI4UsfbeTzI8ZakNOR98wVU7a-9a2tGF542539s"}],
  'model': 'jina-clip-v2',
  'encoding_type': 'float',
  'dimensions': '768' 
}

response = requests.post(url, headers=headers, json=data)
sim = cos_sim(np.array(response.json()['data'][0]['embedding']), np.array(response.json()['data'][1]['embedding']))
print(f"Cosine text<->image: {sim}")

N'oubliez pas de remplacer <YOUR_JINA_AI_API_KEY> par une clé API Jina activée. Vous pouvez obtenir une clé API gratuite avec un million de tokens gratuits ici.

tagTarification des Tokens d'Image

Notre API compte les tokens à la fois pour le texte et les images. Pour les images, la consommation de tokens est basée sur le nombre de tuiles de 512x512 pixels nécessaires pour couvrir toute la surface de l'image. Chaque tuile coûte 4 000 tokens à traiter, y compris les tuiles partiellement remplies. Pour une efficacité optimale des coûts, nous recommandons aux utilisateurs de l'API de redimensionner leurs images à 512x512 avant d'envoyer les requêtes.

Résolution d'Image Tuiles Requises Coût en Tokens
512x512 1 4,000
720x720 4 16,000
1080x1080 9 36,000
Pour les images carrées, redimensionnez à 512x512 pour une meilleure efficacité des coûts. Pour les tâches sensibles au ratio d'aspect, mettez à l'échelle le bord le plus long à 512, centrez l'image et complétez avec du noir. Pour les usages généraux, le redimensionnement direct à 512x512 fonctionne bien.

tagVia les Places de Marché CSP

Jina CLIP v2 est disponible directement sur AWS, Azure et GCP aux prix indiqués.

AWS Marketplace: Jina CLIP v2
Microsoft Azure Marketplace
Google Cloud console
Dépensez intelligemment, procurez-vous plus rapidement et utilisez les dépenses engagées sur Google Cloud avec Google Cloud Marketplace. Parcourez le catalogue de plus de 2000 applications SaaS, VMs, stacks de développement et applications Kubernetes optimisées pour fonctionner sur Google Cloud.

tagVia VectorDB

La base de données vectorielle pour construire une IA intelligente | Pinecone
Recherchez parmi des milliards d'éléments des correspondances similaires à n'importe quel objet, en millisecondes. C'est la prochaine génération de recherche, accessible via une API.
Pinecone Docs
Embeddings Multimodaux | Weaviate
L'intégration de Weaviate avec les API de Jina AI vous permet d'accéder directement aux capacités de leurs modèles depuis Weaviate.
Weaviate
Jina Embeddings - Qdrant
Qdrant est une base de données vectorielle et un moteur de recherche vectorielle Open Source écrit en Rust. Il fournit un service de recherche de similarité vectorielle rapide et évolutif avec une API pratique.
editQdrant

tagConclusion

S'appuyant sur notre version jina-clip-v1 de juin, qui a étendu le modèle CLIP d'OpenAI avec une entrée de texte allant jusqu'à 8 192 tokens, et le pionnier multilingue jina-embeddings-v3, jina-clip-v2 apporte trois avancées majeures : le support multilingue pour 89 langues, une résolution d'image accrue à 512x512, et l'apprentissage de représentation Matryoshka pour des embeddings plus tronqués.

Les modèles de type CLIP se sont imposés comme la colonne vertébrale des applications multimodales à usage général. Avec jina-clip-v2, nous portons ces capacités au niveau supérieur, en brisant les barrières linguistiques pour offrir une compréhension et une recherche cross-modale plus précises. Nous pensons que cette version tient la promesse de rendre la recherche et la récupération multimodales à la fois plus puissantes et plus accessibles aux développeurs du monde entier.

Catégories:
star
Mis en exergue
communiqué de presse
rss_feed
Des bureaux
location_on
Sunnyvale, Californie
710 Lakeway Dr, Ste 200, Sunnyvale, CA 94085, États-Unis
location_on
Berlin, Allemagne (siège social)
Prinzessinnenstraße 19-20, 10969 Berlin, Allemagne
location_on
Pékin, Chine
Niveau 5, bâtiment 6, n° 48, rue Haidian Ouest, Pékin, Chine
location_on
Shenzhen, en Chine
402 étage 4, bâtiment technologique Fu'an, Shenzhen, Chine
Fondation Recherche
Recherche profonde
Lecteur
Intégrations
Reclasseur
Classificateur
Segmenteur
Documentation de l'API
Obtenir la clé API Jina
Limite de taux
Statut de l'API
Entreprise
À propos de nous
Contacter le service commercial
Rédaction
Programme de stage
Rejoignez-nous
open_in_new
Télécharger le logo
open_in_new
Termes
Sécurité
termes et conditions
Confidentialité
Gérer les cookies
email
Jina AI © 2020-2025.