Disponible via
Graphique d'E/S 1
Graphique d'E/S 2
Graphique d'E/S 3
Graphique d'E/S 4
Choisissez les modèles à comparer
Publications (1)
Aperçu
Jina Embeddings V4 est un modèle d'intégration multimodale de 3,8 milliards de paramètres offrant des capacités de représentation unifiée de texte et d'images. Basé sur le backbone Qwen2.5-VL-3B-Instruct, ce modèle présente une architecture prenant en charge les intégrations mono-vecteur et multi-vecteur en mode interaction tardive, remédiant ainsi aux limitations des modèles traditionnels à double encodeur de type CLIP. Il intègre trois adaptateurs LoRA spécifiques à chaque tâche (60 millions de paramètres chacun) qui optimisent les performances dans différents scénarios de récupération, notamment la récupération asymétrique de documents, la similarité sémantique de texte et la recherche de code, sans modifier les pondérations figées du backbone. Ce modèle affiche d'excellentes performances dans le traitement de contenus visuellement riches tels que les tableaux, les graphiques, les diagrammes, les captures d'écran et les formats multimédias, grâce à un chemin de traitement unifié qui réduit l'écart de modalité présent dans les architectures conventionnelles. Prenant en charge des capacités multilingues, le modèle peut gérer des textes d'entrée jusqu'à 32 768 jetons avec des images redimensionnées à 20 mégapixels, ce qui le rend adapté à diverses applications de recherche de documents et de recherche intermodale dans différentes langues et domaines.
Méthodes
Jina Embeddings V4 implémente une architecture de modèle de langage multimodal unifiée, différente des approches à double encodeur de type CLIP. Le modèle traite les entrées via un chemin partagé où les images sont d'abord converties en séquences de jetons via un encodeur de vision, puis les modalités texte et image sont traitées conjointement par le décodeur du modèle de langage avec des couches d'attention contextuelle. Cette architecture prend en charge deux modes de sortie pour s'adapter à différents cas d'utilisation : les intégrations mono-vectorielles qui produisent des vecteurs de 2048 dimensions tronquables à 128 dimensions grâce à l'apprentissage de représentation Matryoshka, générés par regroupement de moyennes pour une recherche de similarité efficace ; et les intégrations multi-vectorielles qui génèrent 128 dimensions par jeton via des couches de projection pour une récupération de style d'interaction tardive. Le modèle comprend trois adaptateurs LoRA spécifiques à chaque tâche, offrant une optimisation spécialisée : l'adaptateur de récupération utilise un codage asymétrique basé sur les préfixes avec un entraînement aux négatifs durs pour les scénarios requête-document ; l'adaptateur de correspondance textuelle utilise la perte CoSENT pour les tâches de similarité sémantique ; et l'adaptateur de code se concentre sur les applications de récupération langage naturel-code. L'entraînement se déroule en deux phases : l'entraînement initial des paires utilisant la perte contrastive InfoNCE avec des paires texte-texte et texte-image provenant de plus de 300 sources, suivi d'un réglage fin des trois adaptateurs LoRA, spécifique à chaque tâche, à l'aide de méthodes basées sur les triplets et de fonctions de perte spécialisées adaptées aux exigences de chaque domaine.
Performance
Jina Embeddings V4 obtient des performances compétitives dans plusieurs catégories de benchmarks. En recherche visuelle de documents, il obtient une moyenne de 72,19 au benchmark JinaVDR, contre 64,50 pour ColPali-v1.2, et une moyenne de 84,11 sur ViDoRe, contre 83,90 pour ColPali. Le mode multi-vecteur atteint 90,17 sur ViDoRe. En recherche intermodale, le modèle obtient 84,11 au benchmark CLIP, contre 81,12 pour jina-clip-v2 et 83,19 pour nllb-clip-large-siglip. En recherche textuelle, il obtient 55,97 sur MTEB-en et 66,49 sur MMTEB, avec des performances notables en traitement de documents longs, avec 67,11 sur LongEmbed, contre 55,66 pour son prédécesseur. Le modèle affiche de solides performances en termes de similarité sémantique textuelle, avec un score de 85,89 sur les tâches STS en anglais et de 72,70 sur les tests STS multilingues. Les capacités de récupération de code atteignent 71,59 sur le test CoIR, bien que des modèles spécialisés comme voyage-code-3 (77,33) obtiennent des scores plus élevés dans ce domaine. Le modèle présente un alignement intermodal amélioré avec un score de 0,71 contre 0,15 pour OpenAI CLIP, ce qui résout le problème de l'écart de modalité dans les modèles multimodaux. Le mode multi-vecteur surpasse systématiquement le mode mono-vecteur sur les tâches visuellement riches, tandis que le mode mono-vecteur offre des performances efficaces pour les scénarios de récupération standard.
Conseils
Pour utiliser efficacement Jina Embeddings V4, sélectionnez l'adaptateur LoRA adapté aux exigences spécifiques de votre application. Utilisez l'adaptateur « retrieval » pour les scénarios de recherche asymétrique de documents et de requêtes, où les requêtes et les documents ont des structures différentes, en veillant à appliquer des préfixes appropriés pour distinguer le contenu de la requête du contenu du passage. L'adaptateur « text-matching » est adapté aux tâches de similarité sémantique et de recherche symétrique, où l'objectif est de trouver du contenu similaire plutôt que des réponses aux requêtes. Il est donc idéal pour le clustering de documents, la détection des doublons et les systèmes de recommandation de contenu. Pour les applications de programmation, l'adaptateur « code » est optimisé pour la recherche de langage naturel vers code, la recherche de similarité code à code et les scénarios de réponse aux questions techniques. Choisissez les modes de sortie en fonction de vos exigences de performance et d'efficacité : les intégrations mono-vecteur offrent une recherche de similarité efficace et conviennent aux environnements à espace de stockage limité. Leurs dimensions tronquables permettent de réduire le nombre de dimensions de 2 048 à 128-512 avec des compromis de qualité acceptables. Les intégrations multi-vecteurs offrent quant à elles une plus grande précision pour les tâches de recherche complexes, notamment avec des documents visuellement riches où la notation des interactions tardives capture des relations détaillées. L'architecture unifiée du modèle permet le traitement d'entrées mixtes texte-image sans nécessiter d'encodeurs distincts ni de prétraitement OCR pour les documents visuels. Les capacités d'alignement intermodal et la prise en charge multilingue du modèle le rendent adapté aux applications internationales. Pour les déploiements en production, tenez compte de la surcharge de 60 M de paramètres par adaptateur LoRA lors de la planification des besoins en mémoire. Notez que les trois adaptateurs peuvent être gérés simultanément avec moins de 2 % d'empreinte mémoire supplémentaire, ce qui permet une commutation flexible des tâches pendant l'inférence.
Blogs qui mentionnent ce modèle