Nouvelles
Modèles
Des produits
keyboard_arrow_down
Recherche profonde
Recherchez, lisez et raisonnez jusqu'à trouver la meilleure réponse.
Lecteur
Lisez les URL et effectuez des recherches sur le Web pour de meilleurs LLM de base.
Intégrations
Intégrations multimodales et multilingues de classe mondiale.
Reclasseur
Récupérateur neuronal de classe mondiale pour maximiser la pertinence de la recherche.
Plus
keyboard_arrow_down
Classificateur
Classification à zéro plan et à quelques plans pour l'image et le texte.
Segmenteur
Coupez un long texte en morceaux et effectuez la tokenisation.

Documentation de l'API
Génération automatique de code pour votre IDE ou LLM copilote
open_in_new


Entreprise
keyboard_arrow_down
À propos de nous
Contacter le service commercial
Programme de stage
Rejoignez-nous
open_in_new
Télécharger le logo
open_in_new
termes et conditions


Se connecter
login
Architecture du Modèle
Pour Commencer
Conclusion
star
Mis en exergue
communiqué de presse
septembre 18, 2024

Jina Embeddings v3 : Un modèle d'embedding multilingue à la pointe

jina-embeddings-v3 est un modèle d'embedding de texte multilingue de pointe avec 570M paramètres et une longueur de token de 8192, surpassant les derniers embeddings propriétaires d'OpenAI et Cohere sur MTEB.
Dynamic image showing the characters "V3" formed by bright green dots varying in size on a black background.
Jina AI
Jina AI • 10 minutes lues
jinaai/jina-embeddings-v3 · Hugging Face
Nous sommes en mission pour faire progresser et démocratiser l'intelligence artificielle grâce à l'open source et la science ouverte.
jina-embeddings-v3 : Embeddings Multilingues avec Task LoRA
Nous présentons jina-embeddings-v3, un nouveau modèle d'embedding de texte avec 570 millions de paramètres, qui atteint des performances état de l'art sur les données multilingues et les tâches de recherche à contexte long, supportant des longueurs de contexte jusqu'à 8192 tokens. Le modèle inclut un ensemble d'adaptateurs Low-Rank Adaptation (LoRA) spécifiques aux tâches pour générer des embeddings de haute qualité pour la recherche requête-document, le clustering, la classification et la correspondance de texte. De plus, l'apprentissage de représentation Matryoshka est intégré au processus d'entraînement, permettant une troncature flexible des dimensions d'embedding sans compromettre les performances. L'évaluation sur le benchmark MTEB montre que jina-embeddings-v3 surpasse les derniers embeddings propriétaires d'OpenAI et Cohere sur les tâches en anglais, tout en obtenant des performances supérieures par rapport à multilingual-e5-large-instruct sur toutes les tâches multilingues.
arXiv.orgSaba Sturua

Aujourd'hui, nous sommes ravis d'annoncer jina-embeddings-v3, un modèle d'embedding de texte de pointe avec 570 millions de paramètres. Il atteint des performances état de l'art sur les données multilingues et les tâches de recherche à contexte long, supportant une longueur d'entrée jusqu'à 8192 tokens. Le modèle dispose d'adaptateurs Low-Rank Adaptation (LoRA) spécifiques aux tâches, lui permettant de générer des embeddings de haute qualité pour diverses tâches dont la recherche requête-document, le clustering, la classification et la correspondance de texte.

Dans les évaluations sur MTEB English, Multilingual et LongEmbed, jina-embeddings-v3 surpasse les derniers embeddings propriétaires d'OpenAI et Cohere sur les tâches en anglais, tout en dépassant également multilingual-e5-large-instruct sur toutes les tâches multilingues. Avec une dimension de sortie par défaut de 1024, les utilisateurs peuvent arbitrairement tronquer les dimensions d'embedding jusqu'à 32 sans sacrifier les performances, grâce à l'intégration du Matryoshka Representation Learning (MRL).

Chart comparing the performance of various NLP tools on MTEB English Tasks, with scores ranging from 60 to 65.5, displayed on
Les performances de jina-embeddings-v3 comparées à d'autres modèles d'embedding sur toutes les tâches MTEB en anglais. Les résultats complets d'évaluation par tâche sont disponibles dans notre article arXiv.
Graph depicting MTEB Multilingual Tasks Performance, comparing multilingual embeddings and 'jina embeddings' versions with sc
Les performances de jina-embeddings-v3 ont été évaluées sur une large sélection de tâches MTEB multilingues et interlingues. Notez que jina-embeddings-v2-(zh/es/de) fait référence à notre suite de modèles bilingues, qui n'a été testée que sur les tâches monolingues et interlingues en chinois, espagnol et allemand, excluant toutes les autres langues. De plus, nous ne rapportons pas les scores pour openai-text-embedding-3-large et cohere-embed-multilingual-v3.0, car ces modèles n'ont pas été évalués sur l'ensemble complet des tâches MTEB multilingues et interlingues.
Bar graph showing performance of different embeddings on long document retrieval tasks with scores for various libraries.
Les performances de jina-embeddings-v3 sur six tâches de recherche de documents longs du benchmark LongEmbed montrent une amélioration significative par rapport aux autres modèles. Les scores sont en nDCG@10 ; plus le score est élevé, meilleur c'est. Cela suggère l'efficacité de nos embeddings positionnels basés sur RoPE, qui surpassent à la fois les embeddings positionnels fixes utilisés par baai-bge-m3 et l'approche basée sur ALiBi utilisée dans jina-embeddings-v2.

À sa sortie le 18 septembre 2024, jina-embeddings-v3 est le meilleur modèle multilingue et se classe 2ème sur le classement MTEB English pour les modèles de moins d'un milliard de paramètres. v3 prend en charge 89 langues au total, dont 30 langues avec les meilleures performances : arabe, bengali, chinois, danois, néerlandais, anglais, finnois, français, géorgien, allemand, grec, hindi, indonésien, italien, japonais, coréen, letton, norvégien, polonais, portugais, roumain, russe, slovaque, espagnol, suédois, thaï, turc, ukrainien, ourdou et vietnamien.

Leaderboard table comparing language models across various performance metrics with highlighted rankings, set on a dark, prof
À sa sortie le 18 septembre 2024, jina-embeddings-v3, avec ses 570 millions de paramètres et 1024 dimensions de sortie, s'impose comme le modèle d'embedding multilingue le plus efficace, puissant et fiable avec moins d'un milliard de paramètres.
Graph showing Scaling Law of Embedding Models with 'Parameter Size' on the x-axis and 'MTEB Performance' on the y-axis, featu
Loi d'échelle des modèles d'embedding. La performance moyenne sur les tâches MTEB en anglais est représentée en fonction du nombre de paramètres du modèle. Chaque point représente un modèle d'embedding. La ligne de tendance, représentant tous les modèles, est mise en évidence, avec les modèles multilingues soulignés en cyan. On peut voir que jina-embeddings-v3 démontre des performances supérieures par rapport aux modèles de taille similaire, montrant également une amélioration superlinéaire par rapport à son prédécesseur, jina-embeddings-v2. Ce graphique a été créé en sélectionnant les 100 meilleurs modèles d'embedding du classement MTEB, excluant ceux sans information de taille, généralement des modèles propriétaires ou fermés. Les soumissions identifiées comme du trolling évident ont également été filtrées.

De plus, comparé aux embeddings basés sur les LLM qui ont récemment attiré l'attention, comme e5-mistral-7b-instruct, qui a une taille de paramètres de 7,1 milliards (12x plus grand) et une dimension de sortie de 4096 (4x plus grande) mais n'offre qu'une amélioration de 1% sur les tâches MTEB en anglais, jina-embeddings-v3 est une solution beaucoup plus rentable, la rendant plus adaptée à la production et au calcul en périphérie.

tagArchitecture du Modèle

Caractéristique Description
Base jina-XLM-RoBERTa
Paramètres Base 559M
Paramètres avec LoRA 572M
Tokens d'entrée max 8192
Dimensions de sortie max 1024
Couches 24
Vocabulaire 250K
Langues prises en charge 89
Attention FlashAttention2, fonctionne aussi sans
Pooling Mean pooling

L'architecture de jina-embeddings-v3 est présentée dans la figure ci-dessous. Pour implémenter l'architecture de base, nous avons adapté le modèle XLM-RoBERTa avec plusieurs modifications clés : (1) permettre l'encodage efficace de longues séquences de texte, (2) permettre l'encodage d'embeddings spécifiques à la tâche, et (3) améliorer l'efficacité globale du modèle avec les techniques les plus récentes. Nous continuons à utiliser le tokenizer original de XLM-RoBERTa. Bien que jina-embeddings-v3, avec ses 570 millions de paramètres, soit plus grand que jina-embeddings-v2 avec ses 137 millions, il reste beaucoup plus petit que les modèles d'embedding fine-tunés à partir des LLMs.

Flowchart mapping sentiment classification. Begins with
L'architecture de jina-embeddings-v3 est basée sur le modèle jina-XLM-RoBERTa, avec cinq adaptateurs LoRA pour quatre tâches différentes.

L'innovation clé dans jina-embeddings-v3 est l'utilisation des adaptateurs LoRA. Cinq adaptateurs LoRA spécifiques aux tâches sont introduits pour optimiser les embeddings pour quatre tâches. L'entrée du modèle se compose de deux parties : le texte (le long document à encoder) et la tâche. jina-embeddings-v3 prend en charge quatre tâches et implémente cinq adaptateurs au choix : retrieval.query et retrieval.passage pour les embeddings de requêtes et de passages dans les tâches de recherche asymétrique, separation pour les tâches de clustering, classification pour les tâches de classification, et text-matching pour les tâches impliquant la similarité sémantique, comme STS ou la recherche symétrique. Les adaptateurs LoRA représentent moins de 3 % du total des paramètres, ajoutant très peu de surcharge au calcul.

Pour améliorer davantage les performances et réduire la consommation de mémoire, nous intégrons FlashAttention 2, prenons en charge le checkpointing des activations et utilisons le framework DeepSpeed pour un entraînement distribué efficace.

tagPour Commencer

tagVia l'API Search Foundation de Jina AI

La façon la plus simple d'utiliser jina-embeddings-v3 est de visiter la page d'accueil de Jina AI et de naviguer vers la section API Search Foundation. À partir d'aujourd'hui, ce modèle est défini par défaut pour tous les nouveaux utilisateurs. Vous pouvez explorer différents paramètres et fonctionnalités directement à partir de là.

Screenshot of a dark-themed interface with options like 'Join us', 'Explore', showing 'Start instantly - no credit card or re
curl https://api.jina.ai/v1/embeddings \
	 -H "Content-Type: application/json" \
	 -H "Authorization: Bearer jina_387ced4ff3f04305ac001d5d6577e184hKPgRPGo4yMp_3NIxVsW6XTZZWNL" \
	 -d '{
	"model": "jina-embeddings-v3",
	"task": "text-matching",
	"dimensions": 1024,
	"late_chunking": true,
	"input": [
		"Organic skincare for sensitive skin with aloe vera and chamomile: ...", 
		"Bio-Hautpflege für empfindliche Haut mit Aloe Vera und Kamille: Erleben Sie die wohltuende Wirkung...", 
		"Cuidado de la piel orgánico para piel sensible con aloe vera y manzanilla: Descubre el poder ...", 
		"针对敏感肌专门设计的天然有机护肤产品:体验由芦荟和洋甘菊提取物带来的自然呵护。我们的护肤产品特别为敏感肌设计,...", 
		"新しいメイクのトレンドは鮮やかな色と革新的な技術に焦点を当てています: 今シーズンのメイクアップトレンドは、大胆な色彩と革新的な技術に注目しています。..."
    ]}'

Par rapport à v2, v3 introduit trois nouveaux paramètres dans l'API : task, dimensions et late_chunking.

Paramètre task

Le paramètre task est crucial et doit être défini en fonction de la tâche en aval. Les embeddings résultants seront optimisés pour cette tâche spécifique. Pour plus de détails, référez-vous à la liste ci-dessous.

Valeur de task Description de la tâche
retrieval.passage Embedding des documents dans une tâche de recherche requête-document
retrieval.query Embedding des requêtes dans une tâche de recherche requête-document
separation Clustering de documents, visualisation d'un corpus
classification Classification de texte
text-matching (Par défaut) Similarité sémantique de texte, recherche symétrique générale, recommandation, recherche d'éléments similaires, déduplication

Notez que l'API ne génère pas d'abord un meta-embedding générique pour ensuite l'adapter avec un MLP fine-tuné additionnel. Au lieu de cela, elle insère l'adaptateur LoRA spécifique à la tâche dans chaque couche transformeur (un total de 24 couches) et effectue l'encodage en une seule fois. Plus de détails peuvent être trouvés dans notre article arXiv.

Paramètre dimensions

Le paramètre dimensions permet aux utilisateurs de choisir un compromis entre l'efficacité spatiale et les performances au moindre coût. Grâce à la technique MRL utilisée dans jina-embeddings-v3, vous pouvez réduire les dimensions des embeddings autant que vous le souhaitez (même jusqu'à une seule dimension !). Des embeddings plus petits sont plus économes en stockage pour les bases de données vectorielles, et leur coût en performance peut être estimé à partir de la figure ci-dessous.

Scatter plot titled "Performance of Different Output Dimensions" showing performance metrics across increasing MRL dimensions

Paramètre late_chunking

Late Chunking dans les modèles d'embedding à contexte long
Le découpage de longs documents tout en préservant l'information contextuelle est un défi. Nous introduisons le "Late Chunking" qui exploite les modèles d'embedding à contexte long pour générer des embeddings de chunks contextuels pour de meilleures applications de recherche.
GitHub

Enfin, le paramètre late_chunking contrôle l'utilisation de la nouvelle méthode de découpage que nous avons introduite le mois dernier pour l'encodage d'un lot de phrases. Lorsqu'il est défini sur true, notre API concaténera toutes les phrases dans le champ input et les alimentera comme une seule chaîne au modèle. En d'autres termes, nous traitons les phrases en entrée comme si elles provenaient originellement de la même section, paragraphe ou document. En interne, le modèle encode cette longue chaîne concaténée puis effectue le découpage tardif, retournant une liste d'embeddings qui correspond à la taille de la liste d'entrée. Chaque embedding dans la liste est donc conditionné par les embeddings précédents.

Du point de vue de l'utilisateur, la définition de late_chunking ne change pas le format d'entrée ou de sortie. Vous ne remarquerez qu'un changement dans les valeurs des embeddings, car elles sont maintenant calculées en fonction de tout le contexte précédent plutôt qu'indépendamment. Ce qu'il est important de savoir lors de l'utilisation delate_chunking=True signifie que le nombre total de tokens (en additionnant tous les tokens dans input) par requête est limité à 8192, qui est la longueur maximale de contexte autorisée pour jina-embeddings-v3. Lorsque late_chunking=False, il n'y a pas une telle restriction; le nombre total de tokens est uniquement soumis à la limite de débit de l'API Embedding.

Late Chunking activé vs désactivé : Le format d'entrée et de sortie reste le même, la seule différence étant les valeurs d'embedding. Lorsque late_chunking est activé, les embeddings sont influencés par tout le contexte précédent dans input, alors que sans lui, les embeddings sont calculés indépendamment.

tagVia Azure & AWS

jina-embeddings-v3 est maintenant disponible sur AWS SageMaker et Azure Marketplace.

AWS Marketplace: Jina Embeddings v3
Microsoft Azure Marketplace

Si vous devez l'utiliser au-delà de ces plateformes ou sur site au sein de votre entreprise, notez que le modèle est sous licence CC BY-NC 4.0. Pour toute demande d'utilisation commerciale, n'hésitez pas à nous contacter.

tagVia les bases de données vectorielles & partenaires

Nous collaborons étroitement avec les fournisseurs de bases de données vectorielles comme Pinecone, Qdrant et Milvus, ainsi qu'avec les frameworks d'orchestration LLM comme LlamaIndex, Haystack et Dify. Au moment de la sortie, nous sommes heureux d'annoncer que Pinecone, Qdrant, Milvus et Haystack ont déjà intégré le support de jina-embeddings-v3, y compris les trois nouveaux paramètres : task, dimensions et late_chunking. Les autres partenaires qui ont déjà intégré l'API v2 devraient également supporter v3 en changeant simplement le nom du modèle en jina-embeddings-v3. Cependant, ils ne prennent peut-être pas encore en charge les nouveaux paramètres introduits dans v3.

Via Pinecone

The vector database to build knowledgeable AI | Pinecone
Search through billions of items for similar matches to any object, in milliseconds. It's the next generation of search, an API call away.
Pinecone Docs

Via Qdrant

Jina Embeddings - Qdrant
Qdrant is an Open-Source Vector Database and Vector Search Engine written in Rust. It provides fast and scalable vector similarity search service with convenient API.
logoQdrant

Via Milvus

Integrate Milvus with Jina | Milvus Documentation
This guide demonstrates how to use Jina embeddings and Milvus to conduct similarity search and retrieval tasks. | v2.4.x
milvus-logo

Via Haystack

Jina AI | Haystack
Use the latest Jina AI embedding models
HaystackAuthors deepset

tagConclusion

En octobre 2023, nous avons publié jina-embeddings-v2-base-en, le premier modèle d'embedding open-source au monde avec une longueur de contexte de 8K. C'était le seul modèle d'embedding de texte qui supportait un long contexte et égalait le text-embedding-ada-002 d'OpenAI. Aujourd'hui, après une année d'apprentissage, d'expérimentation et de leçons précieuses, nous sommes fiers de publier jina-embeddings-v3 — une nouvelle frontière dans les modèles d'embedding de texte et une étape importante pour notre entreprise.

Avec cette version, nous continuons d'exceller dans ce pour quoi nous sommes connus : les embeddings à long contexte, tout en répondant également à la fonctionnalité la plus demandée par l'industrie et la communauté — les embeddings multilingues. En même temps, nous poussons les performances vers de nouveaux sommets. Avec de nouvelles fonctionnalités telles que le LoRA spécifique aux tâches, le MRL et le late chunking, nous pensons que jina-embeddings-v3 servira véritablement de modèle d'embedding fondamental pour diverses applications, y compris le RAG, les agents et plus encore. Comparé aux embeddings récents basés sur les LLM comme NV-embed-v1/v2, notre modèle est très efficace en termes de paramètres, le rendant beaucoup plus adapté à la production et aux appareils edge.

À l'avenir, nous prévoyons de nous concentrer sur l'évaluation et l'amélioration des performances de jina-embeddings-v3 sur les langues à ressources limitées et d'analyser davantage les échecs systématiques causés par la disponibilité limitée des données. De plus, les poids du modèle de jina-embeddings-v3, ainsi que ses fonctionnalités innovantes et ses points forts, serviront de base pour nos prochains modèles, y compris jina-clip-v2,jina-reranker-v3, et reader-lm-v2.

Catégories:
star
Mis en exergue
communiqué de presse
rss_feed
Des bureaux
location_on
Sunnyvale, Californie
710 Lakeway Dr, Ste 200, Sunnyvale, CA 94085, États-Unis
location_on
Berlin, Allemagne (siège social)
Prinzessinnenstraße 19-20, 10969 Berlin, Allemagne
location_on
Pékin, Chine
Niveau 5, bâtiment 6, n° 48, rue Haidian Ouest, Pékin, Chine
location_on
Shenzhen, en Chine
402 étage 4, bâtiment technologique Fu'an, Shenzhen, Chine
Fondation Recherche
Recherche profonde
Lecteur
Intégrations
Reclasseur
Classificateur
Segmenteur
Documentation de l'API
Obtenir la clé API Jina
Limite de taux
Statut de l'API
Entreprise
À propos de nous
Contacter le service commercial
Rédaction
Programme de stage
Rejoignez-nous
open_in_new
Télécharger le logo
open_in_new
Termes
Sécurité
termes et conditions
Confidentialité
Gérer les cookies
email
Jina AI © 2020-2025.