jina-embeddings-v5-text-small

Intégrations

CC BY-NC 4.0

Publication de publication

jina-embeddings-v5-text-small

Intégrations multilingues de pointe avec adaptateurs spécifiques à la tâche

Licence

CC-BY-NC-4.0

Date de sortie

2026-02-18

Saisir

Texte

Sortir

Vecteur

Dimensions de la matriochka

128

256

512

1024

Chunkage tardif

Détails du modèle

Paramètres: 677M

Longueur du jeton d'entrée: 32K

Dimension de sortie: 1024

Modèle de base

Qwen3-0.6B-Base

Langues enseignées

32 langues

Langues prises en charge

93 langues

Quantifications

GGUF

Prise en charge d'Apple Silicon

MLX

Modèles associés

jina-embeddings-v3

jina-embeddings-v5-text-nano

Tâches prises en charge

Récupération

Correspondance de texte

Clustering

Classification

Mots clés

text-embedding

multilingual

long-context

production

matryoshka

last-token-pooling

Disponible via

Service d'inférence élastique API Jina Visage qui fait un câlin

Graphique d'E/S

Choisissez les modèles à comparer

jina-embeddings-v5-text-small

jina-embeddings-v3

jina-embeddings-v5-text-nano

Publications (1)

SIGIR 2026

février 17, 2026

jina-embeddings-v5-text: Task-Targeted Embedding Distillation

Aperçu

jina-embeddings-v5-text-small est un modèle d'embeddings de texte multilingue à 0,6 milliard de paramètres, construit sur le modèle Qwen3-0.6B-Base. Il génère des embeddings de dimension 1024 par regroupement des derniers tokens et prend en charge des contextes jusqu'à 32 000 tokens grâce aux embeddings positionnels rotatifs (RoPE) avec des fréquences de base ajustées. Le modèle inclut quatre adaptateurs LoRA dédiés à la recherche, à la similarité sémantique, au clustering et à la classification, entraînés indépendamment sur des poids de base figés. L'apprentissage par représentation Matryoshka permet de réduire la dimension des embeddings à 32. L'entraînement du modèle se déroule en deux étapes : d'abord, une distillation des embeddings à partir de Qwen3-Embedding-4B pour transférer les connaissances du modèle enseignant principal, puis l'entraînement des adaptateurs dédiés à chaque tâche avec des fonctions de perte spécifiques. Il prend en charge la recherche asymétrique avec les préfixes « Query: » et « Document: ».

Méthodes

L'entraînement se déroule en deux étapes. Dans la première, la distillation des plongements transfère les connaissances du modèle enseignant Qwen3-Embedding-4B (un modèle enseignant à 4 milliards de paramètres) au modèle élève Qwen3-0.6B-Base à l'aide d'une perte de distance cosinus entre les plongements projetés de l'élève et ceux de l'enseignant. Une couche de projection linéaire transforme l'espace à 1024 dimensions de l'élève en un espace de dimension supérieure pour l'enseignant. La distillation à usage général utilise plus de 300 jeux de données dans plus de 30 langues pendant 50 000 étapes, suivie d'un entraînement sur de longs contextes à partir de documents synthétiques et naturels (1 000 à 4 096 tokens) avec des paramètres RoPE ajustés. Dans la seconde étape, quatre adaptateurs LoRA sont entraînés sur des poids de base figés : l'adaptateur de recherche combine une perte contrastive InfoNCE avec des négatifs durs, une perte de distillation continue et un régulariseur orthogonal global (GOR) pour une robustesse à la quantification. L'adaptateur de correspondance textuelle utilise la perte de classement CoSENT pour la similarité graduée avec distillation sur les paires non notées ; l'adaptateur de clustering utilise une re-distillation avec une instruction d'apprentissage spécifique au clustering ; et l'adaptateur de classification utilise la perte bidirectionnelle InfoNCE avec régularisation par distillation des connaissances relationnelles. Les poids finaux des adaptateurs de recherche sont moyennés sur l'ensemble des points de contrôle.

Performance

Sur MMTEB (multilingue), jina-embeddings-v5-text-small obtient une moyenne de 67,0 (niveau tâche) et de 58,9 (niveau type), soit le meilleur score parmi tous les modèles utilisant 1 milliard de paramètres. Il obtient 71,3 en classification, 53,4 en clustering, 82,9 en classification par paires, 65,7 en réordonnancement, 64,9 en recherche et 78,9 en STS. Sur MTEB anglais, il atteint une moyenne de 71,7, surpassant Qwen3-0.6B avec instructions (70,5) et jina-embeddings-v3 (65,7). Concernant les benchmarks spécifiques à la recherche, il obtient 64,88 sur MTEB-M, 66,84 sur RTEB, 56,67 sur BEIR et 66,39 sur LongEmbed. Le modèle surpasse son professeur Qwen3-4B en matière de classification par paires (42,0 contre 26,8 sur MMTEB) tout en maintenant des scores compétitifs dans toutes les autres catégories malgré une taille 6 fois plus petite.

Conseils

Sélectionnez l'adaptateur LoRA approprié à votre tâche : « retrieval » pour la recherche asymétrique requête-document (ajoutez « Query: » aux requêtes et « Document: » aux passages), « text-matching » pour les tâches de similarité symétriques telles que la détection de doublons et l'identification de paraphrases (utilisez le préfixe « Document: » pour les deux entrées), « clustering » pour le regroupement de documents apparentés et « classification » pour la catégorisation et l'analyse des sentiments. Pour les tâches de recherche, utilisez toujours le préfixe correct, car le modèle est entraîné avec un encodage asymétrique. La troncature Matryoshka permet de réduire les plongements de 1024 à 32 dimensions ; les performances restent élevées au-delà de 256 dimensions, mais se dégradent sensiblement en dessous de ce seuil, conformément aux limites de Johnson-Lindenstrauss. La quantification binaire est prise en charge avec une perte de performance minimale grâce à la régularisation GOR. La fenêtre de contexte de 32 Ko gère nativement les documents longs, mais le modèle a également été entraîné sur des données à contexte long pour une recherche robuste de documents longs. Utilisez la similarité cosinus pour la comparaison des plongements lexicaux. Le modèle est disponible via l'API Jina AI, Hugging Face (avec l'intégration de Sentence Transformers et vLLM) et des variantes quantifiées pour llama.cpp.

Blogs qui mentionnent ce modèle

mai 12, 2026 • 7 minutes lues

jina-embeddings-v5-omni : Modèles vectoriels pour le texte, l'image, l'audio et la vidéo

Un modèle, quatre modalités : texte, image, audio, vidéo. Des modèles d'embeddings omni de premier ordre en 1,6B et 0,9B.

mars 06, 2026 • 6 minutes lues

Identifier les modèles d'embeddings à partir de valeurs numériques brutes

Un minuscule transformer qui identifie les modèles d'embeddings par empreinte numérique en lisant des chiffres bruts. Sans ingénierie de caractéristiques.

février 19, 2026 • 7 minutes lues

jina-embeddings-v5-text : Nouveaux Embeddings multilingues de petite taille SOTA

Deux modèles de plongements (embeddings) multilingues de moins de 1 milliard de paramètres offrant des performances de premier ordre, disponibles sur Elastic Inference Service, Llama.cpp et MLX.