Nouvelles
Modèles
API
keyboard_arrow_down
Lecteur
Lisez les URL et effectuez des recherches sur le Web pour de meilleurs LLM de base.
Intégrations
Intégrations multimodales et multilingues de classe mondiale.
Reclasseur
Récupérateur neuronal de classe mondiale pour maximiser la pertinence de la recherche.
Service d'inférence élastique
Exécutez les modèles Jina nativement au sein d'Elasticsearch.
MCP terminalCLIarticlellms.txtsmart_toyAgentsdata_objectSchémamenu_bookDocuments



Se connecter
login
Intégrations
copyright CC BY-NC 4.0
open_in_new Publication de publication

jina-embeddings-v5-text-small

Intégrations multilingues de pointe avec adaptateurs spécifiques à la tâche
Licence
copyright CC-BY-NC-4.0
Date de sortie
calendar_month
2026-02-18
Saisir
abc
Texte
arrow_forward
Sortir
more_horiz
Vecteur
Dimensions de la matriochka help_outline
32
64
128
256
512
1024
Chunkage tardif help_outline
cancel
No
Détails du modèle
Paramètres: 677M
Longueur du jeton d'entrée: 32K
Dimension de sortie: 1024
Modèle de base help_outline
open_in_new
Qwen3-0.6B-Base
Langues enseignées help_outline
32 langues
Langues prises en charge help_outline
93 langues
Quantifications help_outline
GGUF
Prise en charge d'Apple Silicon help_outline
MLX
Modèles associés
link
jina-embeddings-v3
link
jina-embeddings-v5-text-nano
Tâches prises en charge
search Récupération
compare_arrows Correspondance de texte
bubble_chart Clustering
label Classification
Mots clés
text-embedding
multilingual
long-context
production
matryoshka
last-token-pooling
Disponible via
Service d'inférence élastiqueAPI JinaVisage qui fait un câlin
Graphique d'E/S

Texte

jina-embeddings-v5-text-small

Tâche

Vecteur

Choisissez les modèles à comparer
Publications (1)
SIGIR 2026
février 17, 2026
jina-embeddings-v5-text: Task-Targeted Embedding Distillation

Aperçu

jina-embeddings-v5-text-small est un modèle d'embeddings de texte multilingue à 0,6 milliard de paramètres, construit sur le modèle Qwen3-0.6B-Base. Il génère des embeddings de dimension 1024 par regroupement des derniers tokens et prend en charge des contextes jusqu'à 32 000 tokens grâce aux embeddings positionnels rotatifs (RoPE) avec des fréquences de base ajustées. Le modèle inclut quatre adaptateurs LoRA dédiés à la recherche, à la similarité sémantique, au clustering et à la classification, entraînés indépendamment sur des poids de base figés. L'apprentissage par représentation Matryoshka permet de réduire la dimension des embeddings à 32. L'entraînement du modèle se déroule en deux étapes : d'abord, une distillation des embeddings à partir de Qwen3-Embedding-4B pour transférer les connaissances du modèle enseignant principal, puis l'entraînement des adaptateurs dédiés à chaque tâche avec des fonctions de perte spécifiques. Il prend en charge la recherche asymétrique avec les préfixes « Query: » et « Document: ».

Méthodes

L'entraînement se déroule en deux étapes. Dans la première, la distillation des plongements transfère les connaissances du modèle enseignant Qwen3-Embedding-4B (un modèle enseignant à 4 milliards de paramètres) au modèle élève Qwen3-0.6B-Base à l'aide d'une perte de distance cosinus entre les plongements projetés de l'élève et ceux de l'enseignant. Une couche de projection linéaire transforme l'espace à 1024 dimensions de l'élève en un espace de dimension supérieure pour l'enseignant. La distillation à usage général utilise plus de 300 jeux de données dans plus de 30 langues pendant 50 000 étapes, suivie d'un entraînement sur de longs contextes à partir de documents synthétiques et naturels (1 000 à 4 096 tokens) avec des paramètres RoPE ajustés. Dans la seconde étape, quatre adaptateurs LoRA sont entraînés sur des poids de base figés : l'adaptateur de recherche combine une perte contrastive InfoNCE avec des négatifs durs, une perte de distillation continue et un régulariseur orthogonal global (GOR) pour une robustesse à la quantification. L'adaptateur de correspondance textuelle utilise la perte de classement CoSENT pour la similarité graduée avec distillation sur les paires non notées ; l'adaptateur de clustering utilise une re-distillation avec une instruction d'apprentissage spécifique au clustering ; et l'adaptateur de classification utilise la perte bidirectionnelle InfoNCE avec régularisation par distillation des connaissances relationnelles. Les poids finaux des adaptateurs de recherche sont moyennés sur l'ensemble des points de contrôle.

Performance

Sur MMTEB (multilingue), jina-embeddings-v5-text-small obtient une moyenne de 67,0 (niveau tâche) et de 58,9 (niveau type), soit le meilleur score parmi tous les modèles utilisant 1 milliard de paramètres. Il obtient 71,3 en classification, 53,4 en clustering, 82,9 en classification par paires, 65,7 en réordonnancement, 64,9 en recherche et 78,9 en STS. Sur MTEB anglais, il atteint une moyenne de 71,7, surpassant Qwen3-0.6B avec instructions (70,5) et jina-embeddings-v3 (65,7). Concernant les benchmarks spécifiques à la recherche, il obtient 64,88 sur MTEB-M, 66,84 sur RTEB, 56,67 sur BEIR et 66,39 sur LongEmbed. Le modèle surpasse son professeur Qwen3-4B en matière de classification par paires (42,0 contre 26,8 sur MMTEB) tout en maintenant des scores compétitifs dans toutes les autres catégories malgré une taille 6 fois plus petite.

Conseils

Sélectionnez l'adaptateur LoRA approprié à votre tâche : « retrieval » pour la recherche asymétrique requête-document (ajoutez « Query: » aux requêtes et « Document: » aux passages), « text-matching » pour les tâches de similarité symétriques telles que la détection de doublons et l'identification de paraphrases (utilisez le préfixe « Document: » pour les deux entrées), « clustering » pour le regroupement de documents apparentés et « classification » pour la catégorisation et l'analyse des sentiments. Pour les tâches de recherche, utilisez toujours le préfixe correct, car le modèle est entraîné avec un encodage asymétrique. La troncature Matryoshka permet de réduire les plongements de 1024 à 32 dimensions ; les performances restent élevées au-delà de 256 dimensions, mais se dégradent sensiblement en dessous de ce seuil, conformément aux limites de Johnson-Lindenstrauss. La quantification binaire est prise en charge avec une perte de performance minimale grâce à la régularisation GOR. La fenêtre de contexte de 32 Ko gère nativement les documents longs, mais le modèle a également été entraîné sur des données à contexte long pour une recherche robuste de documents longs. Utilisez la similarité cosinus pour la comparaison des plongements lexicaux. Le modèle est disponible via l'API Jina AI, Hugging Face (avec l'intégration de Sentence Transformers et vLLM) et des variantes quantifiées pour llama.cpp.
Blogs qui mentionnent ce modèle
mai 12, 2026 • 7 minutes lues
jina-embeddings-v5-omni : Modèles vectoriels pour le texte, l'image, l'audio et la vidéo
Un modèle, quatre modalités : texte, image, audio, vidéo. Des modèles d'embeddings omni de premier ordre en 1,6B et 0,9B.
Han Xiao
mars 06, 2026 • 6 minutes lues
Identifier les modèles d'embeddings à partir de valeurs numériques brutes
Un minuscule transformer qui identifie les modèles d'embeddings par empreinte numérique en lisant des chiffres bruts. Sans ingénierie de caractéristiques.
Han Xiao
Fingerprint illustration made from numbers, showcasing digital and high-tech design on a light background.
février 19, 2026 • 7 minutes lues
jina-embeddings-v5-text : Nouveaux Embeddings multilingues de petite taille SOTA
Deux modèles de plongements (embeddings) multilingues de moins de 1 milliard de paramètres offrant des performances de premier ordre, disponibles sur Elastic Inference Service, Llama.cpp et MLX.
Han Xiao
Abstract digital artwork in black and white, featuring scattered dots forming letters in a halftone effect. The central lette
Fondation Recherche
Lecteur
Intégrations
Reclasseur
Service d'inférence élastique
open_in_new
Obtenir la clé API Jina
Limite de taux
Statut de l'API
Entreprise
À propos de nous
Rédaction
Télécharger le logo Jina
open_in_new
Télécharger le logo Elastic
open_in_new
Termes
Sécurité
termes et conditions
Confidentialité
Gérer les cookies
Élastique © 2020-2026.