Pressemitteilungen
Modelle
API
keyboard_arrow_down
Leser
Lesen Sie URLs und suchen Sie im Internet nach fundierteren LLMs.
Einbettungen
Multimodale und mehrsprachige Einbettungen von Weltklasse.
Reranker
Neural Retriever der Weltklasse zur Maximierung der Suchrelevanz.
Elastischer Inferenzdienst
Jina-Modelle nativ in Elasticsearch ausführen.
MCP terminalCLIarticlellms.txtsmart_toyAgentendata_objectSchemamenu_bookDokumente



Einloggen
login
Einbettungen
copyright CC BY-NC 4.0
open_in_new Beitrag veröffentlichen

jina-embeddings-v5-text-small

SOTA-Mehrsprachigkeitseinbettungen mit aufgabenspezifischen Adaptern
Lizenz
copyright CC-BY-NC-4.0
Veröffentlichungsdatum
calendar_month
2026-02-18
Eingang
abc
Text
arrow_forward
Ausgabe
more_horiz
Vektor
Matroschka-Abmessungen help_outline
32
64
128
256
512
1024
Späte Chunking help_outline
cancel
No
Modelldetails
Parameter: 677M
Länge des Eingabetokens: 32K
Ausgabedimension: 1024
Basismodell help_outline
open_in_new
Qwen3-0.6B-Base
Ausgebildete Sprachen help_outline
32 Sprachen
Unterstützte Sprachen help_outline
93 Sprachen
Quantisierungen help_outline
GGUF
Apple Silicon-Unterstützung help_outline
MLX
Ähnliche Modelle
link
jina-embeddings-v3
link
jina-embeddings-v5-text-nano
Unterstützte Aufgaben
search Abruf
compare_arrows Textabgleich
bubble_chart Clustering
label Einstufung
Schlagwörter
text-embedding
multilingual
long-context
production
matryoshka
last-token-pooling
Erhältlich über
Elastischer InferenzdienstJina-APIUmarmendes Gesicht
E/A-Diagramm

Text

jina-embeddings-v5-text-small

Aufgabe

Vektor

Wählen Sie Modelle zum Vergleichen aus
Publikationen (1)
SIGIR 2026
Februar 17, 2026
jina-embeddings-v5-text: Task-Targeted Embedding Distillation

Überblick

jina-embeddings-v5-text-small ist ein mehrsprachiges Text-Embedding-Modell mit 0,6 Milliarden Parametern, das auf dem Qwen3-0.6B-Base-Backbone basiert. Es erzeugt 1024-dimensionale Embeddings mittels Last-Token-Pooling und unterstützt Kontextlängen von bis zu 32.000 Token durch Rotary Positional Embeddings (RoPE) mit angepassten Basisfrequenzen. Das Modell umfasst vier aufgabenspezifische LoRA-Adapter für Retrieval, semantische Ähnlichkeit, Clustering und Klassifizierung, die unabhängig voneinander mit eingefrorenen Backbone-Gewichten trainiert werden. Matryoshka Representation Learning ermöglicht die Reduzierung der Embedding-Dimension auf bis zu 32. Das Modell wird in zwei Schritten trainiert: Zuerst erfolgt eine Embedding-Destillation von Qwen3-Embedding-4B, um Wissen vom übergeordneten Lehrermodell zu übertragen. Anschließend werden die aufgabenspezifischen Adapter mit spezialisierten Verlustfunktionen für jede Aufgabenkategorie trainiert. Es unterstützt asymmetrisches Retrieval mit den Präfixen „Query:“ und „Document:“.

Methoden

Das Training erfolgt in zwei Phasen. In der ersten Phase überträgt die Embedding-Destillation Wissen vom Qwen3-Embedding-4B (einem Lehrermodell mit 4 Milliarden Parametern) auf das Qwen3-0.6B-Base-Schülermodell. Dabei wird ein Kosinusdistanzverlust zwischen den projizierten Schüler- und Lehrer-Embeddings verwendet. Eine lineare Projektionsschicht bildet den 1024-dimensionalen Raum des Schülermodells auf den höherdimensionalen Raum des Lehrermodells ab. Die allgemeine Destillation nutzt über 300 Datensätze in mehr als 30 Sprachen für 50.000 Schritte. Anschließend erfolgt ein Training mit langen Kontexten auf synthetischen und natürlichen langen Dokumenten (1.000–4.096 Token) mit angepassten RoPE-Parametern. In der zweiten Phase werden vier LoRA-Adapter mit eingefrorenen Backbone-Gewichten trainiert: Der Retrieval-Adapter kombiniert den InfoNCE-Kontrastverlust mit harten Negativen, dem fortgesetzten Destillationsverlust und einem globalen orthogonalen Regularisierer (GOR) zur Quantisierungsrobustheit. Der Textvergleichsadapter verwendet den CoSENT-Ranking-Verlust für abgestufte Ähnlichkeit mit Destillation auf unbewerteten Paaren; der Clustering-Adapter verwendet Re-Destillation mit einer clusteringspezifischen Lehreranweisung; und der Klassifizierungsadapter verwendet den bidirektionalen InfoNCE-Verlust mit relationaler Wissensdestillationsregularisierung. Die endgültigen Gewichte der Retrieval-Adapter werden über alle Prüfpunkte gemittelt.

Leistung

Auf MMTEB (mehrsprachig) erzielt jina-embeddings-v5-text-small einen Durchschnittswert von 67,0 (Aufgabenebene) und 58,9 (Typenebene) – die höchsten Werte aller Modelle mit 1 Milliarde Parametern. Die Klassifizierungsleistung liegt bei 71,3, die Clustering-Leistung bei 53,4, die Paarklassifizierung bei 82,9, die Reranking-Leistung bei 65,7, die Retrieval-Leistung bei 64,9 und die STS-Leistung bei 78,9. Auf englischem MTEB erreicht es einen Durchschnittswert von 71,7 und übertrifft damit Qwen3-0.6B mit Anweisungen (70,5) und jina-embeddings-v3 (65,7). Bei Retrieval-spezifischen Benchmarks erzielt es 64,88 Punkte auf MTEB-M Retrieval, 66,84 auf RTEB, 56,67 auf BEIR und 66,39 auf LongEmbed. Das Modell übertrifft seinen Lehrmeister Qwen3-4B bei der Paarklassifizierung (42,0 gegenüber 26,8 bei MMTEB) und erzielt trotz seiner sechsmal geringeren Größe in allen anderen Kategorien wettbewerbsfähige Ergebnisse.

Anleitung

Wählen Sie den passenden LoRA-Adapter für Ihre Aufgabe: „Retrieval“ für die asymmetrische Suche nach Dokumenten (fügen Sie „Query:“ vor Suchanfragen und „Document:“ vor Passagen ein), „Textmatching“ für symmetrische Ähnlichkeitsaufgaben wie Duplikaterkennung und Paraphrasenidentifizierung (verwendet das Präfix „Document:“ für beide Eingaben), „Clustering“ zum Gruppieren verwandter Dokumente und „Classification“ für Kategorisierung und Stimmungsanalyse. Verwenden Sie bei Retrieval-Aufgaben immer das korrekte Präfix, da das Modell mit asymmetrischer Kodierung trainiert wurde. Die Matrjoschka-Truncation ermöglicht die Reduzierung der Einbettungen von 1024 auf bis zu 32 Dimensionen; die Leistung bleibt oberhalb von 256 Dimensionen hoch, verschlechtert sich jedoch unterhalb dieser Schwelle merklich, was den Johnson-Lindenstrauss-Grenzen entspricht. Binäre Quantisierung wird dank GOR-Regularisierung mit minimalem Leistungsverlust unterstützt. Das 32K-Kontextfenster verarbeitet lange Dokumente nativ, das Modell wurde jedoch zusätzlich mit Long-Context-Daten für ein robustes Retrieval langer Dokumente trainiert. Verwenden Sie die Kosinusähnlichkeit für den Einbettungsvergleich. Das Modell ist über die Jina AI API, Hugging Face (mit Sentence Transformers und vLLM-Integration) sowie in quantisierten Varianten für llama.cpp verfügbar.
Blogs, die dieses Modell erwähnen
Mai 12, 2026 • 7 Minuten gelesen
jina-embeddings-v5-omni: Embeddings für Text, Bild, Audio und Video
Ein Modell, vier Modalitäten: Text, Bild, Audio, Video. Erstklassige Omni-Embeddings mit 1,6 Mrd. und 0,9 Mrd. Parametern.
Han Xiao
März 06, 2026 • 6 Minuten gelesen
Identifizierung von Einbettungsmodellen anhand numerischer Rohwerte
Ein winziger Transformer, der Einbettungsmodelle durch das Lesen von rohen numerischen Ziffern per Fingerabdruck identifiziert. Kein Feature-Engineering.
Han Xiao
Fingerprint illustration made from numbers, showcasing digital and high-tech design on a light background.
Februar 19, 2026 • 7 Minuten gelesen
jina-embeddings-v3-text: Neue SOTA kleine mehrsprachige Embeddings
Zwei mehrsprachige Embeddings mit weniger als 1 Milliarde Parametern und erstklassiger Leistung, verfügbar für Elastic Inference Service, Llama.cpp und MLX.
Han Xiao
Abstract digital artwork in black and white, featuring scattered dots forming letters in a halftone effect. The central lette
Stiftung durchsuchen
Leser
Einbettungen
Reranker
Elastischer Inferenzdienst
open_in_new
Jina API-Schlüssel abrufen
Ratenbegrenzung
API-Status
Unternehmen
Über uns
Pressemitteilungen
Jina-Logo herunterladen
open_in_new
Elastic-Logo herunterladen
open_in_new
Bedingungen
Sicherheit
Terms & amp; Bedingungen
Privatsphäre
Cookie-Einstellungen
Elastisch © 2020-2026.