jina-embeddings-v5-text-small

Einbettungen

CC BY-NC 4.0

Beitrag veröffentlichen

jina-embeddings-v5-text-small

SOTA-Mehrsprachigkeitseinbettungen mit aufgabenspezifischen Adaptern

Lizenz

CC-BY-NC-4.0

Veröffentlichungsdatum

2026-02-18

Eingang

Text

Ausgabe

Vektor

Matroschka-Abmessungen

128

256

512

1024

Späte Chunking

Modelldetails

Parameter: 677M

Länge des Eingabetokens: 32K

Ausgabedimension: 1024

Basismodell

Qwen3-0.6B-Base

Ausgebildete Sprachen

32 Sprachen

Unterstützte Sprachen

93 Sprachen

Quantisierungen

GGUF

Apple Silicon-Unterstützung

MLX

Ähnliche Modelle

jina-embeddings-v3

jina-embeddings-v5-text-nano

Unterstützte Aufgaben

Abruf

Textabgleich

Clustering

Einstufung

Schlagwörter

text-embedding

multilingual

long-context

production

matryoshka

last-token-pooling

Erhältlich über

Elastischer Inferenzdienst Jina-API Umarmendes Gesicht

E/A-Diagramm

Wählen Sie Modelle zum Vergleichen aus

jina-embeddings-v5-text-small

jina-embeddings-v3

jina-embeddings-v5-text-nano

Publikationen (1)

SIGIR 2026

Februar 17, 2026

jina-embeddings-v5-text: Task-Targeted Embedding Distillation

Überblick

jina-embeddings-v5-text-small ist ein mehrsprachiges Text-Embedding-Modell mit 0,6 Milliarden Parametern, das auf dem Qwen3-0.6B-Base-Backbone basiert. Es erzeugt 1024-dimensionale Embeddings mittels Last-Token-Pooling und unterstützt Kontextlängen von bis zu 32.000 Token durch Rotary Positional Embeddings (RoPE) mit angepassten Basisfrequenzen. Das Modell umfasst vier aufgabenspezifische LoRA-Adapter für Retrieval, semantische Ähnlichkeit, Clustering und Klassifizierung, die unabhängig voneinander mit eingefrorenen Backbone-Gewichten trainiert werden. Matryoshka Representation Learning ermöglicht die Reduzierung der Embedding-Dimension auf bis zu 32. Das Modell wird in zwei Schritten trainiert: Zuerst erfolgt eine Embedding-Destillation von Qwen3-Embedding-4B, um Wissen vom übergeordneten Lehrermodell zu übertragen. Anschließend werden die aufgabenspezifischen Adapter mit spezialisierten Verlustfunktionen für jede Aufgabenkategorie trainiert. Es unterstützt asymmetrisches Retrieval mit den Präfixen „Query:“ und „Document:“.

Methoden

Das Training erfolgt in zwei Phasen. In der ersten Phase überträgt die Embedding-Destillation Wissen vom Qwen3-Embedding-4B (einem Lehrermodell mit 4 Milliarden Parametern) auf das Qwen3-0.6B-Base-Schülermodell. Dabei wird ein Kosinusdistanzverlust zwischen den projizierten Schüler- und Lehrer-Embeddings verwendet. Eine lineare Projektionsschicht bildet den 1024-dimensionalen Raum des Schülermodells auf den höherdimensionalen Raum des Lehrermodells ab. Die allgemeine Destillation nutzt über 300 Datensätze in mehr als 30 Sprachen für 50.000 Schritte. Anschließend erfolgt ein Training mit langen Kontexten auf synthetischen und natürlichen langen Dokumenten (1.000–4.096 Token) mit angepassten RoPE-Parametern. In der zweiten Phase werden vier LoRA-Adapter mit eingefrorenen Backbone-Gewichten trainiert: Der Retrieval-Adapter kombiniert den InfoNCE-Kontrastverlust mit harten Negativen, dem fortgesetzten Destillationsverlust und einem globalen orthogonalen Regularisierer (GOR) zur Quantisierungsrobustheit. Der Textvergleichsadapter verwendet den CoSENT-Ranking-Verlust für abgestufte Ähnlichkeit mit Destillation auf unbewerteten Paaren; der Clustering-Adapter verwendet Re-Destillation mit einer clusteringspezifischen Lehreranweisung; und der Klassifizierungsadapter verwendet den bidirektionalen InfoNCE-Verlust mit relationaler Wissensdestillationsregularisierung. Die endgültigen Gewichte der Retrieval-Adapter werden über alle Prüfpunkte gemittelt.

Leistung

Auf MMTEB (mehrsprachig) erzielt jina-embeddings-v5-text-small einen Durchschnittswert von 67,0 (Aufgabenebene) und 58,9 (Typenebene) – die höchsten Werte aller Modelle mit 1 Milliarde Parametern. Die Klassifizierungsleistung liegt bei 71,3, die Clustering-Leistung bei 53,4, die Paarklassifizierung bei 82,9, die Reranking-Leistung bei 65,7, die Retrieval-Leistung bei 64,9 und die STS-Leistung bei 78,9. Auf englischem MTEB erreicht es einen Durchschnittswert von 71,7 und übertrifft damit Qwen3-0.6B mit Anweisungen (70,5) und jina-embeddings-v3 (65,7). Bei Retrieval-spezifischen Benchmarks erzielt es 64,88 Punkte auf MTEB-M Retrieval, 66,84 auf RTEB, 56,67 auf BEIR und 66,39 auf LongEmbed. Das Modell übertrifft seinen Lehrmeister Qwen3-4B bei der Paarklassifizierung (42,0 gegenüber 26,8 bei MMTEB) und erzielt trotz seiner sechsmal geringeren Größe in allen anderen Kategorien wettbewerbsfähige Ergebnisse.

Anleitung

Wählen Sie den passenden LoRA-Adapter für Ihre Aufgabe: „Retrieval“ für die asymmetrische Suche nach Dokumenten (fügen Sie „Query:“ vor Suchanfragen und „Document:“ vor Passagen ein), „Textmatching“ für symmetrische Ähnlichkeitsaufgaben wie Duplikaterkennung und Paraphrasenidentifizierung (verwendet das Präfix „Document:“ für beide Eingaben), „Clustering“ zum Gruppieren verwandter Dokumente und „Classification“ für Kategorisierung und Stimmungsanalyse. Verwenden Sie bei Retrieval-Aufgaben immer das korrekte Präfix, da das Modell mit asymmetrischer Kodierung trainiert wurde. Die Matrjoschka-Truncation ermöglicht die Reduzierung der Einbettungen von 1024 auf bis zu 32 Dimensionen; die Leistung bleibt oberhalb von 256 Dimensionen hoch, verschlechtert sich jedoch unterhalb dieser Schwelle merklich, was den Johnson-Lindenstrauss-Grenzen entspricht. Binäre Quantisierung wird dank GOR-Regularisierung mit minimalem Leistungsverlust unterstützt. Das 32K-Kontextfenster verarbeitet lange Dokumente nativ, das Modell wurde jedoch zusätzlich mit Long-Context-Daten für ein robustes Retrieval langer Dokumente trainiert. Verwenden Sie die Kosinusähnlichkeit für den Einbettungsvergleich. Das Modell ist über die Jina AI API, Hugging Face (mit Sentence Transformers und vLLM-Integration) sowie in quantisierten Varianten für llama.cpp verfügbar.

Blogs, die dieses Modell erwähnen

Mai 12, 2026 • 7 Minuten gelesen

jina-embeddings-v5-omni: Embeddings für Text, Bild, Audio und Video

Ein Modell, vier Modalitäten: Text, Bild, Audio, Video. Erstklassige Omni-Embeddings mit 1,6 Mrd. und 0,9 Mrd. Parametern.

März 06, 2026 • 6 Minuten gelesen

Identifizierung von Einbettungsmodellen anhand numerischer Rohwerte

Ein winziger Transformer, der Einbettungsmodelle durch das Lesen von rohen numerischen Ziffern per Fingerabdruck identifiziert. Kein Feature-Engineering.

Februar 19, 2026 • 7 Minuten gelesen

jina-embeddings-v3-text: Neue SOTA kleine mehrsprachige Embeddings

Zwei mehrsprachige Embeddings mit weniger als 1 Milliarde Parametern und erstklassiger Leistung, verfügbar für Elastic Inference Service, Llama.cpp und MLX.