Erhältlich über
E/A-Diagramm
Wählen Sie Modelle zum Vergleichen aus
Publikationen (1)
Überblick
jina-embeddings-v5-text-small ist ein mehrsprachiges Text-Embedding-Modell mit 0,6 Milliarden Parametern, das auf dem Qwen3-0.6B-Base-Backbone basiert. Es erzeugt 1024-dimensionale Embeddings mittels Last-Token-Pooling und unterstützt Kontextlängen von bis zu 32.000 Token durch Rotary Positional Embeddings (RoPE) mit angepassten Basisfrequenzen. Das Modell umfasst vier aufgabenspezifische LoRA-Adapter für Retrieval, semantische Ähnlichkeit, Clustering und Klassifizierung, die unabhängig voneinander mit eingefrorenen Backbone-Gewichten trainiert werden. Matryoshka Representation Learning ermöglicht die Reduzierung der Embedding-Dimension auf bis zu 32. Das Modell wird in zwei Schritten trainiert: Zuerst erfolgt eine Embedding-Destillation von Qwen3-Embedding-4B, um Wissen vom übergeordneten Lehrermodell zu übertragen. Anschließend werden die aufgabenspezifischen Adapter mit spezialisierten Verlustfunktionen für jede Aufgabenkategorie trainiert. Es unterstützt asymmetrisches Retrieval mit den Präfixen „Query:“ und „Document:“.
Methoden
Das Training erfolgt in zwei Phasen. In der ersten Phase überträgt die Embedding-Destillation Wissen vom Qwen3-Embedding-4B (einem Lehrermodell mit 4 Milliarden Parametern) auf das Qwen3-0.6B-Base-Schülermodell. Dabei wird ein Kosinusdistanzverlust zwischen den projizierten Schüler- und Lehrer-Embeddings verwendet. Eine lineare Projektionsschicht bildet den 1024-dimensionalen Raum des Schülermodells auf den höherdimensionalen Raum des Lehrermodells ab. Die allgemeine Destillation nutzt über 300 Datensätze in mehr als 30 Sprachen für 50.000 Schritte. Anschließend erfolgt ein Training mit langen Kontexten auf synthetischen und natürlichen langen Dokumenten (1.000–4.096 Token) mit angepassten RoPE-Parametern. In der zweiten Phase werden vier LoRA-Adapter mit eingefrorenen Backbone-Gewichten trainiert: Der Retrieval-Adapter kombiniert den InfoNCE-Kontrastverlust mit harten Negativen, dem fortgesetzten Destillationsverlust und einem globalen orthogonalen Regularisierer (GOR) zur Quantisierungsrobustheit. Der Textvergleichsadapter verwendet den CoSENT-Ranking-Verlust für abgestufte Ähnlichkeit mit Destillation auf unbewerteten Paaren; der Clustering-Adapter verwendet Re-Destillation mit einer clusteringspezifischen Lehreranweisung; und der Klassifizierungsadapter verwendet den bidirektionalen InfoNCE-Verlust mit relationaler Wissensdestillationsregularisierung. Die endgültigen Gewichte der Retrieval-Adapter werden über alle Prüfpunkte gemittelt.
Leistung
Auf MMTEB (mehrsprachig) erzielt jina-embeddings-v5-text-small einen Durchschnittswert von 67,0 (Aufgabenebene) und 58,9 (Typenebene) – die höchsten Werte aller Modelle mit 1 Milliarde Parametern. Die Klassifizierungsleistung liegt bei 71,3, die Clustering-Leistung bei 53,4, die Paarklassifizierung bei 82,9, die Reranking-Leistung bei 65,7, die Retrieval-Leistung bei 64,9 und die STS-Leistung bei 78,9. Auf englischem MTEB erreicht es einen Durchschnittswert von 71,7 und übertrifft damit Qwen3-0.6B mit Anweisungen (70,5) und jina-embeddings-v3 (65,7). Bei Retrieval-spezifischen Benchmarks erzielt es 64,88 Punkte auf MTEB-M Retrieval, 66,84 auf RTEB, 56,67 auf BEIR und 66,39 auf LongEmbed. Das Modell übertrifft seinen Lehrmeister Qwen3-4B bei der Paarklassifizierung (42,0 gegenüber 26,8 bei MMTEB) und erzielt trotz seiner sechsmal geringeren Größe in allen anderen Kategorien wettbewerbsfähige Ergebnisse.
Anleitung
Wählen Sie den passenden LoRA-Adapter für Ihre Aufgabe: „Retrieval“ für die asymmetrische Suche nach Dokumenten (fügen Sie „Query:“ vor Suchanfragen und „Document:“ vor Passagen ein), „Textmatching“ für symmetrische Ähnlichkeitsaufgaben wie Duplikaterkennung und Paraphrasenidentifizierung (verwendet das Präfix „Document:“ für beide Eingaben), „Clustering“ zum Gruppieren verwandter Dokumente und „Classification“ für Kategorisierung und Stimmungsanalyse. Verwenden Sie bei Retrieval-Aufgaben immer das korrekte Präfix, da das Modell mit asymmetrischer Kodierung trainiert wurde. Die Matrjoschka-Truncation ermöglicht die Reduzierung der Einbettungen von 1024 auf bis zu 32 Dimensionen; die Leistung bleibt oberhalb von 256 Dimensionen hoch, verschlechtert sich jedoch unterhalb dieser Schwelle merklich, was den Johnson-Lindenstrauss-Grenzen entspricht. Binäre Quantisierung wird dank GOR-Regularisierung mit minimalem Leistungsverlust unterstützt. Das 32K-Kontextfenster verarbeitet lange Dokumente nativ, das Modell wurde jedoch zusätzlich mit Long-Context-Daten für ein robustes Retrieval langer Dokumente trainiert. Verwenden Sie die Kosinusähnlichkeit für den Einbettungsvergleich. Das Modell ist über die Jina AI API, Hugging Face (mit Sentence Transformers und vLLM-Integration) sowie in quantisierten Varianten für llama.cpp verfügbar.
Blogs, die dieses Modell erwähnen





