jina-embeddings-v3

Dieses Modell wird durch neuere Modelle ersetzt.

Einbettungen

CC BY-NC 4.0

Beitrag veröffentlichen

jina-embeddings-v3

Frontier-Mehrsprachigkeits-Einbettungsmodell mit SOTA-Leistung

Lizenz

CC-BY-NC-4.0

Veröffentlichungsdatum

2024-09-18

Eingang

Text

Ausgabe

Vektor

Matroschka-Abmessungen

128

256

512

768

1024

Späte Chunking

Yes

Modelldetails

Parameter: 570M

Länge des Eingabetokens: 8K

Ausgabedimension: 1024

Basismodell

XLM-RoBERTa Large

Ausgebildete Sprachen

32 Sprachen

Unterstützte Sprachen

108 Sprachen

Ähnliche Modelle

jina-embeddings-v2-base-en

jina-embeddings-v2-base-zh

jina-embeddings-v2-base-de

jina-embeddings-v2-base-es

jina-embeddings-v2-base-code

Unterstützte Aufgaben

Abruf

Textabgleich

Trennung

Einstufung

Schlagwörter

text-embedding

multilingual

high-dimension

long-context

production

base-model

matryoshka

lora-adapters

Erhältlich über

Elastischer Inferenzdienst Jina-API AWS SageMaker Microsoft Azure Google Cloud Umarmendes Gesicht

E/A-Diagramm

Wählen Sie Modelle zum Vergleichen aus

jina-embeddings-v3

jina-embeddings-v2-base-en

jina-embeddings-v2-base-zh

jina-embeddings-v2-base-de

jina-embeddings-v2-base-es

jina-embeddings-v2-base-code

Publikationen (3)

ACL 2025

Dezember 17, 2024

AIR-Bench: Automated Heterogeneous Information Retrieval Benchmark

ECIR 2025

September 18, 2024

jina-embeddings-v3: Multilingual Embeddings With Task LoRA

SIGIR 2025

September 07, 2024

Late Chunking: Contextual Chunk Embeddings Using Long-Context Embedding Models

Überblick

Jina Embeddings v3 ist ein bahnbrechendes mehrsprachiges Text-Embedding-Modell, das die Art und Weise verändert, wie Organisationen Textverständnis und -abruf über verschiedene Sprachen hinweg handhaben. Im Kern löst es die kritische Herausforderung, eine hohe Leistung über mehrere Sprachen und Aufgaben hinweg aufrechtzuerhalten und gleichzeitig die Rechenleistungsanforderungen überschaubar zu halten. Das Modell glänzt insbesondere in Produktionsumgebungen, in denen es auf Effizienz ankommt – es erreicht modernste Leistung mit nur 570 Millionen Parametern und ist damit für Teams zugänglich, die sich den Rechenaufwand größerer Modelle nicht leisten können. Organisationen, die skalierbare, mehrsprachige Suchsysteme erstellen oder Inhalte über Sprachbarrieren hinweg analysieren müssen, werden dieses Modell besonders wertvoll finden.

Methoden

Die Architektur des Modells stellt eine bedeutende Innovation in der Einbettungstechnologie dar. Sie basiert auf jina-XLM-RoBERTa mit 24 Schichten und wurde mit aufgabenspezifischen Low-Rank Adaptation (LoRA)-Adaptern erweitert. LoRA-Adapter sind spezialisierte neuronale Netzwerkkomponenten, die das Modell für verschiedene Aufgaben wie Abruf, Klassifizierung oder Clustering optimieren, ohne die Parameteranzahl wesentlich zu erhöhen – sie erhöhen die Gesamtparameter um weniger als 3 %. Das Modell enthält Matryoshka Representation Learning (MRL), wodurch Einbettungen flexibel von 1024 auf bis zu 32 Dimensionen reduziert werden können, während die Leistung erhalten bleibt. Das Training umfasste einen dreistufigen Prozess: anfängliches Vortraining mit mehrsprachigem Text aus 89 Sprachen, Feinabstimmung gepaarter Texte für die Einbettungsqualität und spezialisiertes Adaptertraining zur Aufgabenoptimierung. Das Modell unterstützt Kontextlängen von bis zu 8.192 Token durch Rotary Position Embeddings (RoPE) mit einer innovativen Basisfrequenzanpassungstechnik, die die Leistung sowohl bei kurzen als auch bei langen Texten verbessert.

Leistung

Das Modell weist in Tests unter realen Bedingungen ein außergewöhnliches Verhältnis von Effizienz zu Leistung auf und übertrifft sowohl Open-Source-Alternativen als auch proprietäre Lösungen von OpenAI und Cohere bei englischen Aufgaben, während es in mehrsprachigen Szenarien brilliert. Am überraschendsten ist, dass es bessere Ergebnisse erzielt als e5-mistral-7b-instruct, das 12-mal mehr Parameter hat, was seine bemerkenswerte Effizienz unterstreicht. In MTEB-Benchmark-Bewertungen erreicht es über alle Aufgaben hinweg einen Durchschnittswert von 65,52, mit besonders starken Leistungen bei Klassifizierungsgenauigkeit (82,58) und Satzähnlichkeit (85,80). Das Modell behält eine konsistente Leistung über alle Sprachen hinweg bei und erreicht bei mehrsprachigen Aufgaben einen Wert von 64,44. Bei Verwendung von MRL zur Dimensionsreduzierung behält es auch bei niedrigeren Dimensionen eine starke Leistung bei – beispielsweise behält es bei 64 Dimensionen 92 % seiner Abrufleistung im Vergleich zu den vollen 1024 Dimensionen bei.

Anleitung

Um Jina Embeddings v3 effektiv einzusetzen, sollten Teams ihren spezifischen Anwendungsfall berücksichtigen, um den geeigneten Task-Adapter auszuwählen: retrieval.query und retrieval.passage für Suchanwendungen, Trennung für Clustering-Aufgaben, Klassifizierung für Kategorisierung und Text-Matching für semantische Ähnlichkeit. Das Modell erfordert CUDA-fähige Hardware für optimale Leistung, obwohl es aufgrund seiner effizienten Architektur deutlich weniger GPU-Speicher benötigt als größere Alternativen. Für die Produktionsbereitstellung bietet die AWS SageMaker-Integration einen optimierten Weg zur Skalierbarkeit. Das Modell eignet sich hervorragend für mehrsprachige Anwendungen, erfordert jedoch möglicherweise eine zusätzliche Evaluierung für ressourcenarme Sprachen. Obwohl es lange Dokumente mit bis zu 8.192 Token unterstützt, wird optimale Leistung mit der Late-Chunking-Funktion für sehr lange Texte erreicht. Teams sollten das Modell nicht für Aufgaben verwenden, die Echtzeitgenerierung oder komplexe Schlussfolgerungen erfordern – es ist für Einbettung und Abruf konzipiert, nicht für Textgenerierung oder direkte Beantwortung von Fragen.

Blogs, die dieses Modell erwähnen

Februar 19, 2026 • 7 Minuten gelesen

jina-embeddings-v3-text: Neue SOTA kleine mehrsprachige Embeddings

Zwei mehrsprachige Embeddings mit weniger als 1 Milliarde Parametern und erstklassiger Leistung, verfügbar für Elastic Inference Service, Llama.cpp und MLX.