jina-embeddings-v2-base-de

Zweisprachige Einbettungen Deutsch-Englisch mit SOTA-Leistung

Beitrag veröffentlichen

Lizenz

Apache-2.0

Veröffentlichungsdatum

2024-01-15

Eingang

Text

Ausgabe

Vektor

Modelldetails

Parameter: 161M

Länge des Eingabetokens: 8K

Ausgabedimension: 768

Sprachunterstützung

🇺🇸 Englisch

🇩🇪 Deutsch

Ähnliche Modelle

jina-embeddings-v2-base-en

Schlagwörter

german-language

text-embedding

monolingual

large-context

production

semantic-search

document-retrieval

fine-tunable

Erhältlich über

Jina-API AWS SageMaker Microsoft Azure Umarmendes Gesicht

Wählen Sie Modelle zum Vergleichen aus

jina-embeddings-v2-base-de

jina-embeddings-v2-base-en

Publikationen (1)

arXiv

Februar 26, 2024

Multi-Task Contrastive Learning for 8192-Token Bilingual Text Embeddings

Überblick

Jina Embeddings v2 Base German befasst sich mit einer kritischen Herausforderung im internationalen Geschäft: der Überbrückung der Sprachbarriere zwischen dem deutschen und dem englischen Markt. Für deutsche Unternehmen, die in englischsprachige Gebiete expandieren, wo ein Drittel der Unternehmen über 20 % ihres weltweiten Umsatzes erwirtschaftet, ist ein genaues zweisprachiges Verständnis unerlässlich. Dieses Modell verändert die Art und Weise, wie Unternehmen mit sprachenübergreifenden Inhalten umgehen, indem es nahtloses Textverständnis und -abrufen sowohl auf Deutsch als auch auf Englisch ermöglicht. Damit ist es von unschätzbarem Wert für Unternehmen, die internationale Dokumentationssysteme, Kundensupportplattformen oder Content-Management-Lösungen implementieren. Im Gegensatz zu herkömmlichen übersetzungsbasierten Ansätzen ordnet dieses Modell äquivalente Bedeutungen in beiden Sprachen direkt demselben Einbettungsraum zu und ermöglicht so genauere und effizientere zweisprachige Abläufe.

Methoden

Das Modell erreicht seine beeindruckenden zweisprachigen Fähigkeiten durch eine innovative Architektur, die sowohl deutsche als auch englische Texte in einem einheitlichen 768-dimensionalen Einbettungsraum verarbeitet. Im Kern verwendet es ein transformatorbasiertes neuronales Netzwerk mit 161 Millionen Parametern, das sorgfältig darauf trainiert wurde, semantische Beziehungen zwischen beiden Sprachen zu verstehen. Was diese Architektur besonders effektiv macht, ist ihr Ansatz zur Minimierung von Verzerrungen, der speziell darauf ausgelegt ist, die häufige Falle der Bevorzugung englischer Grammatikstrukturen zu vermeiden - ein Problem, das in jüngsten Untersuchungen mit mehrsprachigen Modellen festgestellt wurde. Das erweiterte Kontextfenster des Modells mit 8.192 Token ermöglicht es ihm, ganze Dokumente oder mehrere Textseiten in einem einzigen Durchgang zu verarbeiten und dabei die semantische Kohärenz über lange Inhalte in beiden Sprachen hinweg aufrechtzuerhalten.

Leistung

In Tests unter realen Bedingungen zeigt Jina Embeddings v2 Base German außergewöhnliche Effizienz und Genauigkeit, insbesondere bei sprachübergreifenden Abfrageaufgaben. Das Modell übertrifft Microsofts E5-Basismodell, obwohl es weniger als ein Drittel so groß ist, und erreicht die Leistung von E5 Large, obwohl es siebenmal kleiner ist. In wichtigen Benchmarks, darunter WikiCLIR für die Abfrage von Englisch nach Deutsch, STS17 und STS22 für bidirektionales Sprachverständnis und BUCC für präzise zweisprachige Textausrichtung, zeigt das Modell durchweg überlegene Fähigkeiten. Seine kompakte Größe von 322 MB ermöglicht die Bereitstellung auf Standardhardware bei gleichzeitiger Beibehaltung modernster Leistung, was es besonders effizient für Produktionsumgebungen macht, in denen Rechenressourcen eine Rolle spielen.

Anleitung

Um Jina Embeddings v2 Base German effektiv einzusetzen, sollten Organisationen mehrere praktische Aspekte berücksichtigen. Das Modell lässt sich nahtlos in beliebte Vektordatenbanken wie MongoDB, Qdrant und Weaviate integrieren, sodass sich skalierbare zweisprachige Suchsysteme problemlos erstellen lassen. Für eine optimale Leistung implementieren Sie eine geeignete Textvorverarbeitung, um das Limit von 8.192 Token effektiv zu handhaben – dies reicht normalerweise für etwa 15 bis 20 Textseiten. Obwohl das Modell sowohl bei deutschen als auch bei englischen Inhalten hervorragend funktioniert, ist es besonders effektiv bei sprachübergreifenden Abrufaufgaben, bei denen Abfrage- und Dokumentsprachen unterschiedlich sein können. Organisationen sollten die Implementierung von Caching-Strategien für häufig aufgerufene Inhalte in Betracht ziehen und die Stapelverarbeitung für die Indexierung von Dokumenten im großen Maßstab verwenden. Die AWS SageMaker-Integration des Modells bietet einen zuverlässigen Weg zur Produktionsbereitstellung, obwohl Teams die Token-Nutzung überwachen und eine entsprechende Ratenbegrenzung für Anwendungen mit hohem Datenverkehr implementieren sollten. Wenn Sie das Modell für RAG-Anwendungen verwenden, sollten Sie die Implementierung einer Spracherkennung in Betracht ziehen, um die Eingabeaufforderungserstellung basierend auf der Eingabesprache zu optimieren.

Blogs, die dieses Modell erwähnen

September 27, 2024 • 15 Minuten gelesen

Migration von Jina Embeddings v2 zu v3

Wir haben einige Tipps zusammengestellt, die Ihnen bei der Migration von Jina Embeddings v2 auf v3 helfen.