Pressemitteilungen
Modelle
Produkte
keyboard_arrow_down
Leser
Lesen Sie URLs und suchen Sie im Internet nach fundierteren LLMs.
Einbettungen
Multimodale und mehrsprachige Einbettungen von Weltklasse.
Reranker
Neural Retriever der Weltklasse zur Maximierung der Suchrelevanz.
DeepSearch
Suchen, lesen und überlegen, bis die beste Antwort gefunden ist.
Mehr
keyboard_arrow_down
Klassifikator
Zero-Shot- und Few-Shot-Klassifizierung für Bild und Text.
Segmentierer
Schneiden Sie langen Text in Abschnitte und führen Sie eine Tokenisierung durch.

API-Dokumente
Automatische Codegenerierung für Ihre Copilot-IDE oder LLM
open_in_new


Unternehmen
keyboard_arrow_down
Über uns
Kontaktieren Sie unseren Vertrieb
Praktikantenprogramm
Begleiten Sie uns
open_in_new
Logo herunterladen
open_in_new
Terms & amp; Bedingungen


Einloggen
login
Mehrsprachiges Modelltraining erzeugt und reduziert die Sprachlücke
Englisch gegen den Rest der Welt: Können andere Sprachen bei der Ausrichtung mithalten?
Sprachbarrieren überwinden: Sprachübergreifende Ausrichtung jenseits des Englischen
Wie stark tragen sprachübergreifende Daten zur sprachübergreifenden Angleichung bei?
Fazit
Tech-Blog
Oktober 09, 2024

Überbrückung sprachlicher Lücken in mehrsprachigen Embeddings durch kontrastives Lernen

Mehrsprachige Modelle stehen oft vor einer "Sprachlücke", bei der sich ähnliche Phrasen in verschiedenen Sprachen nicht aufeinander abstimmen. Wir zeigen, wie kontrastives Lernen diese Lücke überbrücken und die sprachübergreifende Leistung verbessern kann.
Neon green squares form intricate patterns on a black digital background, creating a dynamic, abstract design.
Bo Wang
Scott Martens
Alex C-G
Bo Wang, Scott Martens, Alex C-G • 13 Minuten gelesen

Eine der zentralen Herausforderungen bei mehrsprachigen Modellen ist die "Sprachlücke" — ein Phänomen, bei dem Phrasen mit der gleichen Bedeutung in verschiedenen Sprachen nicht so eng ausgerichtet oder gruppiert sind, wie sie es sein sollten. Idealerweise sollten ein Text in einer Sprache und sein Äquivalent in einer anderen ähnliche Repräsentationen haben — d.h. Embeddings, die sehr nahe beieinander liegen — damit sprachübergreifende Anwendungen bei Texten in verschiedenen Sprachen identisch funktionieren können. Allerdings repräsentieren Modelle oft subtil die Sprache eines Textes, wodurch eine "Sprachlücke" entsteht, die zu suboptimaler sprachübergreifender Leistung führt.

In diesem Beitrag untersuchen wir diese Sprachlücke und ihren Einfluss auf die Leistung von Text-Embedding-Modellen. Wir haben Experimente durchgeführt, um die semantische Ausrichtung von Paraphrasen in der gleichen Sprache und von Übersetzungen zwischen verschiedenen Sprachpaaren zu bewerten, wobei wir unser jina-xlm-roberta Modell und das neueste jina-embeddings-v3 verwendet haben. Diese Experimente zeigen, wie gut sich Phrasen mit ähnlicher oder identischer Bedeutung unter verschiedenen Trainingsbedingungen gruppieren.

Jina Embeddings v3: A Frontier Multilingual Embedding Model
jina-embeddings-v3 is a frontier multilingual text embedding model with 570M parameters and 8192 token-length, outperforming the latest proprietary embeddings from OpenAI and Cohere on MTEB.

Wir haben auch Trainingstechniken erprobt, um die sprachübergreifende semantische Ausrichtung zu verbessern, insbesondere die Einführung von parallelen mehrsprachigen Daten während des kontrastiven Lernens. In diesem Artikel teilen wir unsere Erkenntnisse und Ergebnisse.

tagMehrsprachiges Modelltraining erzeugt und reduziert die Sprachlücke

Das Training von Text-Embedding-Modellen umfasst typischerweise einen mehrstufigen Prozess mit zwei Hauptteilen:

  1. Masked Language Modeling (MLM): Das Vortraining beinhaltet typischerweise sehr große Textmengen, bei denen einige der Token zufällig maskiert werden. Das Modell wird darauf trainiert, diese maskierten Token vorherzusagen. Diese Vorgehensweise lehrt dem Modell die Muster der Sprache oder Sprachen in den Trainingsdaten, einschließlich Auswahlabhängigkeiten zwischen Token, die sich aus Syntax, lexikalischer Semantik und pragmatischen Einschränkungen der realen Welt ergeben können.
  2. Contrastive Learning: Nach dem Vortraining wird das Modell mit kuratierten oder semi-kuratierten Daten weiter trainiert, um die Embeddings semantisch ähnlicher Texte näher zusammenzubringen und (optional) unähnliche weiter auseinander zu schieben. Dieses Training kann Paare, Tripel oder sogar Gruppen von Texten verwenden, deren semantische Ähnlichkeit bereits bekannt oder zumindest zuverlässig geschätzt ist. Es kann mehrere Unterstufen haben und es gibt verschiedene Trainingsstrategien für diesen Teil des Prozesses, wobei häufig neue Forschungsergebnisse veröffentlicht werden und kein klarer Konsens über den optimalen Ansatz besteht.

Um zu verstehen, wie die Sprachlücke entsteht und wie sie geschlossen werden kann, müssen wir die Rolle beider Stufen betrachten.

tagMasked Language Pretraining

Ein Teil der sprachübergreifenden Fähigkeit von Text-Embedding-Modellen wird während des Vortrainings erworben.

Verwandte und entlehnte Wörter ermöglichen es dem Modell, aus großen Textmengen eine gewisse sprachübergreifende semantische Ausrichtung zu lernen. Zum Beispiel sind das englische Wort banana und das französische Wort banane (und deutsche Banane) häufig und in der Schreibweise ähnlich genug, dass ein Embedding-Modell lernen kann, dass Wörter, die wie "banan-" aussehen, über Sprachen hinweg ähnliche Verteilungsmuster haben. Es kann diese Information nutzen, um bis zu einem gewissen Grad zu lernen, dass auch andere Wörter, die über Sprachen hinweg nicht gleich aussehen, ähnliche Bedeutungen haben, und sogar herausfinden, wie grammatikalische Strukturen übersetzt werden.

Dies geschieht jedoch ohne explizites Training.

Wir haben das jina-xlm-roberta Modell, das vortrainierte Rückgrat von jina-embeddings-v3, getestet, um zu sehen, wie gut es sprachübergreifende Äquivalenzen aus dem maskierten Sprach-Vortraining gelernt hat. Wir haben zweidimensionale UMAP Satzrepräsentationen einer Reihe von englischen Sätzen geplottet, die ins Deutsche, Niederländische, vereinfachte Chinesisch und Japanische übersetzt wurden. Die Ergebnisse sind in der folgenden Abbildung dargestellt:

Multilingual scatterplot showing word embeddings' alignment across five languages on UMAP dimensions.
💡
Zweidimensionale UMAP-Projektion einer Auswahl englischer Sätze und ihrer Übersetzungen ins Deutsche, Niederländische, Chinesische und Japanische. Die grauen Linien verbinden nicht-englische Sätze mit den englischen Sätzen, aus denen sie übersetzt wurden.

Diese Sätze neigen dazu, im jina-xlm-roberta Embedding-Raum stark sprachspezifische Cluster zu bilden, obwohl Sie in dieser Projektion einige Ausreißer sehen können, die möglicherweise ein Nebeneffekt der zweidimensionalen Projektion sind.

Man kann sehen, dass das Vortraining die Embeddings von Sätzen in der gleichen Sprache sehr stark zusammengruppiert hat. Dies ist eine Projektion in zwei Dimensionen einer Verteilung in einem viel höherdimensionalen Raum, sodass es immer noch möglich ist, dass zum Beispiel ein deutscher Satz, der eine gute Übersetzung eines englischen ist, trotzdem der deutsche Satz ist, dessen Embedding dem Embedding seiner englischen Quelle am nächsten kommt. Aber es zeigt, dass ein Embedding eines englischen Satzes wahrscheinlich näher an einem anderen englischen Satz liegt als an einem semantisch identischen oder fast identischen deutschen.

Beachten Sie auch, wie Deutsch und Niederländisch viel engere Cluster bilden als andere Sprachpaare. Dies ist nicht überraschend für zwei relativ eng verwandte Sprachen. Deutsch und Niederländisch sind sich so ähnlich, dass sie manchmal teilweise gegenseitig verständlich sind.

Japanisch und Chinesisch scheinen sich ebenfalls näher beieinander zu befinden als zu anderen Sprachen. Obwohl sie nicht auf die gleiche Weise verwandt sind, verwendet das geschriebene Japanisch typischerweise kanji (漢字), oder hànzì im Chinesischen. Japanisch teilt die meisten dieser geschriebenen Zeichen mit dem Chinesischen, und die beiden Sprachen teilen viele Wörter, die mit einem oder mehreren kanji/hànzì zusammen geschrieben werden. Aus der Perspektive des MLM ist dies die gleiche Art von sichtbarer Ähnlichkeit wie zwischen Niederländisch und Deutsch.

Wir können diese "Sprachlücke" auf einfachere Weise sehen, wenn wir nur zwei Sprachen mit jeweils zwei Sätzen betrachten:

Graph illustrating linguistic relationships with color-coded lines, data points for English and German phrases, and an "MLM P

Da MLM Texte natürlicherweise nach Sprachen clustert, werden "my dog is blue" und "my cat is red" zusammen gruppiert, weit entfernt von ihren deutschen Entsprechungen. Anders als die "Modalitätslücke", die in einem früheren Blogbeitrag diskutiert wurde, glauben wir, dass dies aus oberflächlichen Ähnlichkeiten und Unähnlichkeiten zwischen Sprachen entsteht: ähnliche Schreibweisen, Verwendung der gleichen Zeichenfolgen im Druck und möglicherweise Ähnlichkeiten in Morphologie und syntaktischer Struktur — gemeinsame Wortstellungen und gemeinsame Arten der Wortbildung.

Kurz gesagt, in welchem Maße ein Modell auch immer sprachübergreifende Äquivalenzen im MLM-Vortraining lernt, es reicht nicht aus, um eine starke Tendenz zur Gruppierung von Texten nach Sprachen zu überwinden. Es hinterlässt eine große Sprachlücke.

tagContrastive Learning

Idealerweise wollen wir ein Embedding-Modell, das gegenüber der Sprache indifferent ist und nur allgemeine Bedeutungen in seinen Embeddings kodiert. In einem solchen Modell würden wir keine Gruppierung nach Sprachen sehen und keine Sprachlücke haben. Sätze in einer Sprache sollten sehr nahe an guten Übersetzungen und weit entfernt von anderen Sätzen sein, die etwas anderes bedeuten, auch in der gleichen Sprache, wie in der folgenden Abbildung:

Graph displays "Clustering by Meaning" with multilingual labels, emphasizing abstract concepts on a dark backdrop.

MLM-Vortraining erreicht das nicht, daher verwenden wir zusätzliche kontrastive Lerntechniken, um die semantische Repräsentation von Texten in Embeddings zu verbessern.

Kontrastives Lernen beinhaltet die Verwendung von Textpaaren, von denen bekannt ist, dass sie in ihrer Bedeutung ähnlich oder unterschiedlich sind, und Tripeln, bei denen bekannt ist, dass ein Paar ähnlicher ist als das andere. Die Gewichte werden während des Trainings angepasst, um diese bekannte Beziehung zwischen Textpaaren und Tripeln widerzuspiegeln.

In unserem kontrastiven Lerndatensatz sind 30 Sprachen vertreten, aber 97% der Paare und Tripel sind in nur einer Sprache, und nur 3% beinhalten sprachübergreifende Paare oder Tripel. Aber diese 3% reichen aus, um ein dramatisches Ergebnis zu erzielen: Die Embeddings zeigen sehr wenig Sprachgruppierung, und semantisch ähnliche Texte produzieren nahe beieinander liegende Embeddings, unabhängig von ihrer Sprache, wie in der UMAP-Projektion von Embeddings aus jina-embeddings-v3 gezeigt wird.

Streudiagramm auf schwarzem Hintergrund, das die Sprachverteilung nach dem kontrastiven Training mit UMAP-Dimensionen zeigt.

Um dies zu bestätigen, haben wir die Spearman-Korrelation der von jina-xlm-roberta und jina-embeddings-v3 generierten Repräsentationen auf dem STS17-Datensatz gemessen.

💡
Spearman-Korrelation misst die Rangkorrelation, d. h. wie ähnlich zwei geordnete Listen sind. Dies ist ein guter Mechanismus zum Vergleich von Embedding-Modellen untereinander und mit menschlichen Bewertungen, da die tatsächliche Punktzahl viel weniger wichtig ist als die Reihenfolge der Elemente.

Die folgende Tabelle zeigt die Spearman-Korrelation zwischen semantischen Ähnlichkeitsrankings für übersetzte Texte in verschiedenen Sprachen. Wir nehmen eine Reihe englischer Sätze und messen dann die Ähnlichkeit ihrer Embeddings mit einem Embedding eines bestimmten Referenzsatzes und sortieren sie der Reihe nach von der ähnlichsten zur am wenigsten ähnlichen. Dann übersetzen wir all diese Sätze in eine andere Sprache und wiederholen den Ranking-Prozess. In einem idealen sprachübergreifenden Embedding-Modell wären die beiden geordneten Listen identisch und die Spearman-Korrelation wäre 1,0.

Die untenstehende Grafik und Tabelle zeigen unsere Ergebnisse beim Vergleich von Englisch mit den sechs anderen Sprachen im STS17-Benchmark unter Verwendung von sowohl jina-xlm-roberta als auch jina-embeddings-v3.

Balkendiagramm, das die Spearman-Korrelation für Englisch gepaart mit AR, DE, ES, FR, IT, NL vergleicht, in rot und blau nach Alphabet eingefärbt
Task jina-xlm-roberta jina-embeddings-v3
English ↔ Arabic 0.1581 0.7977
English ↔ German 0.2136 0.8366
English ↔ Spanish 0.1049 0.8509
English ↔ French 0.1659 0.8378
English ↔ Italian 0.2293 0.8674
English ↔ Dutch 0.2387 0.8398

Hier sehen Sie den enormen Unterschied, den das kontrastive Lernen im Vergleich zum ursprünglichen Pre-training macht. Obwohl nur 3 % sprachübergreifende Daten im Trainingsmix enthalten waren, hat das jina-embeddings-v3 Modell genug sprachübergreifende Semantik gelernt, um die Sprachlücke, die es im Pre-training erworben hat, fast vollständig zu eliminieren.

tagEnglisch gegen den Rest der Welt: Können andere Sprachen bei der Ausrichtung mithalten?

Wir haben jina-embeddings-v3 mit 89 Sprachen trainiert, mit besonderem Fokus auf 30 sehr weit verbreitete Schriftsprachen. Trotz unserer Bemühungen, ein umfangreiches mehrsprachiges Trainingskorpus aufzubauen, macht Englisch immer noch fast die Hälfte der Daten aus, die wir im kontrastiven Training verwendet haben. Andere Sprachen, einschließlich weit verbreiteter globaler Sprachen, für die reichlich Textmaterial verfügbar ist, sind im Vergleich zur enormen Menge englischer Daten im Trainingssatz immer noch relativ unterrepräsentiert.

Sind angesichts dieser Dominanz des Englischen die englischen Repräsentationen besser aufeinander abgestimmt als die anderer Sprachen? Um dies zu untersuchen, führten wir ein Folgeexperiment durch.

Wir erstellten einen Datensatz, parallel-sentences, der aus 1.000 englischen Textpaaren besteht, einem "Anker" und einem "Positiv", wobei der positive Text logisch aus dem Ankertext folgt.

jinaai/parallel-sentences · Datasets at Hugging Face
We're on a journey to advance and democratize artificial intelligence through open source and open science.

Zum Beispiel die erste Zeile der folgenden Tabelle. Diese Sätze haben keine identische Bedeutung, aber sie haben kompatible Bedeutungen. Sie beschreiben informativ die gleiche Situation.

Wir übersetzten diese Paare dann mit GPT-4 in fünf Sprachen: Deutsch, Niederländisch, Chinesisch (Vereinfacht), Chinesisch (Traditionell) und Japanisch. Schließlich überprüften wir sie manuell, um die Qualität sicherzustellen.

Language Anchor Positive
English Two young girls are playing outside in a non-urban environment. Two girls are playing outside.
German Zwei junge Mädchen spielen draußen in einer nicht urbanen Umgebung. Zwei Mädchen spielen draußen.
Dutch Twee jonge meisjes spelen buiten in een niet-stedelijke omgeving. Twee meisjes spelen buiten.
Chinese (Simplified) 两个年轻女孩在非城市环境中玩耍。 两个女孩在外面玩。
Chinese (Traditional) 兩個年輕女孩在非城市環境中玩耍。 兩個女孩在外面玩。
Japanese 2人の若い女の子が都市環境ではない場所で遊んでいます。 二人の少女が外で遊んでいます。

Anschließend kodierten wir jedes Textpaar mit jina-embeddings-v3 und berechneten die Kosinus-Ähnlichkeit zwischen ihnen. Die folgende Abbildung und Tabelle zeigen die Verteilung der Kosinus-Ähnlichkeitswerte für jede Sprache und die durchschnittliche Ähnlichkeit:

Grafik, die die Kosinus-Ähnlichkeitsverteilungen für Textpaare in Englisch, Deutsch, Niederländisch, Chinesisch und Japanisch im Vergleich zur Dichte zeigt
Language Average Cosine Similarity
English 0.9078
German 0.8949
Dutch 0.8844
Chinese (Simplified) 0.8876
Chinese (Traditional) 0.8933
Japanese 0.8895

Trotz der Dominanz des Englischen in den Trainingsdaten erkennt jina-embeddings-v3 semantische Ähnlichkeiten in Deutsch, Niederländisch, Japanisch und beiden Formen des Chinesischen etwa genauso gut wie im Englischen.

tagSprachbarrieren überwinden: Sprachübergreifende Ausrichtung jenseits des Englischen

Untersuchungen zur Angleichung sprachübergreifender Repräsentationen konzentrieren sich typischerweise auf Sprachpaare mit Englisch. Diese Fokussierung könnte theoretisch verschleiern, was tatsächlich passiert. Ein Modell könnte einfach darauf optimiert sein, alles so nah wie möglich an seinem englischen Äquivalent darzustellen, ohne zu prüfen, ob andere Sprachpaare angemessen unterstützt werden.

Um dies zu untersuchen, führten wir einige Experimente mit dem parallel-sentences Datensatz durch, wobei wir uns auf die sprachübergreifende Angleichung über englische Sprachpaare hinaus konzentrierten.

Die untenstehende Tabelle zeigt die Verteilung der Kosinus-Ähnlichkeiten zwischen äquivalenten Texten in verschiedenen Sprachpaaren — Texte, die Übersetzungen einer gemeinsamen englischen Quelle sind. Idealerweise sollten alle Paare einen Kosinus von 1 haben — d.h. identische semantische Einbettungen. In der Praxis könnte dies nie passieren, aber wir würden von einem guten Modell sehr hohe Kosinus-Werte für Übersetzungspaare erwarten.

Density graph charting cross-lingual cosine similarities for language pairs using jina-embeddings-v3 model.
Language Pair Average Cosine Similarity
German ↔ Dutch 0.8779
German ↔ Japanese 0.8664
Chinese (Simplified) ↔ Japanese 0.8534
Dutch ↔ Chinese (Simplified) 0.8479
Chinese (Simplified) ↔ Chinese (Traditional) 0.8758

Obwohl die Ähnlichkeitswerte zwischen verschiedenen Sprachen etwas niedriger sind als bei kompatiblen Texten in derselben Sprache, sind sie immer noch sehr hoch. Die Kosinus-Ähnlichkeit von niederländisch/deutschen Übersetzungen ist fast so hoch wie zwischen kompatiblen Texten auf Deutsch.

Das mag nicht überraschend sein, da Deutsch und Niederländisch sehr ähnliche Sprachen sind. Ähnlich verhält es sich bei den beiden hier getesteten chinesischen Varianten, die nicht wirklich zwei verschiedene Sprachen sind, sondern nur stilistisch unterschiedliche Formen derselben Sprache. Aber man kann sehen, dass selbst sehr unterschiedliche Sprachpaare wie Niederländisch und Chinesisch oder Deutsch und Japanisch immer noch sehr starke Ähnlichkeiten zwischen semantisch äquivalenten Texten aufweisen.

Wir zogen die Möglichkeit in Betracht, dass diese sehr hohen Ähnlichkeitswerte ein Nebeneffekt der Verwendung von ChatGPT als Übersetzer sein könnten. Um dies zu testen, luden wir von Menschen übersetzte Transkripte von TED Talks auf Englisch und Deutsch herunter und überprüften, ob die ausgerichteten übersetzten Sätze die gleiche hohe Korrelation aufweisen würden.

Das Ergebnis war sogar stärker als bei unseren maschinell übersetzten Daten, wie man in der Abbildung unten sehen kann.

Graph of cross-lingual alignment density EN-DE with peak around cosine similarity 1.0, titled "jina-embeddings-v3: Cross-ling

tagWie stark tragen sprachübergreifende Daten zur sprachübergreifenden Angleichung bei?

Die verschwindende Sprachlücke und das hohe Niveau der sprachübergreifenden Leistung scheinen unverhältnismäßig im Vergleich zu dem sehr kleinen Teil der Trainingsdaten, der explizit sprachübergreifend war. Nur 3% der kontrastiven Trainingsdaten lehren das Modell explizit, wie Angleichungen zwischen Sprachen vorzunehmen sind.

Also führten wir einen Test durch, um zu sehen, ob sprachübergreifende Daten überhaupt einen Beitrag leisten.

Ein vollständiges Neutraining von jina-embeddings-v3 ohne sprachübergreifende Daten wäre für ein kleines Experiment unverhältnismäßig teuer, also luden wir das xlm-roberta-base Modell von Hugging Face herunter und trainierten es weiter mit kontrastivem Lernen, wobei wir einen Teil der Daten verwendeten, die wir zum Training von jina-embeddings-v3 verwendet hatten. Wir passten speziell die Menge der sprachübergreifenden Daten an, um zwei Fälle zu testen: Einen ohne sprachübergreifende Daten und einen, bei dem 20% der Paare sprachübergreifend waren. Die Training-Metaparameter können Sie in der untenstehenden Tabelle sehen:

Backbone% Cross-LanguageLearning RateLoss FunctionTemperature
xlm-roberta-base ohne X-language Daten0%5e-4InfoNCE0.05
xlm-roberta-base mit X-language Daten20%5e-4InfoNCE0.05

Anschließend evaluierten wir die sprachübergreifende Leistung beider Modelle mit den STS17 und STS22 Benchmarks aus dem MTEB und der Spearman-Korrelation. Die Ergebnisse präsentieren wir unten:

tagSTS17

Bar graph showing Spearman correlation for language pairs on STS17 with and without parallel corpus.
Language PairMit ParallelkorporaOhne Parallelkorpora
English ↔ Arabic0.64180.5875
English ↔ German0.73640.7390
English ↔ Spanish0.69680.6799
English ↔ French0.70660.6944
English ↔ Italian0.72320.7070
English ↔ Dutch0.75970.7468
English ↔ Turkish0.69330.6050

tagSTS22

Chart comparing models of language alignment, showing Spearman correlation scores for eight language pairs with and without p
SprachpaarMit parallelen KorporaOhne parallele Korpora
English ↔ Spanish0.77100.7675
Simplified Chinese ↔ English0.68850.6860
Spanish ↔ Italian0.68290.6814
German ↔ French0.57630.5496
German ↔ English0.54390.5566
Polish ↔ English0.69660.7156
German ↔ English0.58320.5478
French ↔ Polish0.84510.8451

Wir waren überrascht zu sehen, dass bei den meisten der getesteten Sprachpaare sprachübergreifende Trainingsdaten kaum oder gar keine Verbesserung brachten. Es ist schwer zu sagen, ob dies auch bei vollständig trainierten Modellen mit größeren Datensätzen der Fall wäre, aber es deutet darauf hin, dass explizites sprachübergreifendes Training nicht viel bringt.

Beachten Sie jedoch, dass STS17 auch Englisch/Arabisch- und Englisch/Türkisch-Paare enthält. Dies sind beides Sprachen, die in unseren Trainingsdaten deutlich unterrepräsentiert sind. Das verwendete XML-RoBERTa-Modell wurde mit Daten vortrainiert, die nur zu 2,25 % Arabisch und 2,32 % Türkisch waren, deutlich weniger als bei den anderen getesteten Sprachen. Der kleine kontrastive Lerndatensatz, den wir in diesem Experiment verwendeten, enthielt nur 1,7 % Arabisch und 1,8 % Türkisch.

Diese beiden Sprachpaare sind die einzigen getesteten Paare, bei denen das Training mit sprachübergreifenden Daten einen deutlichen Unterschied machte. Wir denken, dass explizite sprachübergreifende Daten bei Sprachen, die in den Trainingsdaten weniger gut repräsentiert sind, effektiver sind, müssen diesen Bereich aber noch weiter erforschen, bevor wir eine endgültige Schlussfolgerung ziehen können. Die Rolle und Wirksamkeit sprachübergreifender Daten beim kontrastiven Training ist ein Bereich, in dem Jina AI aktiv forscht.

tagFazit

Herkömmliche Methoden des Sprach-Pretrainings, wie Masked Language Modeling, hinterlassen eine „Sprachlücke", bei der semantisch ähnliche Texte in verschiedenen Sprachen nicht so eng übereinstimmen wie sie sollten. Wir haben gezeigt, dass das kontrastive Lernverfahren von Jina Embeddings sehr effektiv darin ist, diese Lücke zu reduzieren oder sogar zu eliminieren.

Die Gründe dafür sind nicht vollständig klar. Wir verwenden beim kontrastiven Training explizit sprachübergreifende Textpaare, aber nur in sehr kleinen Mengen, und es ist unklar, welche Rolle sie tatsächlich bei der Sicherstellung hochwertiger sprachübergreifender Ergebnisse spielen. Unsere Versuche, unter kontrollierten Bedingungen einen klaren Effekt nachzuweisen, brachten kein eindeutiges Ergebnis.

Allerdings ist klar, dass jina-embeddings-v3 die Pretraining-Sprachlücke überwunden hat und damit ein leistungsfähiges Werkzeug für mehrsprachige Anwendungen ist. Es ist einsatzbereit für jede Aufgabe, die eine starke, identische Leistung in mehreren Sprachen erfordert.

Sie können jina-embeddings-v3 über unsere Embeddings API (mit einer Million kostenloser Tokens) oder über AWS oder Azure nutzen. Wenn Sie es außerhalb dieser Plattformen oder vor Ort in Ihrem Unternehmen nutzen möchten, beachten Sie bitte, dass es unter CC BY-NC 4.0 lizenziert ist. Kontaktieren Sie uns, wenn Sie an einer kommerziellen Nutzung interessiert sind.

Kategorien:
Tech-Blog
rss_feed
Büros
location_on
Sunnyvale, Kalifornien
710 Lakeway Dr, Ste 200, Sunnyvale, CA 94085, USA
location_on
Berlin, Deutschland (Hauptsitz)
Prinzessinnenstraße 19-20, 10969 Berlin, Deutschland
location_on
Peking, China
Ebene 5, Gebäude 6, Nr. 48 Haidian West St. Peking, China
location_on
Shenzhen, China
402 Etage 4, Fu'an Technology Building, Shenzhen, China
Stiftung durchsuchen
Leser
Einbettungen
Reranker
DeepSearch
Klassifikator
Segmentierer
API-Dokumentation
Jina API-Schlüssel abrufen
Ratenbegrenzung
API-Status
Unternehmen
Über uns
Kontaktieren Sie unseren Vertrieb
Pressemitteilungen
Praktikantenprogramm
Begleiten Sie uns
open_in_new
Logo herunterladen
open_in_new
Bedingungen
Sicherheit
Terms & amp; Bedingungen
Privatsphäre
Cookie-Einstellungen
email
Jina AI © 2020-2025.