Erhältlich über
Wählen Sie Modelle zum Vergleichen aus
Publikationen (1)
Überblick
Jina Embeddings v2 Base Chinese beschreitet neue Wege als erstes Open-Source-Modell, das sowohl chinesische als auch englische Texte mit einer beispiellosen Kontextlänge von 8.192 Token nahtlos verarbeitet. Dieses zweisprachige Kraftpaket geht auf eine entscheidende Herausforderung im globalen Geschäft ein: die Notwendigkeit einer genauen Verarbeitung von Langformatdokumenten mit chinesischem und englischem Inhalt. Im Gegensatz zu herkömmlichen Modellen, die mit dem sprachenübergreifenden Verständnis zu kämpfen haben oder separate Modelle für jede Sprache erfordern, bildet dieses Modell äquivalente Bedeutungen in beiden Sprachen im selben Einbettungsraum ab, was es für global expandierende oder mehrsprachige Inhalte verwaltende Unternehmen von unschätzbarem Wert macht.
Methoden
Die Architektur des Modells kombiniert ein BERT-basiertes Backbone mit symmetrischem bidirektionalem ALiBi (Attention with Linear Biases) und ermöglicht so die effiziente Verarbeitung langer Sequenzen ohne die traditionelle 512-Token-Beschränkung. Der Trainingsprozess folgt einem sorgfältig orchestrierten dreiphasigen Ansatz: anfängliches Vortraining mit hochwertigen zweisprachigen Daten, gefolgt von primären und sekundären Feinabstimmungsphasen. Diese methodische Trainingsstrategie, gepaart mit den 161 Millionen Parametern und der 768-dimensionalen Ausgabe des Modells, erreicht eine bemerkenswerte Effizienz bei gleichzeitiger Beibehaltung einer ausgewogenen Leistung in beiden Sprachen. Der symmetrische bidirektionale ALiBi-Mechanismus stellt eine bedeutende Innovation dar, die es dem Modell ermöglicht, Dokumente mit einer Länge von bis zu 8.192 Token zu verarbeiten – eine Fähigkeit, die bisher proprietären Lösungen vorbehalten war.
Leistung
In Benchmarks auf der chinesischen MTEB-Bestenliste (C-MTEB) zeigt das Modell eine außergewöhnliche Leistung unter Modellen unter 0,5 GB und schneidet insbesondere bei Aufgaben in chinesischer Sprache hervorragend ab. Es übertrifft OpenAIs text-embedding-ada-002 in chinesischspezifischen Anwendungen deutlich und bleibt bei englischsprachigen Aufgaben konkurrenzfähig. Eine bemerkenswerte Verbesserung in dieser Version ist die verfeinerte Verteilung der Ähnlichkeitswerte, die die in der Vorschauversion vorhandenen Probleme mit der Punkteinflation behebt. Das Modell bietet jetzt eindeutigere und logischere Ähnlichkeitswerte und gewährleistet so eine genauere Darstellung semantischer Beziehungen zwischen Texten. Diese Verbesserung wird insbesondere in Vergleichstests deutlich, in denen das Modell eine bessere Unterscheidung zwischen verwandten und nicht verwandten Inhalten in beiden Sprachen zeigt.
Anleitung
Das Modell erfordert 322 MB Speicherplatz und kann über mehrere Kanäle bereitgestellt werden, darunter AWS SageMaker (Region US-Ost 1) und die Jina AI API. GPU-Beschleunigung ist zwar nicht zwingend erforderlich, kann die Verarbeitungsgeschwindigkeit für Produktionsworkloads jedoch erheblich verbessern. Das Modell eignet sich hervorragend für verschiedene Anwendungen, darunter Dokumentanalyse, mehrsprachige Suche und sprachübergreifende Informationsbeschaffung. Benutzer sollten jedoch beachten, dass es speziell für zweisprachige Szenarien mit Chinesisch und Englisch optimiert ist. Für optimale Ergebnisse sollte der Eingabetext ordnungsgemäß segmentiert werden. Obwohl das Modell bis zu 8.192 Token verarbeiten kann, wird empfohlen, extrem lange Dokumente für eine bessere Leistung in semantisch sinnvolle Abschnitte aufzuteilen. Das Modell ist möglicherweise nicht für Aufgaben geeignet, die eine Echtzeitverarbeitung sehr kurzer Texte erfordern, für die spezialisierte Modelle mit geringerer Latenz möglicherweise besser geeignet sind.
Blogs, die dieses Modell erwähnen