Pressemitteilungen
Modelle
Produkte
keyboard_arrow_down
Leser
Lesen Sie URLs und suchen Sie im Internet nach fundierteren LLMs.
Einbettungen
Multimodale und mehrsprachige Einbettungen von Weltklasse.
Reranker
Neural Retriever der Weltklasse zur Maximierung der Suchrelevanz.
DeepSearch
Suchen, lesen und überlegen, bis die beste Antwort gefunden ist.
Mehr
keyboard_arrow_down
Klassifikator
Zero-Shot- und Few-Shot-Klassifizierung für Bild und Text.
Segmentierer
Schneiden Sie langen Text in Abschnitte und führen Sie eine Tokenisierung durch.

API-Dokumente
Automatische Codegenerierung für Ihre Copilot-IDE oder LLM
open_in_new


Unternehmen
keyboard_arrow_down
Über uns
Kontaktieren Sie unseren Vertrieb
Praktikantenprogramm
Begleiten Sie uns
open_in_new
Logo herunterladen
open_in_new
Terms & amp; Bedingungen


Einloggen
login
warning
Dieses Modell wird durch neuere Modelle ersetzt.

jina-embeddings-v2-base-zh

Zweisprachige Einbettungen Chinesisch-Englisch mit SOTA-Leistung
Beitrag veröffentlichenarrow_forward
Lizenz
license
Apache-2.0
Veröffentlichungsdatum
calendar_month
2024-01-09
Eingang
abc
Text
arrow_forward
Ausgabe
more_horiz
Vektor
Modelldetails
Parameter: 161M
Länge des Eingabetokens: 8K
Ausgabedimension: 768
Sprachunterstützung
🇺🇸 Englisch
🇨🇳 chinesisch
Ähnliche Modelle
link
jina-embeddings-v2-base-en
link
jina-embeddings-v3
Schlagwörter
text-embedding
chinese
multilingual
base-model
production
long-context
high-dimension
Erhältlich über
Jina-APIAWS SageMakerMicrosoft AzureUmarmendes Gesicht
Wählen Sie Modelle zum Vergleichen aus
Publikationen (1)
arXiv
Februar 26, 2024
Multi-Task Contrastive Learning for 8192-Token Bilingual Text Embeddings

Überblick

Jina Embeddings v2 Base Chinese beschreitet neue Wege als erstes Open-Source-Modell, das sowohl chinesische als auch englische Texte mit einer beispiellosen Kontextlänge von 8.192 Token nahtlos verarbeitet. Dieses zweisprachige Kraftpaket geht auf eine entscheidende Herausforderung im globalen Geschäft ein: die Notwendigkeit einer genauen Verarbeitung von Langformatdokumenten mit chinesischem und englischem Inhalt. Im Gegensatz zu herkömmlichen Modellen, die mit dem sprachenübergreifenden Verständnis zu kämpfen haben oder separate Modelle für jede Sprache erfordern, bildet dieses Modell äquivalente Bedeutungen in beiden Sprachen im selben Einbettungsraum ab, was es für global expandierende oder mehrsprachige Inhalte verwaltende Unternehmen von unschätzbarem Wert macht.

Methoden

Die Architektur des Modells kombiniert ein BERT-basiertes Backbone mit symmetrischem bidirektionalem ALiBi (Attention with Linear Biases) und ermöglicht so die effiziente Verarbeitung langer Sequenzen ohne die traditionelle 512-Token-Beschränkung. Der Trainingsprozess folgt einem sorgfältig orchestrierten dreiphasigen Ansatz: anfängliches Vortraining mit hochwertigen zweisprachigen Daten, gefolgt von primären und sekundären Feinabstimmungsphasen. Diese methodische Trainingsstrategie, gepaart mit den 161 Millionen Parametern und der 768-dimensionalen Ausgabe des Modells, erreicht eine bemerkenswerte Effizienz bei gleichzeitiger Beibehaltung einer ausgewogenen Leistung in beiden Sprachen. Der symmetrische bidirektionale ALiBi-Mechanismus stellt eine bedeutende Innovation dar, die es dem Modell ermöglicht, Dokumente mit einer Länge von bis zu 8.192 Token zu verarbeiten – eine Fähigkeit, die bisher proprietären Lösungen vorbehalten war.

Leistung

In Benchmarks auf der chinesischen MTEB-Bestenliste (C-MTEB) zeigt das Modell eine außergewöhnliche Leistung unter Modellen unter 0,5 GB und schneidet insbesondere bei Aufgaben in chinesischer Sprache hervorragend ab. Es übertrifft OpenAIs text-embedding-ada-002 in chinesischspezifischen Anwendungen deutlich und bleibt bei englischsprachigen Aufgaben konkurrenzfähig. Eine bemerkenswerte Verbesserung in dieser Version ist die verfeinerte Verteilung der Ähnlichkeitswerte, die die in der Vorschauversion vorhandenen Probleme mit der Punkteinflation behebt. Das Modell bietet jetzt eindeutigere und logischere Ähnlichkeitswerte und gewährleistet so eine genauere Darstellung semantischer Beziehungen zwischen Texten. Diese Verbesserung wird insbesondere in Vergleichstests deutlich, in denen das Modell eine bessere Unterscheidung zwischen verwandten und nicht verwandten Inhalten in beiden Sprachen zeigt.

Anleitung

Das Modell erfordert 322 MB Speicherplatz und kann über mehrere Kanäle bereitgestellt werden, darunter AWS SageMaker (Region US-Ost 1) und die Jina AI API. GPU-Beschleunigung ist zwar nicht zwingend erforderlich, kann die Verarbeitungsgeschwindigkeit für Produktionsworkloads jedoch erheblich verbessern. Das Modell eignet sich hervorragend für verschiedene Anwendungen, darunter Dokumentanalyse, mehrsprachige Suche und sprachübergreifende Informationsbeschaffung. Benutzer sollten jedoch beachten, dass es speziell für zweisprachige Szenarien mit Chinesisch und Englisch optimiert ist. Für optimale Ergebnisse sollte der Eingabetext ordnungsgemäß segmentiert werden. Obwohl das Modell bis zu 8.192 Token verarbeiten kann, wird empfohlen, extrem lange Dokumente für eine bessere Leistung in semantisch sinnvolle Abschnitte aufzuteilen. Das Modell ist möglicherweise nicht für Aufgaben geeignet, die eine Echtzeitverarbeitung sehr kurzer Texte erfordern, für die spezialisierte Modelle mit geringerer Latenz möglicherweise besser geeignet sind.
Blogs, die dieses Modell erwähnen
April 29, 2024 • 7 Minuten gelesen
Jina Embeddings und Reranker auf Azure: Skalierbare KI-Lösungen für Unternehmensanwendungen
Jina Embeddings und Reranker sind jetzt im Azure Marketplace verfügbar. Unternehmen, die Datenschutz und Sicherheit priorisieren, können Jina AIs hochmoderne Modelle nun problemlos direkt in ihr bestehendes Azure-Ökosystem integrieren.
Susana Guzmán
Futuristic black background with a purple 3D grid, featuring the "Embeddings" and "Reranker" logos with a stylized "A".
Februar 28, 2024 • 3 Minuten gelesen
Revolutionierung zweisprachiger Text-Embeddings durch kontrastives Multi-Task-Lernen
Unsere neue Forschungsarbeit untersucht, wie unsere Spanisch-Englisch- und Deutsch-Englisch-Modelle mithilfe von Multi-Task Contrastive Learning und einer ausgefeilten Data Pipeline das Sprachverständnis und die sprachübergreifende Effizienz für Texte bis zu 8192 Token beherrschen.
Jina AI
Composite image of four colorful, stylized landmarks: Brandenburg Gate, St. Peter's Basilica, Tiananmen, and Golden Gate Brid
Januar 31, 2024 • 16 Minuten gelesen
Ein tiefer Einblick in die Tokenisierung
Tokenisierung bedeutet bei LLMs, dass Eingabetexte in kleinere Teile für die Verarbeitung zerlegt werden. Warum werden also Embeddings nach Token abgerechnet?
Scott Martens
Colorful speckled grid pattern with a mix of small multicolored dots on a black background, creating a mosaic effect.
Januar 26, 2024 • 13 Minuten gelesen
Jina Embeddings v2 zweisprachige Modelle sind jetzt Open Source auf Hugging Face
Jina AIs Open-Source bilinguale Embedding-Modelle für Deutsch-Englisch und Chinesisch-Englisch sind jetzt auf Hugging Face verfügbar. Wir zeigen die Installation und sprachübergreifende Suche.
Scott Martens
Colorful "EMBEDDINGS" text above a pile of yellow smileys on a black background with decorative lines at the top.
Januar 09, 2024 • 12 Minuten gelesen
8K Token-Lange bilinguale Embeddings durchbrechen Sprachbarrieren zwischen Chinesisch und Englisch
Das erste zweisprachige Chinesisch-Englische Embedding-Modell mit einer Token-Länge von 8192.
Jina AI
Colorful 3D text "OPEN" in green and blue on a black background creating a vibrant effect
Büros
location_on
Sunnyvale, Kalifornien
710 Lakeway Dr, Ste 200, Sunnyvale, CA 94085, USA
location_on
Berlin, Deutschland (Hauptsitz)
Prinzessinnenstraße 19-20, 10969 Berlin, Deutschland
location_on
Peking, China
Ebene 5, Gebäude 6, Nr. 48 Haidian West St. Peking, China
location_on
Shenzhen, China
402 Etage 4, Fu'an Technology Building, Shenzhen, China
Stiftung durchsuchen
Leser
Einbettungen
Reranker
DeepSearch
Klassifikator
Segmentierer
API-Dokumentation
Jina API-Schlüssel abrufen
Ratenbegrenzung
API-Status
Unternehmen
Über uns
Kontaktieren Sie unseren Vertrieb
Pressemitteilungen
Praktikantenprogramm
Begleiten Sie uns
open_in_new
Logo herunterladen
open_in_new
Bedingungen
Sicherheit
Terms & amp; Bedingungen
Privatsphäre
Cookie-Einstellungen
email
Jina AI © 2020-2025.