Pressemitteilungen
Modelle
Produkte
keyboard_arrow_down
DeepSearch
Suchen, lesen und überlegen, bis die beste Antwort gefunden ist.
Leser
Lesen Sie URLs und suchen Sie im Internet nach fundierteren LLMs.
Einbettungen
Multimodale und mehrsprachige Einbettungen von Weltklasse.
Reranker
Neural Retriever der Weltklasse zur Maximierung der Suchrelevanz.
Mehr
keyboard_arrow_down
Klassifikator
Zero-Shot- und Few-Shot-Klassifizierung für Bild und Text.
Segmentierer
Schneiden Sie langen Text in Abschnitte und führen Sie eine Tokenisierung durch.

API-Dokumente
Automatische Codegenerierung für Ihre Copilot-IDE oder LLM
open_in_new


Unternehmen
keyboard_arrow_down
Über uns
Kontaktieren Sie unseren Vertrieb
Praktikantenprogramm
Begleiten Sie uns
open_in_new
Logo herunterladen
open_in_new
Terms & amp; Bedingungen


Einloggen
login
warning
Dieses Modell wird durch neuere Modelle ersetzt.

jina-embeddings-v2-base-de

Zweisprachige Einbettungen Deutsch-Englisch mit SOTA-Leistung
Beitrag veröffentlichenarrow_forward
Lizenz
license
Apache-2.0
Veröffentlichungsdatum
calendar_month
2024-01-15
Eingang
abc
Text
arrow_forward
Ausgabe
more_horiz
Vektor
Modelldetails
Parameter: 161M
Länge des Eingabetokens: 8K
Ausgabedimension: 768
Sprachunterstützung
🇺🇸 Englisch
🇩🇪 Deutsch
Ähnliche Modelle
link
jina-embeddings-v2-base-en
Schlagwörter
german-language
text-embedding
monolingual
large-context
production
semantic-search
document-retrieval
fine-tunable
Erhältlich über
Jina-APIAWS SageMakerMicrosoft AzureUmarmendes Gesicht
Wählen Sie Modelle zum Vergleichen aus
Publikationen (1)
arXiv
Februar 26, 2024
Multi-Task Contrastive Learning for 8192-Token Bilingual Text Embeddings

Überblick

Jina Embeddings v2 Base German befasst sich mit einer kritischen Herausforderung im internationalen Geschäft: der Überbrückung der Sprachbarriere zwischen dem deutschen und dem englischen Markt. Für deutsche Unternehmen, die in englischsprachige Gebiete expandieren, wo ein Drittel der Unternehmen über 20 % ihres weltweiten Umsatzes erwirtschaftet, ist ein genaues zweisprachiges Verständnis unerlässlich. Dieses Modell verändert die Art und Weise, wie Unternehmen mit sprachenübergreifenden Inhalten umgehen, indem es nahtloses Textverständnis und -abrufen sowohl auf Deutsch als auch auf Englisch ermöglicht. Damit ist es von unschätzbarem Wert für Unternehmen, die internationale Dokumentationssysteme, Kundensupportplattformen oder Content-Management-Lösungen implementieren. Im Gegensatz zu herkömmlichen übersetzungsbasierten Ansätzen ordnet dieses Modell äquivalente Bedeutungen in beiden Sprachen direkt demselben Einbettungsraum zu und ermöglicht so genauere und effizientere zweisprachige Abläufe.

Methoden

Das Modell erreicht seine beeindruckenden zweisprachigen Fähigkeiten durch eine innovative Architektur, die sowohl deutsche als auch englische Texte in einem einheitlichen 768-dimensionalen Einbettungsraum verarbeitet. Im Kern verwendet es ein transformatorbasiertes neuronales Netzwerk mit 161 Millionen Parametern, das sorgfältig darauf trainiert wurde, semantische Beziehungen zwischen beiden Sprachen zu verstehen. Was diese Architektur besonders effektiv macht, ist ihr Ansatz zur Minimierung von Verzerrungen, der speziell darauf ausgelegt ist, die häufige Falle der Bevorzugung englischer Grammatikstrukturen zu vermeiden - ein Problem, das in jüngsten Untersuchungen mit mehrsprachigen Modellen festgestellt wurde. Das erweiterte Kontextfenster des Modells mit 8.192 Token ermöglicht es ihm, ganze Dokumente oder mehrere Textseiten in einem einzigen Durchgang zu verarbeiten und dabei die semantische Kohärenz über lange Inhalte in beiden Sprachen hinweg aufrechtzuerhalten.

Leistung

In Tests unter realen Bedingungen zeigt Jina Embeddings v2 Base German außergewöhnliche Effizienz und Genauigkeit, insbesondere bei sprachübergreifenden Abfrageaufgaben. Das Modell übertrifft Microsofts E5-Basismodell, obwohl es weniger als ein Drittel so groß ist, und erreicht die Leistung von E5 Large, obwohl es siebenmal kleiner ist. In wichtigen Benchmarks, darunter WikiCLIR für die Abfrage von Englisch nach Deutsch, STS17 und STS22 für bidirektionales Sprachverständnis und BUCC für präzise zweisprachige Textausrichtung, zeigt das Modell durchweg überlegene Fähigkeiten. Seine kompakte Größe von 322 MB ermöglicht die Bereitstellung auf Standardhardware bei gleichzeitiger Beibehaltung modernster Leistung, was es besonders effizient für Produktionsumgebungen macht, in denen Rechenressourcen eine Rolle spielen.

Anleitung

Um Jina Embeddings v2 Base German effektiv einzusetzen, sollten Organisationen mehrere praktische Aspekte berücksichtigen. Das Modell lässt sich nahtlos in beliebte Vektordatenbanken wie MongoDB, Qdrant und Weaviate integrieren, sodass sich skalierbare zweisprachige Suchsysteme problemlos erstellen lassen. Für eine optimale Leistung implementieren Sie eine geeignete Textvorverarbeitung, um das Limit von 8.192 Token effektiv zu handhaben – dies reicht normalerweise für etwa 15 bis 20 Textseiten. Obwohl das Modell sowohl bei deutschen als auch bei englischen Inhalten hervorragend funktioniert, ist es besonders effektiv bei sprachübergreifenden Abrufaufgaben, bei denen Abfrage- und Dokumentsprachen unterschiedlich sein können. Organisationen sollten die Implementierung von Caching-Strategien für häufig aufgerufene Inhalte in Betracht ziehen und die Stapelverarbeitung für die Indexierung von Dokumenten im großen Maßstab verwenden. Die AWS SageMaker-Integration des Modells bietet einen zuverlässigen Weg zur Produktionsbereitstellung, obwohl Teams die Token-Nutzung überwachen und eine entsprechende Ratenbegrenzung für Anwendungen mit hohem Datenverkehr implementieren sollten. Wenn Sie das Modell für RAG-Anwendungen verwenden, sollten Sie die Implementierung einer Spracherkennung in Betracht ziehen, um die Eingabeaufforderungserstellung basierend auf der Eingabesprache zu optimieren.
Blogs, die dieses Modell erwähnen
September 27, 2024 • 15 Minuten gelesen
Migration von Jina Embeddings v2 zu v3
Wir haben einige Tipps zusammengestellt, die Ihnen bei der Migration von Jina Embeddings v2 auf v3 helfen.
Alex C-G
Scott Martens
A digital upgrade theme with "V3" and a white "2", set against a green and black binary code background, with "Upgrade" centr
Mai 15, 2024 • 11 Minuten gelesen
Binäre Embeddings: Die komplette KI mit nur 3,125% des Speicherbedarfs
32-Bit sind sehr viel Präzision für etwas so Robustes und Ungenaues wie ein KI-Modell. Also haben wir 31 davon weggelassen! Binäre Embeddings sind kleiner, schneller und äußerst leistungsfähig.
Sofia Vasileva
Scott Martens
Futuristic digital 3D model of a coffee grinder with blue neon lights on a black background, featuring numerical data.
April 29, 2024 • 7 Minuten gelesen
Jina Embeddings und Reranker auf Azure: Skalierbare KI-Lösungen für Unternehmensanwendungen
Jina Embeddings und Reranker sind jetzt im Azure Marketplace verfügbar. Unternehmen, die Datenschutz und Sicherheit priorisieren, können Jina AIs hochmoderne Modelle nun problemlos direkt in ihr bestehendes Azure-Ökosystem integrieren.
Susana Guzmán
Futuristic black background with a purple 3D grid, featuring the "Embeddings" and "Reranker" logos with a stylized "A".
Januar 31, 2024 • 16 Minuten gelesen
Ein tiefer Einblick in die Tokenisierung
Tokenisierung bedeutet bei LLMs, dass Eingabetexte in kleinere Teile für die Verarbeitung zerlegt werden. Warum werden also Embeddings nach Token abgerechnet?
Scott Martens
Colorful speckled grid pattern with a mix of small multicolored dots on a black background, creating a mosaic effect.
Januar 26, 2024 • 13 Minuten gelesen
Jina Embeddings v2 zweisprachige Modelle sind jetzt Open Source auf Hugging Face
Jina AIs Open-Source bilinguale Embedding-Modelle für Deutsch-Englisch und Chinesisch-Englisch sind jetzt auf Hugging Face verfügbar. Wir zeigen die Installation und sprachübergreifende Suche.
Scott Martens
Colorful "EMBEDDINGS" text above a pile of yellow smileys on a black background with decorative lines at the top.
Büros
location_on
Sunnyvale, Kalifornien
710 Lakeway Dr, Ste 200, Sunnyvale, CA 94085, USA
location_on
Berlin, Deutschland (Hauptsitz)
Prinzessinnenstraße 19-20, 10969 Berlin, Deutschland
location_on
Peking, China
Ebene 5, Gebäude 6, Nr. 48 Haidian West St. Peking, China
location_on
Shenzhen, China
402 Etage 4, Fu'an Technology Building, Shenzhen, China
Stiftung durchsuchen
DeepSearch
Leser
Einbettungen
Reranker
Klassifikator
Segmentierer
API-Dokumentation
Jina API-Schlüssel abrufen
Ratenbegrenzung
API-Status
Unternehmen
Über uns
Kontaktieren Sie unseren Vertrieb
Pressemitteilungen
Praktikantenprogramm
Begleiten Sie uns
open_in_new
Logo herunterladen
open_in_new
Bedingungen
Sicherheit
Terms & amp; Bedingungen
Privatsphäre
Cookie-Einstellungen
email
Jina AI © 2020-2025.