Pressemitteilungen
Modelle
Produkte
keyboard_arrow_down
Leser
Lesen Sie URLs und suchen Sie im Internet nach fundierteren LLMs.
Einbettungen
Multimodale und mehrsprachige Einbettungen von Weltklasse.
Reranker
Neural Retriever der Weltklasse zur Maximierung der Suchrelevanz.
DeepSearch
Suchen, lesen und überlegen, bis die beste Antwort gefunden ist.
Mehr
keyboard_arrow_down
Klassifikator
Zero-Shot- und Few-Shot-Klassifizierung für Bild und Text.
Segmentierer
Schneiden Sie langen Text in Abschnitte und führen Sie eine Tokenisierung durch.

API-Dokumente
Automatische Codegenerierung für Ihre Copilot-IDE oder LLM
open_in_new


Unternehmen
keyboard_arrow_down
Über uns
Kontaktieren Sie unseren Vertrieb
Praktikantenprogramm
Begleiten Sie uns
open_in_new
Logo herunterladen
open_in_new
Terms & amp; Bedingungen


Einloggen
login
warning
Dieses Modell wird durch neuere Modelle ersetzt.

jina-embeddings-v2-base-es

Zweisprachige Einbettungen Spanisch-Englisch mit SOTA-Leistung
Beitrag veröffentlichenarrow_forward
Lizenz
license
Apache-2.0
Veröffentlichungsdatum
calendar_month
2024-02-14
Eingang
abc
Text
arrow_forward
Ausgabe
more_horiz
Vektor
Modelldetails
Parameter: 161M
Länge des Eingabetokens: 8K
Ausgabedimension: 768
Sprachunterstützung
🇺🇸 Englisch
🇪🇸 Español
Ähnliche Modelle
link
jina-embeddings-v2-base-en
link
jina-embeddings-v2-base-de
link
jina-embeddings-v2-base-zh
Schlagwörter
spanish
bilingual
long-context
8k-context
bert-based
production-ready
semantic-search
cross-lingual
text-embeddings
fine-tunable
Erhältlich über
Jina-APIAWS SageMakerMicrosoft AzureUmarmendes Gesicht
Wählen Sie Modelle zum Vergleichen aus
Publikationen (1)
arXiv
Februar 26, 2024
Multi-Task Contrastive Learning for 8192-Token Bilingual Text Embeddings

Überblick

Jina Embeddings v2 Base Spanish ist ein bahnbrechendes zweisprachiges Texteinbettungsmodell, das sich der kritischen Herausforderung der sprachübergreifenden Informationsbeschaffung und -analyse von spanischen und englischen Inhalten stellt. Im Gegensatz zu herkömmlichen mehrsprachigen Modellen, die häufig eine Voreingenommenheit gegenüber bestimmten Sprachen zeigen, liefert dieses Modell eine wirklich ausgewogene Leistung sowohl auf Spanisch als auch auf Englisch und ist daher unverzichtbar für Organisationen, die in spanischsprachigen Märkten tätig sind oder zweisprachige Inhalte verarbeiten. Das bemerkenswerteste Merkmal des Modells ist seine Fähigkeit, geometrisch ausgerichtete Einbettungen zu generieren – wenn Texte auf Spanisch und Englisch dieselbe Bedeutung ausdrücken, gruppieren sich ihre Vektordarstellungen auf natürliche Weise im Einbettungsraum und ermöglichen so eine nahtlose sprachübergreifende Suche und Analyse.

Methoden

Das Herzstück dieses Modells ist eine innovative Architektur, die auf symmetrischem bidirektionalem ALiBi (Attention with Linear Biases) basiert, einem ausgeklügelten Ansatz, der die Verarbeitung von Sequenzen mit bis zu 8.192 Token ohne traditionelle Positionseinbettungen ermöglicht. Das Modell verwendet eine modifizierte BERT-Architektur mit 161 Millionen Parametern, die Gated Linear Units (GLU) und spezielle Layer-Normalisierungstechniken enthält. Das Training erfolgt in einem dreistufigen Prozess: anfängliches Vortraining anhand eines riesigen Textkorpus, gefolgt von Feinabstimmung mit sorgfältig kuratierten Textpaaren und schließlich hartes Negativtraining zur Verbesserung der Unterscheidung zwischen ähnlichen, aber semantisch unterschiedlichen Inhalten. Dieser Ansatz, kombiniert mit 768-dimensionalen Einbettungen, ermöglicht es dem Modell, nuancierte semantische Beziehungen zu erfassen und gleichzeitig die Rechenleistung aufrechtzuerhalten.

Leistung

In umfassenden Benchmark-Bewertungen zeigt das Modell außergewöhnliche Fähigkeiten, insbesondere bei sprachübergreifenden Abrufaufgaben, bei denen es deutlich größere mehrsprachige Modelle wie E5 und BGE-M3 übertrifft, obwohl es nur 15-30 % deren Größe hat. Das Modell erzielt eine überlegene Leistung bei Abruf- und Clustering-Aufgaben und zeigt besondere Stärken beim Abgleichen semantisch äquivalenter Inhalte über Sprachen hinweg. Beim Test mit dem MTEB-Benchmark zeigt es eine robuste Leistung bei verschiedenen Aufgaben, darunter Klassifizierung, Clustering und semantische Ähnlichkeit. Das erweiterte Kontextfenster von 8.192 Tokens erweist sich als besonders wertvoll für die Verarbeitung langer Dokumente und zeigt eine konsistente Leistung selbst bei Dokumenten, die sich über mehrere Seiten erstrecken – eine Fähigkeit, die den meisten Konkurrenzmodellen fehlt.

Anleitung

Um dieses Modell effektiv zu nutzen, sollten Organisationen für optimale Leistung Zugriff auf eine CUDA-fähige GPU-Infrastruktur sicherstellen. Das Modell lässt sich nahtlos in die wichtigsten Vektordatenbanken und RAG-Frameworks wie MongoDB, Qdrant, Weaviate und Haystack integrieren und ist somit problemlos in Produktionsumgebungen einsetzbar. Es eignet sich hervorragend für Anwendungen wie die zweisprachige Dokumentensuche, Inhaltsempfehlungssysteme und die sprachenübergreifende Dokumentenanalyse. Obwohl das Modell eine beeindruckende Vielseitigkeit aufweist, ist es insbesondere für zweisprachige Szenarien in Spanisch und Englisch optimiert und möglicherweise nicht die beste Wahl für einsprachige Anwendungen oder Szenarien mit anderen Sprachpaaren. Für optimale Ergebnisse sollten Eingabetexte entweder in Spanisch oder Englisch richtig formatiert sein, obwohl das Modell gemischtsprachige Inhalte effektiv verarbeitet. Das Modell unterstützt die Feinabstimmung für domänenspezifische Anwendungen, dies sollte jedoch unter sorgfältiger Berücksichtigung der Qualität und Verteilung der Trainingsdaten angegangen werden.
Blogs, die dieses Modell erwähnen
April 29, 2024 • 7 Minuten gelesen
Jina Embeddings und Reranker auf Azure: Skalierbare KI-Lösungen für Unternehmensanwendungen
Jina Embeddings und Reranker sind jetzt im Azure Marketplace verfügbar. Unternehmen, die Datenschutz und Sicherheit priorisieren, können Jina AIs hochmoderne Modelle nun problemlos direkt in ihr bestehendes Azure-Ökosystem integrieren.
Susana Guzmán
Futuristic black background with a purple 3D grid, featuring the "Embeddings" and "Reranker" logos with a stylized "A".
Februar 14, 2024 • 4 Minuten gelesen
Aquí Se Habla Español: Hochwertige Spanisch-Englische Embeddings und 8k Kontext
Das neue zweisprachige Spanisch-Englisch-Embedding-Modell von Jina AI bringt modernste KI-Technologie zu einer halben Milliarde spanischsprachiger Menschen.
Jina AI
Digital wireframe rendering of a Gothic-style cathedral, with colorful outlines and pointed spires on a dark background.
Büros
location_on
Sunnyvale, Kalifornien
710 Lakeway Dr, Ste 200, Sunnyvale, CA 94085, USA
location_on
Berlin, Deutschland (Hauptsitz)
Prinzessinnenstraße 19-20, 10969 Berlin, Deutschland
location_on
Peking, China
Ebene 5, Gebäude 6, Nr. 48 Haidian West St. Peking, China
location_on
Shenzhen, China
402 Etage 4, Fu'an Technology Building, Shenzhen, China
Stiftung durchsuchen
Leser
Einbettungen
Reranker
DeepSearch
Klassifikator
Segmentierer
API-Dokumentation
Jina API-Schlüssel abrufen
Ratenbegrenzung
API-Status
Unternehmen
Über uns
Kontaktieren Sie unseren Vertrieb
Pressemitteilungen
Praktikantenprogramm
Begleiten Sie uns
open_in_new
Logo herunterladen
open_in_new
Bedingungen
Sicherheit
Terms & amp; Bedingungen
Privatsphäre
Cookie-Einstellungen
email
Jina AI © 2020-2025.