Pressemitteilungen
Modelle
Produkte
keyboard_arrow_down
Leser
Lesen Sie URLs und suchen Sie im Internet nach fundierteren LLMs.
Einbettungen
Multimodale und mehrsprachige Einbettungen von Weltklasse.
Reranker
Neural Retriever der Weltklasse zur Maximierung der Suchrelevanz.
DeepSearch
Suchen, lesen und überlegen, bis die beste Antwort gefunden ist.
Mehr
keyboard_arrow_down
Klassifikator
Zero-Shot- und Few-Shot-Klassifizierung für Bild und Text.
Segmentierer
Schneiden Sie langen Text in Abschnitte und führen Sie eine Tokenisierung durch.

API-Dokumente
Automatische Codegenerierung für Ihre Copilot-IDE oder LLM
open_in_new


Unternehmen
keyboard_arrow_down
Über uns
Kontaktieren Sie unseren Vertrieb
Praktikantenprogramm
Begleiten Sie uns
open_in_new
Logo herunterladen
open_in_new
Terms & amp; Bedingungen


Einloggen
login
copyright

jina-colbert-v2

Der beste mehrsprachige ColBERT mit Top-Leistung beim Einbetten und Neuranking
Beitrag veröffentlichenarrow_forward
Lizenz
copyright
CC-BY-NC-4.0
Veröffentlichungsdatum
calendar_month
2024-08-31
Eingang
abc
Text
arrow_forward
Ausgabe
apps
Multi-Vektor
Modelldetails
Parameter: 560M
Länge des Eingabetokens: 8K
Ausgabedimension: 128
Sprachunterstützung
🌍 Mehrsprachiger Support
Ähnliche Modelle
link
jina-colbert-v1-en
Schlagwörter
multilingual
late-interaction
long-context
high-performance
production-ready
retriever
token-level
89-languages
cross-lingual
matryoshka
storage-efficient
Erhältlich über
Jina-APIKommerzielle LizenzAWS SageMakerMicrosoft AzureGoogle CloudUmarmendes Gesicht
E/A-Diagramm 1
E/A-Diagramm 2
Wählen Sie Modelle zum Vergleichen aus
Publikationen (1)
EMNLP 2024
August 30, 2024
Jina-ColBERT-v2: A General-Purpose Multilingual Late Interaction Retriever

Überblick

Jina-ColBERT-v2 ist ein bahnbrechendes mehrsprachiges Informationsabrufmodell, das die kritische Herausforderung einer effizienten, qualitativ hochwertigen Suche in mehreren Sprachen löst. Als erstes mehrsprachiges ColBERT-ähnliches Modell, das kompakte Einbettungen generiert, geht es auf den wachsenden Bedarf an skalierbaren, kostengünstigen mehrsprachigen Suchlösungen in globalen Anwendungen ein. Organisationen, die mit mehrsprachigen Inhalten arbeiten, von E-Commerce-Plattformen bis hin zu Content-Management-Systemen, können dieses Modell nutzen, um genaue Suchergebnisse in 89 Sprachen bereitzustellen und gleichzeitig durch seine innovativen Dimensionsreduzierungsfunktionen die Speicher- und Rechenkosten erheblich zu senken.

Methoden

Das Modell baut auf der ColBERT-Architektur auf und führt einen ausgeklügelten Mechanismus für späte Interaktion ein, der die Art und Weise, wie Abfragen und Dokumente abgeglichen werden, grundlegend verändert. Im Kern verwendet es ein modifiziertes XLM-RoBERTa-Backbone mit 560 Millionen Parametern, das durch rotierende Positionseinbettungen erweitert und mit Flash Attention optimiert wird. Der Trainingsprozess umfasst zwei wichtige Phasen: anfängliches Vortraining mit unterschiedlichen, schwach überwachten Daten aus verschiedenen Sprachen, gefolgt von Feinabstimmung mit gekennzeichneten Triplettdaten und überwachter Destillation. Was diesen Ansatz einzigartig macht, ist die Implementierung des Matryoshka-Darstellungslernens, das es dem Modell ermöglicht, Einbettungen in mehreren Dimensionen (128, 96 oder 64) aus einem einzigen Trainingsprozess zu erstellen, was eine dynamische Speicheroptimierung ohne erneutes Training ermöglicht.

Leistung

In Tests unter realen Bedingungen zeigt Jina-ColBERT-v2 außergewöhnliche Fähigkeiten in mehreren Benchmarks. Es erreicht eine Verbesserung von 6,5 % gegenüber dem ursprünglichen ColBERT-v2 bei englischen Aufgaben mit einem Durchschnittswert von 0,521 in 14 BEIR-Benchmarks. Noch beeindruckender ist, dass es traditionelle, auf BM25 basierende Abrufmethoden in allen getesteten Sprachen in MIRACL-Benchmarks übertrifft und insbesondere in sprachübergreifenden Szenarien seine Stärken zeigt. Das Modell behält diese hohe Leistung auch bei Verwendung reduzierter Einbettungsdimensionen bei – die Reduzierung von 128 auf 64 Dimensionen führt nur zu einem Leistungsrückgang von 1,5 % bei halbiertem Speicherbedarf. Dies führt zu erheblichen Kosteneinsparungen in der Produktion: Beispielsweise kostet die Speicherung von 100 Millionen Dokumenten mit 64-dimensionalen Vektoren 659,62 USD pro Monat auf AWS, verglichen mit 1.319,24 USD für 128 Dimensionen.

Anleitung

Um Jina-ColBERT-v2 effektiv einzusetzen, sollten Teams mehrere praktische Aspekte berücksichtigen. Das Modell erfordert CUDA-fähige Hardware für optimale Leistung und unterstützt Dokumentlängen von bis zu 8.192 Token (erweiterbar auf 12.288), wobei Abfragen auf 32 Token begrenzt sind. Für den Produktionseinsatz ist das Modell über die Jina Search Foundation API, den AWS-Marktplatz und Azure verfügbar, wobei eine nicht kommerzielle Version über Hugging Face zugänglich ist. Bei der Implementierung sollten Teams angeben, ob sie Abfragen oder Dokumente einbetten, da das Modell asymmetrische Kodierung verwendet. Das Modell ist nicht für die Echtzeitverarbeitung extrem großer Dokumentsammlungen ohne ordnungsgemäße Indizierung ausgelegt, und obwohl es sich beim mehrsprachigen Abrufen auszeichnet, kann es bei spezialisierten domänenspezifischen Aufgaben eine etwas geringere Leistung aufweisen als Modelle, die für diese spezifischen Domänen optimiert sind.
Blogs, die dieses Modell erwähnen
Dezember 16, 2024 • 2 Minuten gelesen
Re·Search: Jahrbuch 2024 zu Fortschritten in der Search Foundation
Entdecken Sie Re·Search, unser hochwertiges Jahrbuch, das unsere besten Forschungsartikel und Search Foundation Models 2024 präsentiert. Mit UV-beschichtetem Hardcover, 160 Seiten in Vollfarbe und sorgfältiger Gestaltung bis ins Detail. Weltweit erhältlich für $35, inklusive Versand.
Jina AI
Open red publication "ReSearch" volume 24 displayed on a white surface with a distinctive shadow casting over the pages.
Oktober 29, 2024 • 11 Minuten gelesen
Jenseits von CLIP: Wie Jina-CLIP die multimodale Suche voranbringt
Erfahren Sie, wie Jina-CLIP die CLIP-Technologie von OpenAI durch einheitliche Text-Bild-Embeddings verbessert und dabei eine höhere Abrufgenauigkeit und vielfältigere Ergebnisse erzielt.
Bo Wang
Alex C-G
Abstract digital landscape with wave-like green and pink dunes against a dark background, conveying a tranquil atmosphere.
August 30, 2024 • 10 Minuten gelesen
Jina ColBERT v2: Mehrsprachiger Late-Interaction-Retriever für Embedding und Reranking
Jina ColBERT v2 unterstützt 89 Sprachen mit überlegener Retrievalleistung, benutzerdefinierten Ausgabedimensionen und einer Token-Länge von 8192.
Jina AI
Dark-themed coding interface displaying English and Japanese characters with "JINA COLBERT V2" highlighted in the center.
Februar 20, 2024 • 16 Minuten gelesen
Was ist ColBERT und Late Interaction und warum sind sie wichtig für die Suche?
Jina AIs ColBERT auf Hugging Face sorgt auf Twitter für Aufsehen und bringt mit seiner 8192-Token-Fähigkeit eine neue Perspektive in die Suche. Dieser Artikel erklärt die Feinheiten von ColBERT und ColBERTv2, zeigt ihre innovativen Designs und erläutert, warum ihre Late-Interaction-Funktion die Suche revolutioniert.
Han Xiao
Neon theater or concert hall marquee letters lit up at night with city lights and faint "Adobe Sto" visible.
Büros
location_on
Sunnyvale, Kalifornien
710 Lakeway Dr, Ste 200, Sunnyvale, CA 94085, USA
location_on
Berlin, Deutschland (Hauptsitz)
Prinzessinnenstraße 19-20, 10969 Berlin, Deutschland
location_on
Peking, China
Ebene 5, Gebäude 6, Nr. 48 Haidian West St. Peking, China
location_on
Shenzhen, China
402 Etage 4, Fu'an Technology Building, Shenzhen, China
Stiftung durchsuchen
Leser
Einbettungen
Reranker
DeepSearch
Klassifikator
Segmentierer
API-Dokumentation
Jina API-Schlüssel abrufen
Ratenbegrenzung
API-Status
Unternehmen
Über uns
Kontaktieren Sie unseren Vertrieb
Pressemitteilungen
Praktikantenprogramm
Begleiten Sie uns
open_in_new
Logo herunterladen
open_in_new
Bedingungen
Sicherheit
Terms & amp; Bedingungen
Privatsphäre
Cookie-Einstellungen
email
Jina AI © 2020-2025.