Pressemitteilungen
Modelle
Produkte
keyboard_arrow_down
Leser
Lesen Sie URLs und suchen Sie im Internet nach fundierteren LLMs.
Einbettungen
Multimodale und mehrsprachige Einbettungen von Weltklasse.
Reranker
Neural Retriever der Weltklasse zur Maximierung der Suchrelevanz.
DeepSearch
Suchen, lesen und überlegen, bis die beste Antwort gefunden ist.
Mehr
keyboard_arrow_down
Klassifikator
Zero-Shot- und Few-Shot-Klassifizierung für Bild und Text.
Segmentierer
Schneiden Sie langen Text in Abschnitte und führen Sie eine Tokenisierung durch.

API-Dokumente
Automatische Codegenerierung für Ihre Copilot-IDE oder LLM
open_in_new


Unternehmen
keyboard_arrow_down
Über uns
Kontaktieren Sie unseren Vertrieb
Praktikantenprogramm
Begleiten Sie uns
open_in_new
Logo herunterladen
open_in_new
Terms & amp; Bedingungen


Einloggen
login
warning
Dieses Modell wird durch neuere Modelle ersetzt.

jina-reranker-v1-turbo-en

Die beste Kombination aus schneller Inferenzgeschwindigkeit und präzisen Relevanzwerten
Beitrag veröffentlichenarrow_forward
Lizenz
license
Apache-2.0
Veröffentlichungsdatum
calendar_month
2024-04-18
Eingang
abc
Text (Abfrage)
abc
Text (Dokument)
arrow_forward
Ausgabe
format_list_numbered
Ranglisten
Modelldetails
Parameter: 37.8M
Länge des Eingabetokens: 8K
Sprachunterstützung
🇺🇸 Englisch
Ähnliche Modelle
link
jina-reranker-v1-base-en
link
jina-reranker-v1-tiny-en
Schlagwörter
high-speed
memory-efficient
english
production-ready
reranker
rag-optimized
high-performance
cost-effective
Erhältlich über
Jina-APIAWS SageMakerMicrosoft AzureUmarmendes Gesicht
Wählen Sie Modelle zum Vergleichen aus

Überblick

Jina Reranker v1 Turbo English befasst sich mit einer kritischen Herausforderung in Produktionssuchsystemen: dem Kompromiss zwischen Ergebnisqualität und Rechenleistung. Während herkömmliche Reranker eine verbesserte Suchgenauigkeit bieten, sind sie aufgrund ihrer Rechenleistungsanforderungen für Echtzeitanwendungen oft unpraktisch. Dieses Modell durchbricht diese Barriere, indem es 95 % der Genauigkeit des Basismodells liefert, Dokumente dabei dreimal schneller verarbeitet und 75 % weniger Speicher verbraucht. Für Organisationen, die mit Suchlatenz oder Rechenkosten zu kämpfen haben, bietet dieses Modell eine überzeugende Lösung, die eine qualitativ hochwertige Suchverfeinerung beibehält und gleichzeitig die Infrastrukturanforderungen und Betriebskosten erheblich reduziert.

Methoden

Das Modell erreicht seine Effizienz durch eine innovative sechsschichtige Architektur, die die anspruchsvollen Reranking-Fähigkeiten seines größeren Gegenstücks auf nur 37,8 Millionen Parameter komprimiert – eine drastische Reduzierung gegenüber den 137 Millionen des Basismodells. Dieses optimierte Design verwendet Wissensdestillation, wobei das größere Basismodell als Lehrer fungiert und die Turbovariante trainiert, um sein Verhalten anzupassen und dabei weniger Ressourcen zu verwenden. Die Architektur behält den zentralen BERT-basierten Cross-Attention-Mechanismus für Interaktionen auf Token-Ebene zwischen Abfragen und Dokumenten bei, optimiert ihn jedoch auf Geschwindigkeit durch eine reduzierte Schichtanzahl und eine effiziente Parameterzuweisung. Das Modell unterstützt Sequenzen mit bis zu 8.192 Token und ermöglicht so eine umfassende Dokumentenanalyse bei gleichzeitiger Beibehaltung schneller Inferenzgeschwindigkeiten durch anspruchsvolle Optimierungstechniken.

Leistung

In umfassenden Benchmarks zeigt die Turbo-Variante eine bemerkenswerte Effizienz ohne nennenswerte Kompromisse bei der Genauigkeit. Im BEIR-Benchmark erreicht sie einen NDCC-10-Score von 49,60, wobei 95 % der Leistung des Basismodells (52,45) erhalten bleiben und viele größere Konkurrenten wie bge-reranker-base (47,89, 278 Mio. Parameter) übertroffen werden. In RAG-Anwendungen behält sie eine beeindruckende Trefferquote von 83,51 % und 0,6498 MRR bei und zeigt damit besondere Stärken bei praktischen Abrufaufgaben. Die Geschwindigkeitsverbesserungen des Modells sind noch bemerkenswerter – es verarbeitet Dokumente dreimal schneller als das Basismodell, wobei der Durchsatz bei reduzierter Parameteranzahl nahezu linear skaliert. Benutzer sollten jedoch eine etwas geringere Leistung bei extrem nuancierten Ranking-Aufgaben beachten, bei denen die volle Parameteranzahl größerer Modelle marginale Vorteile bietet.

Anleitung

Das Modell erfordert CUDA-fähige Hardware für optimale Leistung und kann über AWS SageMaker bereitgestellt oder über API-Endpunkte aufgerufen werden. Für Produktionsbereitstellungen sollten Unternehmen eine zweistufige Pipeline implementieren, bei der die Vektorsuche erste Kandidaten für die Neubewertung bereitstellt. Obwohl das Modell 8.192 Token unterstützt, sollten Benutzer die Latenzauswirkungen längerer Sequenzen berücksichtigen – die Verarbeitungszeit steigt mit der Dokumentlänge. Der Sweet Spot für die meisten Anwendungen liegt bei der Neubewertung von 100–200 Kandidaten pro Abfrage, was Qualität und Geschwindigkeit ausbalanciert. Das Modell ist speziell für englische Inhalte optimiert und funktioniert bei mehrsprachigen Dokumenten möglicherweise nicht optimal. Die Speicheranforderungen sind deutlich niedriger als beim Basismodell und erfordern normalerweise nur 150 MB GPU-Speicher im Vergleich zu 550 MB. Dadurch eignet es sich für die Bereitstellung auf kleineren Instanzen und ermöglicht erhebliche Kosteneinsparungen in Cloud-Umgebungen.
Blogs, die dieses Modell erwähnen
April 18, 2024 • 7 Minuten gelesen
Kleiner, Schneller, Günstiger: Die Vorstellung von Jina Rerankers Turbo und Tiny
Jina AI kündigt neue Reranker-Modelle an: Jina Rerankers Turbo (jina-reranker-v1-turbo-en) und Tiny (jina-reranker-v1-tiny-en), die jetzt auf AWS Sagemaker und Hugging Face verfügbar sind und ein schnelleres, speichereffizientes und leistungsstarkes Reranking ermöglichen.
Yuting Zhang
Scott Martens
Four interconnected white wireframe spheres on a deep blue background, symbolizing global networking and technological connec
Mai 07, 2024 • 12 Minuten gelesen
Wenn KI KI erschafft: Synthetische Daten, Model Distillation und Model Collapse
KI erschafft KI! Ist es das Ende der Welt? Oder nur ein weiteres Werkzeug, mit dem Modelle wertschöpfende Arbeit leisten können? Finden wir es heraus!
Scott Martens
Abstract depiction of a brain in purple and pink hues with a fluid, futuristic design against a blue and purple background.
April 29, 2024 • 7 Minuten gelesen
Jina Embeddings und Reranker auf Azure: Skalierbare KI-Lösungen für Unternehmensanwendungen
Jina Embeddings und Reranker sind jetzt im Azure Marketplace verfügbar. Unternehmen, die Datenschutz und Sicherheit priorisieren, können Jina AIs hochmoderne Modelle nun problemlos direkt in ihr bestehendes Azure-Ökosystem integrieren.
Susana Guzmán
Futuristic black background with a purple 3D grid, featuring the "Embeddings" and "Reranker" logos with a stylized "A".
Büros
location_on
Sunnyvale, Kalifornien
710 Lakeway Dr, Ste 200, Sunnyvale, CA 94085, USA
location_on
Berlin, Deutschland (Hauptsitz)
Prinzessinnenstraße 19-20, 10969 Berlin, Deutschland
location_on
Peking, China
Ebene 5, Gebäude 6, Nr. 48 Haidian West St. Peking, China
location_on
Shenzhen, China
402 Etage 4, Fu'an Technology Building, Shenzhen, China
Stiftung durchsuchen
Leser
Einbettungen
Reranker
DeepSearch
Klassifikator
Segmentierer
API-Dokumentation
Jina API-Schlüssel abrufen
Ratenbegrenzung
API-Status
Unternehmen
Über uns
Kontaktieren Sie unseren Vertrieb
Pressemitteilungen
Praktikantenprogramm
Begleiten Sie uns
open_in_new
Logo herunterladen
open_in_new
Bedingungen
Sicherheit
Terms & amp; Bedingungen
Privatsphäre
Cookie-Einstellungen
email
Jina AI © 2020-2025.