Pressemitteilungen
Modelle
Produkte
keyboard_arrow_down
Leser
Lesen Sie URLs und suchen Sie im Internet nach fundierteren LLMs.
Einbettungen
Multimodale und mehrsprachige Einbettungen von Weltklasse.
Reranker
Neural Retriever der Weltklasse zur Maximierung der Suchrelevanz.
DeepSearch
Suchen, lesen und überlegen, bis die beste Antwort gefunden ist.
Mehr
keyboard_arrow_down
Klassifikator
Zero-Shot- und Few-Shot-Klassifizierung für Bild und Text.
Segmentierer
Schneiden Sie langen Text in Abschnitte und führen Sie eine Tokenisierung durch.

API-Dokumente
Automatische Codegenerierung für Ihre Copilot-IDE oder LLM
open_in_new


Unternehmen
keyboard_arrow_down
Über uns
Kontaktieren Sie unseren Vertrieb
Praktikantenprogramm
Begleiten Sie uns
open_in_new
Logo herunterladen
open_in_new
Terms & amp; Bedingungen


Einloggen
login
copyright

jina-embeddings-v4

Universelles Einbettungsmodell für multimodales und mehrsprachiges Retrieval
Beitrag veröffentlichenarrow_forward
Lizenz
copyright
CC-BY-NC-4.0
Veröffentlichungsdatum
calendar_month
2025-06-24
Eingang
abc
Text
image
Bild
picture_as_pdf
PDF
arrow_forward
Ausgabe
more_horiz
Vektor
apps
Multi-Vektor
Modelldetails
Parameter: 3.8B
Länge des Eingabetokens: 32K
Eingabebildgröße: 768×28×28
Ausgabedimension: 2048
Sprachunterstützung
🌍 Mehrsprachiger Support
Ähnliche Modelle
link
jina-embeddings-v3
link
jina-clip-v2
Schlagwörter
multimodal-embedding
document retrieval
multilingual
multi-vector
long-context
production
matryoshka
Erhältlich über
Jina-APIKommerzielle LizenzUmarmendes Gesicht
E/A-Diagramm 1
E/A-Diagramm 2
E/A-Diagramm 3
E/A-Diagramm 4
Wählen Sie Modelle zum Vergleichen aus
Publikationen (1)
arXiv
Juni 24, 2025
jina-embeddings-v4: Universal Embeddings for Multimodal Multilingual Retrieval

Überblick

Jina Embeddings V4 ist ein multimodales Embedding-Modell mit 3,8 Milliarden Parametern, das eine einheitliche Text- und Bilddarstellung ermöglicht. Das Modell basiert auf dem Qwen2.5-VL-3B-Instruct-Backbone und bietet eine Architektur, die sowohl Einzelvektor- als auch Multivektor-Embeddings im Late-Interaction-Stil unterstützt und so die Einschränkungen herkömmlicher CLIP-basierter Dual-Encoder-Modelle behebt. Das Modell umfasst drei spezialisierte, aufgabenspezifische LoRA-Adapter (je 60 Millionen Parameter), die die Leistung in verschiedenen Abfrageszenarien optimieren, darunter asymmetrische Abfrage-Dokument-Abfrage, semantische Textähnlichkeit und Codesuche, ohne die eingefrorenen Backbone-Gewichte zu verändern. Das Modell zeigt eine starke Leistung bei der Verarbeitung visuell anspruchsvoller Inhalte wie Tabellen, Diagrammen, Screenshots und Mixed-Media-Formaten durch einen einheitlichen Verarbeitungspfad, der die in herkömmlichen Architekturen vorhandene Modalitätslücke reduziert. Das Modell unterstützt mehrsprachige Funktionen und kann Eingabetexte mit bis zu 32.768 Token und auf 20 Megapixel verkleinerten Bildern verarbeiten. Dadurch eignet es sich für verschiedene Anwendungen zur Dokumentsuche und modalübergreifenden Suche in verschiedenen Sprachen und Domänen.

Methoden

Jina Embeddings V4 implementiert eine einheitliche multimodale Sprachmodellarchitektur, die sich von CLIP-artigen Dual-Encoder-Ansätzen unterscheidet. Das Modell verarbeitet Eingaben über einen gemeinsamen Pfad, bei dem Bilder zunächst über einen Vision-Encoder in Token-Sequenzen umgewandelt werden. Anschließend werden Text- und Bildmodalitäten gemeinsam vom Sprachmodell-Decoder mit kontextuellen Aufmerksamkeitsebenen verarbeitet. Diese Architektur unterstützt zwei Ausgabemodi für unterschiedliche Anwendungsfälle: Einzelvektor-Embeddings, die 2048-dimensionale Vektoren erzeugen, die durch Matryoshka Representation Learning auf 128 Dimensionen kürzbar sind und durch Mean Pooling für eine effiziente Ähnlichkeitssuche generiert werden; und Multivektor-Embeddings, die über Projektionsebenen 128 Dimensionen pro Token für den Abruf im Stil der späten Interaktion ausgeben. Das Modell umfasst drei aufgabenspezifische LoRA-Adapter, die eine spezielle Optimierung ermöglichen: Der Retrieval-Adapter verwendet präfixbasierte asymmetrische Kodierung mit Hard-Negatives-Training für Abfrage-Dokument-Szenarien, der Text-Matching-Adapter nutzt CoSENT-Verlust für semantische Ähnlichkeitsaufgaben und der Code-Adapter konzentriert sich auf Anwendungen zur Umwandlung natürlicher Sprache in Code. Das Training erfolgt in zwei Phasen: anfängliches Paartraining mit kontrastivem InfoNCE-Verlust mit Text-Text- und Text-Bild-Paaren aus über 300 Quellen, gefolgt von einer aufgabenspezifischen Feinabstimmung der drei LoRA-Adapter mit Triplett-basierten Methoden und speziellen, auf die Anforderungen der jeweiligen Domäne zugeschnittenen Verlustfunktionen.

Leistung

Jina Embeddings V4 erzielt in mehreren Benchmark-Kategorien eine konkurrenzfähige Leistung. Beim visuellen Dokumentabruf erreicht es im JinaVDR-Benchmark durchschnittlich 72,19 Punkte gegenüber 64,50 Punkten für ColPali-v1.2 und im ViDoRe-Benchmark durchschnittlich 84,11 Punkte gegenüber 83,90 Punkten für ColPali. Der Multivektormodus erreicht im ViDoRe-Benchmark 90,17 Punkte. Beim kreuzmodalen Abruf erreicht das Modell im CLIP-Benchmark 84,11 Punkte gegenüber jina-clip-v2 (81,12) und nllb-clip-large-siglip (83,19). Bei Textabrufaufgaben erreicht es 55,97 Punkte für MTEB-en und 66,49 Punkte für MMTEB. Die bemerkenswerte Leistung bei der Verarbeitung langer Dokumente liegt bei 67,11 Punkten für LongEmbed gegenüber 55,66 Punkten für den Vorgänger. Das Modell zeigt eine solide Leistung hinsichtlich semantischer Textähnlichkeit mit 85,89 Punkten bei englischen STS-Aufgaben und 72,70 Punkten bei mehrsprachigen STS-Benchmarks. Die Code-Retrieval-Fähigkeiten erreichen 71,59 Punkte im CoIR-Benchmark, wobei spezialisierte Modelle wie voyage-code-3 (77,33) in diesem Bereich höhere Werte erzielen. Das Modell zeigt eine verbesserte modalübergreifende Ausrichtung mit einem Wert von 0,71 im Vergleich zu 0,15 bei OpenAI CLIP und behebt damit das Problem der Modalitätslücke in multimodalen Modellen. Der Multi-Vektor-Modus übertrifft den Single-Vektor-Modus bei visuell anspruchsvollen Aufgaben durchweg, während der Single-Vektor-Modus eine effiziente Leistung für Standard-Retrieval-Szenarien bietet.

Anleitung

Um Jina Embeddings V4 effektiv zu nutzen, wählen Sie den passenden LoRA-Adapter basierend auf Ihren spezifischen Anwendungsanforderungen. Verwenden Sie den „Retrieval“-Adapter für asymmetrische Abfrage-Dokument-Abrufszenarien, bei denen Abfragen und Dokumente unterschiedliche Strukturen aufweisen. Stellen Sie sicher, dass die richtigen Präfixe verwendet werden, um zwischen Abfrage- und Textinhalten zu unterscheiden. Der „Text-Matching“-Adapter eignet sich für semantische Ähnlichkeitsaufgaben und symmetrischen Abruf, bei dem es darum geht, ähnliche Inhalte statt Antworten auf Abfragen zu finden. Er eignet sich daher für Dokumentenclustering, Duplikaterkennung und Content-Empfehlungssysteme. Für programmierbezogene Anwendungen ist der „Code“-Adapter für den Abruf von natürlicher Sprache in Code, die Code-zu-Code-Ähnlichkeitssuche und die Beantwortung technischer Fragen optimiert. Wählen Sie Ausgabemodi basierend auf Ihren Leistungs- und Effizienzanforderungen: Einzelvektor-Einbettungen bieten eine effiziente Ähnlichkeitssuche und eignen sich für speicherbeschränkte Umgebungen. Dank kürzbarer Dimensionen ist eine Reduzierung von 2048 auf 128–512 Dimensionen mit akzeptablen Qualitätseinbußen möglich. Mehrvektor-Einbettungen bieten hingegen eine höhere Präzision für komplexe Abfrageaufgaben, insbesondere bei der Arbeit mit visuell anspruchsvollen Dokumenten, bei denen die Bewertung später Interaktionen detaillierte Beziehungen erfasst. Die einheitliche Architektur des Modells ermöglicht die Verarbeitung gemischter Text-Bild-Eingaben ohne separate Encoder oder OCR-Vorverarbeitung für visuelle Dokumente. Dank der modalübergreifenden Ausrichtung und der mehrsprachigen Unterstützung eignet sich das Modell für internationale Anwendungen. Berücksichtigen Sie bei der Planung des Speicherbedarfs für Produktionsbereitstellungen den 60-Mio.-Parameter-Overhead pro LoRA-Adapter. Beachten Sie, dass alle drei Adapter gleichzeitig mit weniger als 2 % zusätzlichem Speicherbedarf gewartet werden können, was einen flexiblen Taskwechsel während der Inferenz ermöglicht.
Blogs, die dieses Modell erwähnen
Juni 30, 2025 • 8 Minuten gelesen
Quantisierungsbewusstes Training von jina-embeddings-v4
Quantisierung ermöglicht kleinere Vektormodelle (Embeddings). Wir zeigen Ihnen, dass fein abgestimmte Quantisierung Ihnen sogar verlustfreie Vektormodelle (Embeddings) ermöglicht.
Andrei Ungureanu
Scott Martens
Bo Wang
Juni 25, 2025 • 12 Minuten gelesen
Jina Embeddings v4: Universelle Vektor Modelle (Embeddings) für Multimodale, Mehrsprachige Suche
Jina Embeddings v4 ist ein universelles 向量模型 (Embeddings)-Modell mit 3,8 Milliarden Parametern für multimodale und mehrsprachige Suche, das sowohl Single-Vektor- als auch Multi-Vektor-Embedding-Ausgaben unterstützt.
Jina AI
Word "Embeddings" followed by a numeric or symbol representation, displayed in multiple colors on a technology-themed, colorf
März 07, 2025 • 14 Minuten gelesen
Langkontext-Embedding-Modelle sind jenseits von 4K Tokens blind
Wir untersuchen Embedding-Modelle bei neuen "Nadel-im-Heuhaufen"-Aufgaben und stellen fest, dass sie jenseits von 4K Tokens praktisch nur würfeln - selbst bei exakten lexikalischen Übereinstimmungen oder Query-Expansion können sie in langen Kontexten nicht zwischen Signal und Rauschen unterscheiden.
Saahil Ognawala
Alex C-G
Vertical repetition of the word 'HAYSTACK' with a solitary 'NEEDLE' on a yellowish background.
Januar 22, 2025 • 10 Minuten gelesen
Was können wir von ModernBERT lernen?
Größere Trainingsdaten, effiziente Parameter-Dimensionierung und eine tiefe, aber schlanke Architektur - ModernBERT weist den Weg für zukünftige BERT-ähnliche Modelle.
Nan Wang
Alex C-G
Futuristic illustration with a central white circle surrounded by white dots on a dotted background.
Büros
location_on
Sunnyvale, Kalifornien
710 Lakeway Dr, Ste 200, Sunnyvale, CA 94085, USA
location_on
Berlin, Deutschland (Hauptsitz)
Prinzessinnenstraße 19-20, 10969 Berlin, Deutschland
location_on
Peking, China
Ebene 5, Gebäude 6, Nr. 48 Haidian West St. Peking, China
location_on
Shenzhen, China
402 Etage 4, Fu'an Technology Building, Shenzhen, China
Stiftung durchsuchen
Leser
Einbettungen
Reranker
DeepSearch
Klassifikator
Segmentierer
API-Dokumentation
Jina API-Schlüssel abrufen
Ratenbegrenzung
API-Status
Unternehmen
Über uns
Kontaktieren Sie unseren Vertrieb
Pressemitteilungen
Praktikantenprogramm
Begleiten Sie uns
open_in_new
Logo herunterladen
open_in_new
Bedingungen
Sicherheit
Terms & amp; Bedingungen
Privatsphäre
Cookie-Einstellungen
email
Jina AI © 2020-2025.