Pressemitteilungen
Modelle
Produkte
keyboard_arrow_down
Leser
Lesen Sie URLs und suchen Sie im Internet nach fundierteren LLMs.
Einbettungen
Multimodale und mehrsprachige Einbettungen von Weltklasse.
Reranker
Neural Retriever der Weltklasse zur Maximierung der Suchrelevanz.
DeepSearch
Suchen, lesen und überlegen, bis die beste Antwort gefunden ist.
Mehr
keyboard_arrow_down
Klassifikator
Zero-Shot- und Few-Shot-Klassifizierung für Bild und Text.
Segmentierer
Schneiden Sie langen Text in Abschnitte und führen Sie eine Tokenisierung durch.

MCP-Server
Fügen Sie mcp.jina.ai als Ihren MCP-Server hinzu, um in LLMs auf unsere API zuzugreifen
open_in_new
API-Dokumente
Automatische Codegenerierung für Ihre Copilot-IDE oder LLM
open_in_new


Unternehmen
keyboard_arrow_down
Über uns
Kontaktieren Sie unseren Vertrieb
Praktikantenprogramm
Begleiten Sie uns
open_in_new
Logo herunterladen
open_in_new
Terms & amp; Bedingungen


Einloggen
login

jina-embeddings-v4

Universelles Einbettungsmodell für multimodales und mehrsprachiges Retrieval
Beitrag veröffentlichenarrow_forward
Lizenz
Qwen Research License
Veröffentlichungsdatum
calendar_month
2025-06-24
Eingang
abc
Text
image
Bild
picture_as_pdf
PDF
arrow_forward
Ausgabe
more_horiz
Vektor
apps
Multi-Vektor
Matroschka-Abmessungen
128
256
512
1024
2048
Modelldetails
Parameter: 3.8B
Länge des Eingabetokens: 32K
Eingabebildgröße: 768×28×28
Ausgabedimension: 2048
Sprachunterstützung
🌍 Mehrsprachiger Support
Quantisierungen
GGUF
Ähnliche Modelle
link
jina-embeddings-v3
link
jina-clip-v2
Schlagwörter
multimodal-embedding
document retrieval
multilingual
multi-vector
long-context
production
matryoshka
Erhältlich über
Jina-APIUmarmendes Gesicht
E/A-Diagramm 1
E/A-Diagramm 2
E/A-Diagramm 3
E/A-Diagramm 4
Wählen Sie Modelle zum Vergleichen aus
Publikationen (1)
arXiv
Juni 24, 2025
jina-embeddings-v4: Universal Embeddings for Multimodal Multilingual Retrieval

Überblick

Jina Embeddings V4 ist ein multimodales Embedding-Modell mit 3,8 Milliarden Parametern, das eine einheitliche Text- und Bilddarstellung ermöglicht. Das Modell basiert auf dem Qwen2.5-VL-3B-Instruct-Backbone und bietet eine Architektur, die sowohl Einzelvektor- als auch Multivektor-Embeddings im Late-Interaction-Stil unterstützt und so die Einschränkungen herkömmlicher CLIP-basierter Dual-Encoder-Modelle behebt. Das Modell umfasst drei spezialisierte, aufgabenspezifische LoRA-Adapter (je 60 Millionen Parameter), die die Leistung in verschiedenen Abfrageszenarien optimieren, darunter asymmetrische Abfrage-Dokument-Abfrage, semantische Textähnlichkeit und Codesuche, ohne die eingefrorenen Backbone-Gewichte zu verändern. Das Modell zeigt eine starke Leistung bei der Verarbeitung visuell anspruchsvoller Inhalte wie Tabellen, Diagrammen, Screenshots und Mixed-Media-Formaten durch einen einheitlichen Verarbeitungspfad, der die in herkömmlichen Architekturen vorhandene Modalitätslücke reduziert. Das Modell unterstützt mehrsprachige Funktionen und kann Eingabetexte mit bis zu 32.768 Token und auf 20 Megapixel verkleinerten Bildern verarbeiten. Dadurch eignet es sich für verschiedene Anwendungen zur Dokumentsuche und modalübergreifenden Suche in verschiedenen Sprachen und Domänen.

Methoden

Jina Embeddings V4 implementiert eine einheitliche multimodale Sprachmodellarchitektur, die sich von CLIP-artigen Dual-Encoder-Ansätzen unterscheidet. Das Modell verarbeitet Eingaben über einen gemeinsamen Pfad, bei dem Bilder zunächst über einen Vision-Encoder in Token-Sequenzen umgewandelt werden. Anschließend werden Text- und Bildmodalitäten gemeinsam vom Sprachmodell-Decoder mit kontextuellen Aufmerksamkeitsebenen verarbeitet. Diese Architektur unterstützt zwei Ausgabemodi für unterschiedliche Anwendungsfälle: Einzelvektor-Embeddings, die 2048-dimensionale Vektoren erzeugen, die durch Matryoshka Representation Learning auf 128 Dimensionen kürzbar sind und durch Mean Pooling für eine effiziente Ähnlichkeitssuche generiert werden; und Multivektor-Embeddings, die über Projektionsebenen 128 Dimensionen pro Token für den Abruf im Stil der späten Interaktion ausgeben. Das Modell umfasst drei aufgabenspezifische LoRA-Adapter, die eine spezielle Optimierung ermöglichen: Der Retrieval-Adapter verwendet präfixbasierte asymmetrische Kodierung mit Hard-Negatives-Training für Abfrage-Dokument-Szenarien, der Text-Matching-Adapter nutzt CoSENT-Verlust für semantische Ähnlichkeitsaufgaben und der Code-Adapter konzentriert sich auf Anwendungen zur Umwandlung natürlicher Sprache in Code. Das Training erfolgt in zwei Phasen: anfängliches Paartraining mit kontrastivem InfoNCE-Verlust mit Text-Text- und Text-Bild-Paaren aus über 300 Quellen, gefolgt von einer aufgabenspezifischen Feinabstimmung der drei LoRA-Adapter mit Triplett-basierten Methoden und speziellen, auf die Anforderungen der jeweiligen Domäne zugeschnittenen Verlustfunktionen.

Leistung

Jina Embeddings V4 erzielt in mehreren Benchmark-Kategorien eine konkurrenzfähige Leistung. Beim visuellen Dokumentabruf erreicht es im JinaVDR-Benchmark durchschnittlich 72,19 Punkte gegenüber 64,50 Punkten für ColPali-v1.2 und im ViDoRe-Benchmark durchschnittlich 84,11 Punkte gegenüber 83,90 Punkten für ColPali. Der Multivektormodus erreicht im ViDoRe-Benchmark 90,17 Punkte. Beim kreuzmodalen Abruf erreicht das Modell im CLIP-Benchmark 84,11 Punkte gegenüber jina-clip-v2 (81,12) und nllb-clip-large-siglip (83,19). Bei Textabrufaufgaben erreicht es 55,97 Punkte für MTEB-en und 66,49 Punkte für MMTEB. Die bemerkenswerte Leistung bei der Verarbeitung langer Dokumente liegt bei 67,11 Punkten für LongEmbed gegenüber 55,66 Punkten für den Vorgänger. Das Modell zeigt eine solide Leistung hinsichtlich semantischer Textähnlichkeit mit 85,89 Punkten bei englischen STS-Aufgaben und 72,70 Punkten bei mehrsprachigen STS-Benchmarks. Die Code-Retrieval-Fähigkeiten erreichen 71,59 Punkte im CoIR-Benchmark, wobei spezialisierte Modelle wie voyage-code-3 (77,33) in diesem Bereich höhere Werte erzielen. Das Modell zeigt eine verbesserte modalübergreifende Ausrichtung mit einem Wert von 0,71 im Vergleich zu 0,15 bei OpenAI CLIP und behebt damit das Problem der Modalitätslücke in multimodalen Modellen. Der Multi-Vektor-Modus übertrifft den Single-Vektor-Modus bei visuell anspruchsvollen Aufgaben durchweg, während der Single-Vektor-Modus eine effiziente Leistung für Standard-Retrieval-Szenarien bietet.

Anleitung

Um Jina Embeddings V4 effektiv zu nutzen, wählen Sie den passenden LoRA-Adapter basierend auf Ihren spezifischen Anwendungsanforderungen. Verwenden Sie den „Retrieval“-Adapter für asymmetrische Abfrage-Dokument-Abrufszenarien, bei denen Abfragen und Dokumente unterschiedliche Strukturen aufweisen. Stellen Sie sicher, dass die richtigen Präfixe verwendet werden, um zwischen Abfrage- und Textinhalten zu unterscheiden. Der „Text-Matching“-Adapter eignet sich für semantische Ähnlichkeitsaufgaben und symmetrischen Abruf, bei dem es darum geht, ähnliche Inhalte statt Antworten auf Abfragen zu finden. Er eignet sich daher für Dokumentenclustering, Duplikaterkennung und Content-Empfehlungssysteme. Für programmierbezogene Anwendungen ist der „Code“-Adapter für den Abruf von natürlicher Sprache in Code, die Code-zu-Code-Ähnlichkeitssuche und die Beantwortung technischer Fragen optimiert. Wählen Sie Ausgabemodi basierend auf Ihren Leistungs- und Effizienzanforderungen: Einzelvektor-Einbettungen bieten eine effiziente Ähnlichkeitssuche und eignen sich für speicherbeschränkte Umgebungen. Dank kürzbarer Dimensionen ist eine Reduzierung von 2048 auf 128–512 Dimensionen mit akzeptablen Qualitätseinbußen möglich. Mehrvektor-Einbettungen bieten hingegen eine höhere Präzision für komplexe Abfrageaufgaben, insbesondere bei der Arbeit mit visuell anspruchsvollen Dokumenten, bei denen die Bewertung später Interaktionen detaillierte Beziehungen erfasst. Die einheitliche Architektur des Modells ermöglicht die Verarbeitung gemischter Text-Bild-Eingaben ohne separate Encoder oder OCR-Vorverarbeitung für visuelle Dokumente. Dank der modalübergreifenden Ausrichtung und der mehrsprachigen Unterstützung eignet sich das Modell für internationale Anwendungen. Berücksichtigen Sie bei der Planung des Speicherbedarfs für Produktionsbereitstellungen den 60-Mio.-Parameter-Overhead pro LoRA-Adapter. Beachten Sie, dass alle drei Adapter gleichzeitig mit weniger als 2 % zusätzlichem Speicherbedarf gewartet werden können, was einen flexiblen Taskwechsel während der Inferenz ermöglicht.
Blogs, die dieses Modell erwähnen
Juni 24, 2025
jina-embeddings-v4: Universal Embeddings for Multimodal Multilingual Retrieval
We introduce jina-embeddings-v4, a 3.8 billion parameter multimodal embedding model that unifies text and image representations through a novel architecture supporting both single-vector and multi-vector embeddings in the late interaction style. The model incorporates task-specific Low-Rank Adaptation (LoRA) adapters to optimize performance across diverse retrieval scenarios, including query-based information retrieval, cross-modal semantic similarity, and programming code search. Comprehensive evaluations demonstrate that jina-embeddings-v4 achieves state-of-the-art performance on both single- modal and cross-modal retrieval tasks, with particular strength in processing visually rich content such as tables, charts, diagrams, and mixed-media formats. To facilitate evaluation of this capability, we also introduce Jina-VDR, a novel benchmark specifically designed for visually rich image retrieval.
jina-embeddings-v4: Universal Embeddings for Multimodal Multilingual Retrieval
arXiv
Juni 30, 2025 • 8 Minuten gelesen
Quantisierungsbewusstes Training von jina-embeddings-v4
Quantisierung ermöglicht kleinere Vektormodelle (Embeddings). Wir zeigen Ihnen, dass fein abgestimmte Quantisierung Ihnen sogar verlustfreie Vektormodelle (Embeddings) ermöglicht.
Andrei Ungureanu
Scott Martens
Bo Wang
Retro-style digital screen displaying four pixelated images: a cat, a woman, an abstract figure, and a man's portrait, with l
September 09, 2025 • 11 Minuten gelesen
Multimodale Vektormodelle in Llama.cpp und GGUF
Wir haben multimodale VektorModelle zu llama.cpp und GGUF gebracht und dabei einige überraschende Probleme aufgedeckt.
Andrei Ungureanu
Alex C-G
September 04, 2025 • 6 Minuten gelesen
Jina Code Embeddings: SOTA Code Retrieval bei 0.5B und 1.5B
Code generierende LLMs → Code-Vektor-Modelle: 0,5B/1,5B Modelle erzielen SOTA-Performance über 25 Code-Retrieval-Benchmarks hinweg.
Jina AI
Green "Code Embeddings" text displayed in a LED dot style on a black background, evoking a futuristic and technological atmos
August 13, 2025 • 15 Minuten gelesen
GGUFs für Decoder-Only 向量模型 optimieren
4000 Tokens/Sekunde für ein 3B-Parameter-Vektor-Modell auf einer L4-GPU ist wahrscheinlich das Schnellste, was man mit llama.cpp erreichen kann. Oder etwa nicht?
Han Xiao
Text "DGUF for Embedding Models" written in yellow on a dark background, conveying a sleek, minimalistic, digital design.
Büros
location_on
Sunnyvale, Kalifornien
710 Lakeway Dr, Ste 200, Sunnyvale, CA 94085, USA
location_on
Berlin, Deutschland (Hauptsitz)
Prinzessinnenstraße 19-20, 10969 Berlin, Deutschland
location_on
Peking, China
Ebene 5, Gebäude 6, Nr. 48 Haidian West St. Peking, China
location_on
Shenzhen, China
402 Etage 4, Fu'an Technology Building, Shenzhen, China
Stiftung durchsuchen
Leser
Einbettungen
Reranker
DeepSearch
Klassifikator
Segmentierer
API-Dokumentation
Jina API-Schlüssel abrufen
Ratenbegrenzung
API-Status
Unternehmen
Über uns
Kontaktieren Sie unseren Vertrieb
Pressemitteilungen
Praktikantenprogramm
Begleiten Sie uns
open_in_new
Logo herunterladen
open_in_new
Bedingungen
Sicherheit
Terms & amp; Bedingungen
Privatsphäre
Cookie-Einstellungen
email
Jina AI © 2020-2025.