Erhältlich über
E/A-Diagramm 1
E/A-Diagramm 2
E/A-Diagramm 3
E/A-Diagramm 4
Wählen Sie Modelle zum Vergleichen aus
Publikationen (1)
Überblick
Jina Embeddings V4 ist ein multimodales Embedding-Modell mit 3,8 Milliarden Parametern, das eine einheitliche Text- und Bilddarstellung ermöglicht. Das Modell basiert auf dem Qwen2.5-VL-3B-Instruct-Backbone und bietet eine Architektur, die sowohl Einzelvektor- als auch Multivektor-Embeddings im Late-Interaction-Stil unterstützt und so die Einschränkungen herkömmlicher CLIP-basierter Dual-Encoder-Modelle behebt. Das Modell umfasst drei spezialisierte, aufgabenspezifische LoRA-Adapter (je 60 Millionen Parameter), die die Leistung in verschiedenen Abfrageszenarien optimieren, darunter asymmetrische Abfrage-Dokument-Abfrage, semantische Textähnlichkeit und Codesuche, ohne die eingefrorenen Backbone-Gewichte zu verändern. Das Modell zeigt eine starke Leistung bei der Verarbeitung visuell anspruchsvoller Inhalte wie Tabellen, Diagrammen, Screenshots und Mixed-Media-Formaten durch einen einheitlichen Verarbeitungspfad, der die in herkömmlichen Architekturen vorhandene Modalitätslücke reduziert. Das Modell unterstützt mehrsprachige Funktionen und kann Eingabetexte mit bis zu 32.768 Token und auf 20 Megapixel verkleinerten Bildern verarbeiten. Dadurch eignet es sich für verschiedene Anwendungen zur Dokumentsuche und modalübergreifenden Suche in verschiedenen Sprachen und Domänen.
Methoden
Jina Embeddings V4 implementiert eine einheitliche multimodale Sprachmodellarchitektur, die sich von CLIP-artigen Dual-Encoder-Ansätzen unterscheidet. Das Modell verarbeitet Eingaben über einen gemeinsamen Pfad, bei dem Bilder zunächst über einen Vision-Encoder in Token-Sequenzen umgewandelt werden. Anschließend werden Text- und Bildmodalitäten gemeinsam vom Sprachmodell-Decoder mit kontextuellen Aufmerksamkeitsebenen verarbeitet. Diese Architektur unterstützt zwei Ausgabemodi für unterschiedliche Anwendungsfälle: Einzelvektor-Embeddings, die 2048-dimensionale Vektoren erzeugen, die durch Matryoshka Representation Learning auf 128 Dimensionen kürzbar sind und durch Mean Pooling für eine effiziente Ähnlichkeitssuche generiert werden; und Multivektor-Embeddings, die über Projektionsebenen 128 Dimensionen pro Token für den Abruf im Stil der späten Interaktion ausgeben. Das Modell umfasst drei aufgabenspezifische LoRA-Adapter, die eine spezielle Optimierung ermöglichen: Der Retrieval-Adapter verwendet präfixbasierte asymmetrische Kodierung mit Hard-Negatives-Training für Abfrage-Dokument-Szenarien, der Text-Matching-Adapter nutzt CoSENT-Verlust für semantische Ähnlichkeitsaufgaben und der Code-Adapter konzentriert sich auf Anwendungen zur Umwandlung natürlicher Sprache in Code. Das Training erfolgt in zwei Phasen: anfängliches Paartraining mit kontrastivem InfoNCE-Verlust mit Text-Text- und Text-Bild-Paaren aus über 300 Quellen, gefolgt von einer aufgabenspezifischen Feinabstimmung der drei LoRA-Adapter mit Triplett-basierten Methoden und speziellen, auf die Anforderungen der jeweiligen Domäne zugeschnittenen Verlustfunktionen.
Leistung
Jina Embeddings V4 erzielt in mehreren Benchmark-Kategorien eine konkurrenzfähige Leistung. Beim visuellen Dokumentabruf erreicht es im JinaVDR-Benchmark durchschnittlich 72,19 Punkte gegenüber 64,50 Punkten für ColPali-v1.2 und im ViDoRe-Benchmark durchschnittlich 84,11 Punkte gegenüber 83,90 Punkten für ColPali. Der Multivektormodus erreicht im ViDoRe-Benchmark 90,17 Punkte. Beim kreuzmodalen Abruf erreicht das Modell im CLIP-Benchmark 84,11 Punkte gegenüber jina-clip-v2 (81,12) und nllb-clip-large-siglip (83,19). Bei Textabrufaufgaben erreicht es 55,97 Punkte für MTEB-en und 66,49 Punkte für MMTEB. Die bemerkenswerte Leistung bei der Verarbeitung langer Dokumente liegt bei 67,11 Punkten für LongEmbed gegenüber 55,66 Punkten für den Vorgänger. Das Modell zeigt eine solide Leistung hinsichtlich semantischer Textähnlichkeit mit 85,89 Punkten bei englischen STS-Aufgaben und 72,70 Punkten bei mehrsprachigen STS-Benchmarks. Die Code-Retrieval-Fähigkeiten erreichen 71,59 Punkte im CoIR-Benchmark, wobei spezialisierte Modelle wie voyage-code-3 (77,33) in diesem Bereich höhere Werte erzielen. Das Modell zeigt eine verbesserte modalübergreifende Ausrichtung mit einem Wert von 0,71 im Vergleich zu 0,15 bei OpenAI CLIP und behebt damit das Problem der Modalitätslücke in multimodalen Modellen. Der Multi-Vektor-Modus übertrifft den Single-Vektor-Modus bei visuell anspruchsvollen Aufgaben durchweg, während der Single-Vektor-Modus eine effiziente Leistung für Standard-Retrieval-Szenarien bietet.
Anleitung
Um Jina Embeddings V4 effektiv zu nutzen, wählen Sie den passenden LoRA-Adapter basierend auf Ihren spezifischen Anwendungsanforderungen. Verwenden Sie den „Retrieval“-Adapter für asymmetrische Abfrage-Dokument-Abrufszenarien, bei denen Abfragen und Dokumente unterschiedliche Strukturen aufweisen. Stellen Sie sicher, dass die richtigen Präfixe verwendet werden, um zwischen Abfrage- und Textinhalten zu unterscheiden. Der „Text-Matching“-Adapter eignet sich für semantische Ähnlichkeitsaufgaben und symmetrischen Abruf, bei dem es darum geht, ähnliche Inhalte statt Antworten auf Abfragen zu finden. Er eignet sich daher für Dokumentenclustering, Duplikaterkennung und Content-Empfehlungssysteme. Für programmierbezogene Anwendungen ist der „Code“-Adapter für den Abruf von natürlicher Sprache in Code, die Code-zu-Code-Ähnlichkeitssuche und die Beantwortung technischer Fragen optimiert. Wählen Sie Ausgabemodi basierend auf Ihren Leistungs- und Effizienzanforderungen: Einzelvektor-Einbettungen bieten eine effiziente Ähnlichkeitssuche und eignen sich für speicherbeschränkte Umgebungen. Dank kürzbarer Dimensionen ist eine Reduzierung von 2048 auf 128–512 Dimensionen mit akzeptablen Qualitätseinbußen möglich. Mehrvektor-Einbettungen bieten hingegen eine höhere Präzision für komplexe Abfrageaufgaben, insbesondere bei der Arbeit mit visuell anspruchsvollen Dokumenten, bei denen die Bewertung später Interaktionen detaillierte Beziehungen erfasst. Die einheitliche Architektur des Modells ermöglicht die Verarbeitung gemischter Text-Bild-Eingaben ohne separate Encoder oder OCR-Vorverarbeitung für visuelle Dokumente. Dank der modalübergreifenden Ausrichtung und der mehrsprachigen Unterstützung eignet sich das Modell für internationale Anwendungen. Berücksichtigen Sie bei der Planung des Speicherbedarfs für Produktionsbereitstellungen den 60-Mio.-Parameter-Overhead pro LoRA-Adapter. Beachten Sie, dass alle drei Adapter gleichzeitig mit weniger als 2 % zusätzlichem Speicherbedarf gewartet werden können, was einen flexiblen Taskwechsel während der Inferenz ermöglicht.
Blogs, die dieses Modell erwähnen