Pressemitteilungen
Modelle
API
keyboard_arrow_down
Leser
Lesen Sie URLs und suchen Sie im Internet nach fundierteren LLMs.
Einbettungen
Multimodale und mehrsprachige Einbettungen von Weltklasse.
Reranker
Neural Retriever der Weltklasse zur Maximierung der Suchrelevanz.
MCP terminalCLIarticlellms.txtsmart_toyAgentendata_objectSchemamenu_bookDokumente



Einloggen
login
Wie wir JinaVDR erstellen
Bestehende Benchmarks
Bewertung von Vektormodellen auf JinaVDR
MTEB-Integration
Einschränkungen
Fazit
Software-Aktualisierung
Juli 25, 2025

JinaVDR: Neue visuelle Dokumentenabruf-Benchmark mit 95 Aufgaben in 20 Sprachen

JinaVDR ist ein neuer Benchmark, der 95 Aufgaben in 20 Sprachen für den visuellen Dokumentenabruf umfasst und bald auf MTEB verfügbar sein wird.
Maximilian Werk
Alex C-G
Maximilian Werk, Alex C-G • 8 Minuten gelesen
GitHub - jina-ai/jina-vdr: Jina VDR is a multilingual, multi-domain benchmark for visual document retrieval
Jina VDR is a multilingual, multi-domain benchmark for visual document retrieval - jina-ai/jina-vdr
GitHubjina-ai
JinaVDR (Visual Document Retrieval) - a jinaai Collection
max. ~1000 images and OCR text included
a jinaai Collection

Wir veröffentlichen JinaVDR (Visual Document Retrieval), einen neuen Benchmark zur Bewertung, wie gut Modelle visuell komplexe Dokumente abrufen können. JinaVDR umfasst mehrsprachige Dokumente mit komplexen Layouts – eine Kombination aus Grafiken, Diagrammen, Tabellen, Text und Bildern sowie gescannten Kopien und Screenshots. Der Benchmark paart diese verschiedenen visuellen Dokumente mit gezielten Textabfragen und ermöglicht so eine umfassende Bewertung der Abrufleistung über reale Dokumentkomplexität und breitere Domänenabdeckung hinweg.

Benchmark Aufgabenfokus Sprachen Anzahl der Aufgaben
JinaVDR Visuell reichhaltige Dokumente 20 Sprachen 95
MIEB Meist natürliche Bilder 38 Sprachen 130
ViDoRe v1 Visuell reichhaltige Dokumente Englisch 5
ViDoRe v2 Visuell reichhaltige Dokumente Englisch, Französisch, Spanisch, Deutsch 4
JinaVDR-Statistiken, die Abfrage-/Dokumentsprachen, Domänen und Dokumentformate zeigen

JinaVDR umfasst verschiedene Sprachen, Domänen und Dokumentformate, um reale Abrufszenarien widerzuspiegeln. Während Englisch sowohl in Abfragen als auch in Dokumenten vorherrschend bleibt, enthält der Benchmark über ein Dutzend weitere Sprachen und bietet so eine deutlich breitere mehrsprachige Abdeckung. Die Domänen umfassen historische Dokumente, Softwaredokumentation, medizinische Aufzeichnungen, Rechtstexte und wissenschaftliche Arbeiten, wodurch unterschiedliche professionelle Anwendungsfälle erfasst werden. Die Dokumentformate reichen von Webseiten und PDFs bis hin zu gescannten Materialien, Präsentationsfolien und eigenständigen Bildern. Viele Datensätze mischen absichtlich Sprachen und Formate und schaffen so realistische Bedingungen, die Modelle herausfordern, mit der Komplexität umzugehen, der sie in praktischen Anwendungen begegnen.

tagWie wir JinaVDR erstellen

Der JinaVDR-Benchmark bietet ein Bewertungsframework, das 95 Aufgaben in 20 Sprachen umfasst, darunter domänenvielfältige und layoutreiche Dokumente wie Diagramme, Karten, traditionelle gescannte Dokumente, Markdown-Dateien und komplexe Tabellen. Er bewertet Modelle sowohl durch visuelles Frage-Antworten (zum Beispiel: “How many civil lawsuits were dismissed at the Valladolid audience in 1855?”) als auch durch Schlüsselwortabfragen (zum Beispiel: “growth of the LED market across different regions”), was eine klarere Beurteilung der Abruffähigkeiten für verschiedene Dokumenttypen ermöglicht, die in der realen Welt vorkommen.

Wir haben vier Techniken verwendet, um JinaVDR zu erstellen, wobei wir uns auf Datendiversität und Aufgabenauthentizität konzentriert haben:

Erstens haben wir bestehende Benchmarks wiederverwendet, indem wir OCR-Datensätze mithilfe regelbasierter Abfragevorlagen in Abrufaufgaben umgewandelt haben (z. B. die Transformation von MPMQA-Daten) und Frage-Antwort-Datensätze in Abrufszenarien umformatiert haben:

Beispieldokument und -abfrage von MPMQA aus dem JinaVDR-Benchmark

Zweitens haben wir bestehende PDF-Datensätze manuell annotiert, darunter StanfordSlides, TextbookQA und ShanghaiMasterPlan, um qualitativ hochwertige Abrufpaare zu erstellen:

Beispieldokument und -abfrage von StanfordSlides aus dem JinaVDR-Benchmark

Unser dritter Ansatz umfasste die synthetische Generierung von Abfragen und/oder Dokumenten, wobei wir vorhandene Dokumentensammlungen aus Quellen wie Europeana verwendet haben, um mit Qwen2-VL-7B-Instruct kontextbezogene Abfragen zusammen mit EasyOCR-Textbeschreibungen zu erstellen:

Beispieldokument und -abfrage von Europeana aus dem JinaVDR-Benchmark, einschließlich englischer Abfrageübersetzung als Referenz

Wir haben auch tabellarische Datensätze in visuelle Tabellen gerendert und entsprechende Abfragen durch Vorlagen generiert, die aus den ursprünglichen Textdaten abgeleitet wurden, wie in unserer AirBnBRetrieval-Aufgabe gezeigt.

Schließlich haben wir vorhandene gecrawlte Datensätze wiederverwendet, die Artikel-Diagramm-Paare enthalten, wobei wir Textausschnitte aus den Artikeln als Abfragen und entsprechende Diagramme als Zieldokumente verwenden, wie in unserem OWIDRetrieval-Datensatz gezeigt:

Beispieldokument und -abfrage von OWIDRetrieval aus dem JinaVDR-Benchmark

Dieser facettenreiche Ansatz ermöglicht uns eine umfassende Abdeckung über Dokumenttypen, Sprachen und Abrufszenarien hinweg.

tagBestehende Benchmarks

Die Entwicklung wirklich multimodaler Modelle (die visuell komplexe Dokumente verarbeiten können) erfordert Benchmarks, die über traditionelle textbasierte Bewertungsmethoden hinausgehen. Frameworks wie MTEB (Massive Text Embedding Benchmark) eignen sich möglicherweise gut für die Bewertung des Textabrufs über verschiedene Domänen und Sprachen hinweg, sind aber nicht für die Suche in Dokumenten konzipiert, bei denen der genaue Abruf von visuellem Layout, Diagrammen, Tabellen und Formatierung abhängt. Hier kommen visuelle Dokumentabruf-Benchmarks (wie die ViDoRe-Serie) und Bildabruf-Benchmarks (wie MIEB, der Massive Image Embedding Benchmark) ins Spiel.

Das ColPali-Paper führte ViDoRe v1 ein, das fünf englischsprachige Datensätze kombiniert, sowohl akademische als auch synthetische. Der Benchmark konzentriert sich auf einseitige Dokumente, die gut mit optischer Zeichenerkennung (OCR) funktionieren, deckt enge Domänen wie wissenschaftliche Arbeiten und Gesundheitswesen ab und verwendet extraktive Abfragen, bei denen Suchbegriffe oft direkt in Zieldokumenten vorkommen.

Beispiele aus dem ViDoRe v1 Benchmark-Datensatz

Nachdem Modelle wie ColPali einen Score von 90 % nDCG@5 auf ViDoRe v1 erreicht hatten, war ein neuer Benchmark erforderlich. ViDoRe v2 verbesserte v1 durch die Unterstützung längerer und dokumentübergreifender Abfragen, Blind Contextual Querying und mehr Sprachen (Französisch, Deutsch und Spanisch zusätzlich zu Englisch). Beide Benchmarks weisen immer noch eine begrenzte Sprachvielfalt und eine enge Domänenabdeckung auf, was Lücken für die Bewertung neuer Abrufsysteme lässt.

Beispiele aus dem ViDoRe v2 Benchmark-Datensatz

Der MIEB verfolgt einen anderen Ansatz, indem er sich auf visuelle Vektormodelle über 130 Aufgaben hinweg konzentriert, darunter auch andere Aufgaben als nur das Abrufen. Er bewertet jedoch hauptsächlich Bilder ohne viele Textinhalte und nicht visuell reichhaltige Dokumente. Obwohl der Benchmark sich hervorragend eignet, um visuelle Verständnisfähigkeiten zu testen, ist er nicht gut geeignet, wenn Sie Dokumente basierend auf visuellem Layout und Textinhalten abrufen müssen.

Beispiele aus dem MIEB-Benchmark

Unser Ziel mit dem JinaVDR (Visual Document Retrieval) Benchmark ist es, auf der Arbeit dieser früheren Benchmarks aufzubauen, indem wir visuell reichhaltige, mehrsprachige Dokumente mit komplexen Layouts wie Grafiken, Diagrammen und Tabellen (gemischt mit Text und Bildern) sowie realitätsnahe Anfragen und Fragen einbeziehen.

tagBewertung von Vektormodellen auf JinaVDR

💡
Sie können den Benchmark selbst mit dem Code in unserem GitHub-Repo ausführen.

Unsere Benchmarking-Ergebnisse zeigen, dass viele aktuelle Embedding-Modelle mit der breiten Palette visueller Dokumentaufgaben von JinaVDR zu kämpfen haben, während OCR-basierte Baselines und ältere Modelle noch schwächere Ergebnisse zeigen, insbesondere bei nicht-englischen und strukturierten Dokumentdatensätzen. Wir haben BM25 mit OCR für alle Datensätze einbezogen, bei denen eine einfache Textextraktion eine solche Suche ermöglichte.

Eine Ausnahme hiervon ist jina-embeddings-v4. Unsere Ergebnisse deuten darauf hin, dass sein multimodaler Embedding-Ansatz die komplexe und mehrsprachige Dokumentensuche besser bewältigt als frühere Generationen von Modellen oder traditionelle OCR-basierte Pipelines. Die Multi-Vektor-Fähigkeit des Modells bietet die beste Leistung, da sie die Komprimierungsbeschränkungen von Single-Vektor-Ansätzen vermeidet — während einzelne Vektoren den gesamten Inhalt einer Seite in einer einzigen Darstellung zusammenfassen müssen (was es schwierig macht, bestimmte Details zu erfassen), behält der Multi-Vektor-Ansatz die granularen Informationen bei, die für die präzise Suche nach ähnlichen Dokumenten erforderlich sind.

Abbildung 9: Modellleistung auf dem JinaVDR-Benchmark, gemittelt über alle Aufgaben
Average medical-prescriptions DonutVQA TableVQA europeana-de-news europeana-es-news europeana-it-scans europeana-nl-legal hindi-gov-vqa jdocqa_jp wikimedia-commons-documents (ar) github-readme-retrieval-ml-filtered (ru)
BM25 + OCR 26.67% 38.18% 19.39% 35.64% 11.26% 51.99% 39.11% 34.97% 1.83% 1.64% 19.60% 39.78%
jina-embeddings-v3 + OCR 27.49% 37.25% 2.60% 34.24% 12.05% 44.03% 38.69% 29.07% 7.52% 7.79% 38.06% 51.07%
jina-clip-v2 17.79% 15.66% 1.63% 21.06% 11.19% 13.14% 16.23% 9.79% 5.02% 19.91% 45.29% 36.80%
colpali-v1.2 46.44% 83.91% 32.53% 54.66% 34.64% 44.74% 54.32% 30.89% 13.04% 39.45% 41.96% 80.67%
colqwen2-v0.1 58.26% 77.72% 46.34% 57.52% 53.42% 74.28% 71.23% 46.13% 20.53% 74.38% 36.94% 0.82388
MrLight/dse-qwen2-2b-mrl-v1 47.95% 38.22% 25.31% 57.39% 44.75% 60.58% 53.92% 29.50% 9.80% 66.73% 62.47% 78.77%
jina-embeddings-v4 (single-vector) 61.39% 81.17% 78.48% 58.90% 49.05% 60.10% 57.88% 37.14% 15.40% 75.57% 72.07% 89.55%
jina-embeddings-v4 (multivector) 70.89% 97.95% 73.55% 60.91% 65.65% 80.58% 73.14% 54.15% 21.94% 82.34% 81.19% 88.39%

tagMTEB-Integration

dataset: Add JinaVDR by maximilianwerk · Pull Request #2942 · embeddings-benchmark/mteb
Hey, we would like to contribute the JinaVDR benchmark to MTEB. Our aim with the JinaVDR (Visual Document Retrieval) benchmark is to expand upon the work of these prior benchmarks by incorporating…
GitHubembeddings-benchmark

Da sich MTEB zum De-facto-Standard für Retrieval-Benchmarking entwickelt hat, integrieren wir JinaVDR direkt in das MTEB-Framework, um die Akzeptanz und Benutzerfreundlichkeit zu maximieren. Dies erleichtert es Forschern, visuelle Retrieval-Modelle auf unserem Benchmark mithilfe einer vertrauten Bewertungsinfrastruktur auszuführen. Die Migration unserer Daten in das BEIR-Format erforderte jedoch einige Kompromisse, wie z. B. den Verzicht auf OCR-Ergebnisse in der MTEB-Version. Dies bedeutet, dass traditionelle textbasierte Methoden wie BM25 nicht direkt als Teil des MTEB ausgeführt werden können, was den Fokus auf das visuelle Dokumentenverständnis verstärkt, anstatt auf textbasierte Retrieval-Methoden zurückzugreifen.

tagEinschränkungen

Um einen umfassenden Benchmark aus einer Vielzahl von Quellen zu erstellen, mussten wir eine sorgfältige Vorverarbeitung durchführen, um sowohl die praktische Nutzbarkeit als auch die Bewertungsqualität sicherzustellen: Wir haben eine Größennormalisierung vorgenommen, indem wir jeden Datensatz auf maximal 1.000 Beispiele reduziert haben (von Tausenden oder Zehntausenden), wodurch der Benchmark tatsächlich ausführbar ist und gleichzeitig eine gute Abdeckung über alle Aufgaben hinweg gewährleistet wird. Diese Einschränkung war besonders wichtig angesichts des hohen Rechenaufwands, den wir für die Verarbeitung hochauflösender visueller Dokumente benötigten.

Wir haben eine Qualitätsfilterung verwendet, um verschiedene Herausforderungen zu bewältigen, die in realen Dokumentensammlungen üblich sind. Während eine schlechte Bildqualität in gescannten Dokumenten oft realistische Anwendungsfälle widerspiegelt, erschwerte sie es, die Qualität synthetischer Daten zu kontrollieren. Wir haben eine Konsistenzfilterung implementiert, um Duplikate zu entfernen (die in großen Dokumentensammlungen häufig vorkommen), und große Sprachmodelle (LLMs) verwendet, um minderwertige Abfragen herauszufiltern, die keine nützlichen Bewertungssignale liefern würden, wie z. B. allzu allgemeine Fragen wie "Was kann man in der Grafik sehen?". Bei der Generierung synthetischer Daten stießen wir trotz der Verwendung verschiedener Prompting-Strategien auf Einschränkungen in der Abfragevielfalt und mussten eine manuelle Kuratierung durchführen, um eine ausreichende Bewertungsabdeckung über verschiedene Retrieval-Szenarien hinweg sicherzustellen.

tagFazit

Die Bewertung der visuellen Dokumentensuche befindet sich nun in einer Situation, in der traditionelle textbasierte Benchmarks die Komplexität der Art und Weise, wie Menschen tatsächlich nach Informationen suchen und diese konsumieren, nicht mehr erfassen. JinaVDR überwindet diese Barriere, indem es eine umfassende Bewertung über eine Reihe von Aufgaben und Sprachen hinweg bietet, die frühere Benchmarks bei weitem übertrifft.

Für die Zukunft benötigt die Industrie Benchmarks, die echte Retrieval-Herausforderungen widerspiegeln und keine künstlichen Einschränkungen. Da Unternehmen sich zunehmend auf die visuelle Dokumentensuche für Aufgaben von der juristischen Recherche bis zur medizinischen Diagnostik verlassen, müssen sich die Bewertungsrahmen von engen akademischen Datensätzen hin zu den unübersichtlichen, mehrsprachigen und visuell komplexen Dokumenten entwickeln, die wir in der realen Welt vorfinden. JinaVDR ist nur der erste Schritt beim Aufbau von Retrieval-Systemen, die wirklich verstehen, wie visuelle und textuelle Informationen in der Praxis zusammenwirken.

Kategorien:
Software-Aktualisierung
rss_feed

Weiterlesen
März 18, 2024 • 7 Minuten gelesen
Mehr mit PromptPerfect: Verbesserte Abo-Optionen & modernster interaktiver Optimierer
Alex C-G
Andrei Ungureanu
Logo with gradient blue-purple background, wave pattern, "v1.0" text, and abstract multicolored shapes at the forefront.
Oktober 30, 2023
Jina Embeddings 2: 8192-Token General-Purpose Text Embeddings for Long Documents
Jina Embeddings 2: 8192-Token General-Purpose Text Embeddings for Long Documents
arXiv
Juli 20, 2023
Jina Embeddings: A Novel Set of High-Performance Sentence Embedding Models
Jina Embeddings: A Novel Set of High-Performance Sentence Embedding Models
EMNLP 2023
Büros
location_on
Sunnyvale, Kalifornien
710 Lakeway Dr, Ste 200, Sunnyvale, CA 94085, USA
location_on
Berlin, Deutschland
Prinzessinnenstraße 19-20, 10969 Berlin, Deutschland
Stiftung durchsuchen
Leser
Einbettungen
Reranker
Jina API-Schlüssel abrufen
Ratenbegrenzung
API-Status
Unternehmen
Über uns
Kontaktieren Sie unseren Vertrieb
Pressemitteilungen
Praktikantenprogramm
Jina-Logo herunterladen
open_in_new
Elastic-Logo herunterladen
open_in_new
Bedingungen
Sicherheit
Terms & amp; Bedingungen
Privatsphäre
Cookie-Einstellungen
email
Jina AI von Elastic © 2020-2026.