
Wir veröffentlichen JinaVDR (Visual Document Retrieval), einen neuen Benchmark zur Bewertung, wie gut Modelle visuell komplexe Dokumente abrufen können. JinaVDR umfasst mehrsprachige Dokumente mit komplexen Layouts – eine Kombination aus Grafiken, Diagrammen, Tabellen, Text und Bildern sowie gescannten Kopien und Screenshots. Der Benchmark paart diese verschiedenen visuellen Dokumente mit gezielten Textabfragen und ermöglicht so eine umfassende Bewertung der Abrufleistung über reale Dokumentkomplexität und breitere Domänenabdeckung hinweg.
| Benchmark | Aufgabenfokus | Sprachen | Anzahl der Aufgaben |
|---|---|---|---|
| JinaVDR | Visuell reichhaltige Dokumente | 20 Sprachen | 95 |
| MIEB | Meist natürliche Bilder | 38 Sprachen | 130 |
| ViDoRe v1 | Visuell reichhaltige Dokumente | Englisch | 5 |
| ViDoRe v2 | Visuell reichhaltige Dokumente | Englisch, Französisch, Spanisch, Deutsch | 4 |

JinaVDR umfasst verschiedene Sprachen, Domänen und Dokumentformate, um reale Abrufszenarien widerzuspiegeln. Während Englisch sowohl in Abfragen als auch in Dokumenten vorherrschend bleibt, enthält der Benchmark über ein Dutzend weitere Sprachen und bietet so eine deutlich breitere mehrsprachige Abdeckung. Die Domänen umfassen historische Dokumente, Softwaredokumentation, medizinische Aufzeichnungen, Rechtstexte und wissenschaftliche Arbeiten, wodurch unterschiedliche professionelle Anwendungsfälle erfasst werden. Die Dokumentformate reichen von Webseiten und PDFs bis hin zu gescannten Materialien, Präsentationsfolien und eigenständigen Bildern. Viele Datensätze mischen absichtlich Sprachen und Formate und schaffen so realistische Bedingungen, die Modelle herausfordern, mit der Komplexität umzugehen, der sie in praktischen Anwendungen begegnen.
tagWie wir JinaVDR erstellen
Der JinaVDR-Benchmark bietet ein Bewertungsframework, das 95 Aufgaben in 20 Sprachen umfasst, darunter domänenvielfältige und layoutreiche Dokumente wie Diagramme, Karten, traditionelle gescannte Dokumente, Markdown-Dateien und komplexe Tabellen. Er bewertet Modelle sowohl durch visuelles Frage-Antworten (zum Beispiel: “How many civil lawsuits were dismissed at the Valladolid audience in 1855?”) als auch durch Schlüsselwortabfragen (zum Beispiel: “growth of the LED market across different regions”), was eine klarere Beurteilung der Abruffähigkeiten für verschiedene Dokumenttypen ermöglicht, die in der realen Welt vorkommen.
Wir haben vier Techniken verwendet, um JinaVDR zu erstellen, wobei wir uns auf Datendiversität und Aufgabenauthentizität konzentriert haben:
Erstens haben wir bestehende Benchmarks wiederverwendet, indem wir OCR-Datensätze mithilfe regelbasierter Abfragevorlagen in Abrufaufgaben umgewandelt haben (z. B. die Transformation von MPMQA-Daten) und Frage-Antwort-Datensätze in Abrufszenarien umformatiert haben:

Zweitens haben wir bestehende PDF-Datensätze manuell annotiert, darunter StanfordSlides, TextbookQA und ShanghaiMasterPlan, um qualitativ hochwertige Abrufpaare zu erstellen:

Unser dritter Ansatz umfasste die synthetische Generierung von Abfragen und/oder Dokumenten, wobei wir vorhandene Dokumentensammlungen aus Quellen wie Europeana verwendet haben, um mit Qwen2-VL-7B-Instruct kontextbezogene Abfragen zusammen mit EasyOCR-Textbeschreibungen zu erstellen:

Wir haben auch tabellarische Datensätze in visuelle Tabellen gerendert und entsprechende Abfragen durch Vorlagen generiert, die aus den ursprünglichen Textdaten abgeleitet wurden, wie in unserer AirBnBRetrieval-Aufgabe gezeigt.
Schließlich haben wir vorhandene gecrawlte Datensätze wiederverwendet, die Artikel-Diagramm-Paare enthalten, wobei wir Textausschnitte aus den Artikeln als Abfragen und entsprechende Diagramme als Zieldokumente verwenden, wie in unserem OWIDRetrieval-Datensatz gezeigt:

Dieser facettenreiche Ansatz ermöglicht uns eine umfassende Abdeckung über Dokumenttypen, Sprachen und Abrufszenarien hinweg.
tagBestehende Benchmarks
Die Entwicklung wirklich multimodaler Modelle (die visuell komplexe Dokumente verarbeiten können) erfordert Benchmarks, die über traditionelle textbasierte Bewertungsmethoden hinausgehen. Frameworks wie MTEB (Massive Text Embedding Benchmark) eignen sich möglicherweise gut für die Bewertung des Textabrufs über verschiedene Domänen und Sprachen hinweg, sind aber nicht für die Suche in Dokumenten konzipiert, bei denen der genaue Abruf von visuellem Layout, Diagrammen, Tabellen und Formatierung abhängt. Hier kommen visuelle Dokumentabruf-Benchmarks (wie die ViDoRe-Serie) und Bildabruf-Benchmarks (wie MIEB, der Massive Image Embedding Benchmark) ins Spiel.
Das ColPali-Paper führte ViDoRe v1 ein, das fünf englischsprachige Datensätze kombiniert, sowohl akademische als auch synthetische. Der Benchmark konzentriert sich auf einseitige Dokumente, die gut mit optischer Zeichenerkennung (OCR) funktionieren, deckt enge Domänen wie wissenschaftliche Arbeiten und Gesundheitswesen ab und verwendet extraktive Abfragen, bei denen Suchbegriffe oft direkt in Zieldokumenten vorkommen.

Nachdem Modelle wie ColPali einen Score von 90 % nDCG@5 auf ViDoRe v1 erreicht hatten, war ein neuer Benchmark erforderlich. ViDoRe v2 verbesserte v1 durch die Unterstützung längerer und dokumentübergreifender Abfragen, Blind Contextual Querying und mehr Sprachen (Französisch, Deutsch und Spanisch zusätzlich zu Englisch). Beide Benchmarks weisen immer noch eine begrenzte Sprachvielfalt und eine enge Domänenabdeckung auf, was Lücken für die Bewertung neuer Abrufsysteme lässt.

Der MIEB verfolgt einen anderen Ansatz, indem er sich auf visuelle Vektormodelle über 130 Aufgaben hinweg konzentriert, darunter auch andere Aufgaben als nur das Abrufen. Er bewertet jedoch hauptsächlich Bilder ohne viele Textinhalte und nicht visuell reichhaltige Dokumente. Obwohl der Benchmark sich hervorragend eignet, um visuelle Verständnisfähigkeiten zu testen, ist er nicht gut geeignet, wenn Sie Dokumente basierend auf visuellem Layout und Textinhalten abrufen müssen.

Unser Ziel mit dem JinaVDR (Visual Document Retrieval) Benchmark ist es, auf der Arbeit dieser früheren Benchmarks aufzubauen, indem wir visuell reichhaltige, mehrsprachige Dokumente mit komplexen Layouts wie Grafiken, Diagrammen und Tabellen (gemischt mit Text und Bildern) sowie realitätsnahe Anfragen und Fragen einbeziehen.
tagBewertung von Vektormodellen auf JinaVDR
Unsere Benchmarking-Ergebnisse zeigen, dass viele aktuelle Embedding-Modelle mit der breiten Palette visueller Dokumentaufgaben von JinaVDR zu kämpfen haben, während OCR-basierte Baselines und ältere Modelle noch schwächere Ergebnisse zeigen, insbesondere bei nicht-englischen und strukturierten Dokumentdatensätzen. Wir haben BM25 mit OCR für alle Datensätze einbezogen, bei denen eine einfache Textextraktion eine solche Suche ermöglichte.
Eine Ausnahme hiervon ist jina-embeddings-v4. Unsere Ergebnisse deuten darauf hin, dass sein multimodaler Embedding-Ansatz die komplexe und mehrsprachige Dokumentensuche besser bewältigt als frühere Generationen von Modellen oder traditionelle OCR-basierte Pipelines. Die Multi-Vektor-Fähigkeit des Modells bietet die beste Leistung, da sie die Komprimierungsbeschränkungen von Single-Vektor-Ansätzen vermeidet — während einzelne Vektoren den gesamten Inhalt einer Seite in einer einzigen Darstellung zusammenfassen müssen (was es schwierig macht, bestimmte Details zu erfassen), behält der Multi-Vektor-Ansatz die granularen Informationen bei, die für die präzise Suche nach ähnlichen Dokumenten erforderlich sind.

| Average | medical-prescriptions | DonutVQA | TableVQA | europeana-de-news | europeana-es-news | europeana-it-scans | europeana-nl-legal | hindi-gov-vqa | jdocqa_jp | wikimedia-commons-documents (ar) | github-readme-retrieval-ml-filtered (ru) | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| BM25 + OCR | 26.67% | 38.18% | 19.39% | 35.64% | 11.26% | 51.99% | 39.11% | 34.97% | 1.83% | 1.64% | 19.60% | 39.78% |
jina-embeddings-v3 + OCR |
27.49% | 37.25% | 2.60% | 34.24% | 12.05% | 44.03% | 38.69% | 29.07% | 7.52% | 7.79% | 38.06% | 51.07% |
| jina-clip-v2 | 17.79% | 15.66% | 1.63% | 21.06% | 11.19% | 13.14% | 16.23% | 9.79% | 5.02% | 19.91% | 45.29% | 36.80% |
colpali-v1.2 |
46.44% | 83.91% | 32.53% | 54.66% | 34.64% | 44.74% | 54.32% | 30.89% | 13.04% | 39.45% | 41.96% | 80.67% |
colqwen2-v0.1 |
58.26% | 77.72% | 46.34% | 57.52% | 53.42% | 74.28% | 71.23% | 46.13% | 20.53% | 74.38% | 36.94% | 0.82388 |
MrLight/dse-qwen2-2b-mrl-v1 |
47.95% | 38.22% | 25.31% | 57.39% | 44.75% | 60.58% | 53.92% | 29.50% | 9.80% | 66.73% | 62.47% | 78.77% |
jina-embeddings-v4 (single-vector) |
61.39% | 81.17% | 78.48% | 58.90% | 49.05% | 60.10% | 57.88% | 37.14% | 15.40% | 75.57% | 72.07% | 89.55% |
jina-embeddings-v4 (multivector) |
70.89% | 97.95% | 73.55% | 60.91% | 65.65% | 80.58% | 73.14% | 54.15% | 21.94% | 82.34% | 81.19% | 88.39% |
tagMTEB-Integration
Da sich MTEB zum De-facto-Standard für Retrieval-Benchmarking entwickelt hat, integrieren wir JinaVDR direkt in das MTEB-Framework, um die Akzeptanz und Benutzerfreundlichkeit zu maximieren. Dies erleichtert es Forschern, visuelle Retrieval-Modelle auf unserem Benchmark mithilfe einer vertrauten Bewertungsinfrastruktur auszuführen. Die Migration unserer Daten in das BEIR-Format erforderte jedoch einige Kompromisse, wie z. B. den Verzicht auf OCR-Ergebnisse in der MTEB-Version. Dies bedeutet, dass traditionelle textbasierte Methoden wie BM25 nicht direkt als Teil des MTEB ausgeführt werden können, was den Fokus auf das visuelle Dokumentenverständnis verstärkt, anstatt auf textbasierte Retrieval-Methoden zurückzugreifen.
tagEinschränkungen
Um einen umfassenden Benchmark aus einer Vielzahl von Quellen zu erstellen, mussten wir eine sorgfältige Vorverarbeitung durchführen, um sowohl die praktische Nutzbarkeit als auch die Bewertungsqualität sicherzustellen: Wir haben eine Größennormalisierung vorgenommen, indem wir jeden Datensatz auf maximal 1.000 Beispiele reduziert haben (von Tausenden oder Zehntausenden), wodurch der Benchmark tatsächlich ausführbar ist und gleichzeitig eine gute Abdeckung über alle Aufgaben hinweg gewährleistet wird. Diese Einschränkung war besonders wichtig angesichts des hohen Rechenaufwands, den wir für die Verarbeitung hochauflösender visueller Dokumente benötigten.
Wir haben eine Qualitätsfilterung verwendet, um verschiedene Herausforderungen zu bewältigen, die in realen Dokumentensammlungen üblich sind. Während eine schlechte Bildqualität in gescannten Dokumenten oft realistische Anwendungsfälle widerspiegelt, erschwerte sie es, die Qualität synthetischer Daten zu kontrollieren. Wir haben eine Konsistenzfilterung implementiert, um Duplikate zu entfernen (die in großen Dokumentensammlungen häufig vorkommen), und große Sprachmodelle (LLMs) verwendet, um minderwertige Abfragen herauszufiltern, die keine nützlichen Bewertungssignale liefern würden, wie z. B. allzu allgemeine Fragen wie "Was kann man in der Grafik sehen?". Bei der Generierung synthetischer Daten stießen wir trotz der Verwendung verschiedener Prompting-Strategien auf Einschränkungen in der Abfragevielfalt und mussten eine manuelle Kuratierung durchführen, um eine ausreichende Bewertungsabdeckung über verschiedene Retrieval-Szenarien hinweg sicherzustellen.
tagFazit
Die Bewertung der visuellen Dokumentensuche befindet sich nun in einer Situation, in der traditionelle textbasierte Benchmarks die Komplexität der Art und Weise, wie Menschen tatsächlich nach Informationen suchen und diese konsumieren, nicht mehr erfassen. JinaVDR überwindet diese Barriere, indem es eine umfassende Bewertung über eine Reihe von Aufgaben und Sprachen hinweg bietet, die frühere Benchmarks bei weitem übertrifft.
Für die Zukunft benötigt die Industrie Benchmarks, die echte Retrieval-Herausforderungen widerspiegeln und keine künstlichen Einschränkungen. Da Unternehmen sich zunehmend auf die visuelle Dokumentensuche für Aufgaben von der juristischen Recherche bis zur medizinischen Diagnostik verlassen, müssen sich die Bewertungsrahmen von engen akademischen Datensätzen hin zu den unübersichtlichen, mehrsprachigen und visuell komplexen Dokumenten entwickeln, die wir in der realen Welt vorfinden. JinaVDR ist nur der erste Schritt beim Aufbau von Retrieval-Systemen, die wirklich verstehen, wie visuelle und textuelle Informationen in der Praxis zusammenwirken.






