jina-reranker-m0: Mehrsprachiger multimodaler Dokument-Reranker

Heute veröffentlichen wir jina-reranker-m0, unser neues mehrsprachiges multimodales Reranker-Modell zum Ranking visueller Dokumente in mehreren Sprachen: Es akzeptiert eine Anfrage zusammen mit einer Sammlung von visuell reichhaltigen Dokumentenbildern, einschließlich Seiten mit Text, Abbildungen, Tabellen, Infografiken und verschiedenen Layouts über mehrere Domänen und über 29 Sprachen hinweg. Es gibt eine nach Relevanz zur Eingabeanfrage geordnete Liste von Dokumenten aus. Im Vergleich zu jina-reranker-v2-base-multilingual verbessert jina-reranker-m0 auch das Text-Reranking für mehrsprachige Inhalte, lange Dokumente und Code-Suchaufgaben.

Die Leistung von jina-reranker-m0 bei den visuellen Retrieval-Benchmarks ViDoRe, MBEIR und Winoground zeigt seine Fähigkeiten bei verschiedenen multimodalen Retrieval-Aufgaben über mehrere Domänen und Sprachen hinweg. Jeder Punkt repräsentiert Leistungswerte für verschiedene Arten/Aufgaben von visuellen Dokumenten. Die Boxplots veranschaulichen die Verteilung dieser Werte, wobei die hervorgehobenen Zahlen die durchschnittliche (mittlere) Leistung anzeigen. Vollständige Benchmark-Ergebnisse finden Sie im Anhang dieses Beitrags.

Dieser Boxplot zeigt die Leistung von jina-reranker-m0 über vier reine Text-Reranking-Benchmarks. Jeder Benchmark kann mehrere Datensätze, Sprachen oder Aufgaben umfassen, dargestellt durch einzelne Punkte innerhalb des Boxplots. Der Boxplot zeigt die Verteilung dieser Werte, wobei die hervorgehobene Zahl die durchschnittliche (mittlere) Leistung anzeigt. Während die meisten Benchmarks NDCG@10 als Leistungsmetrik verwenden, nutzt MKQA stattdessen Recall@10, da MKQAs Annotationsdaten keine NDCG-Berechnung unterstützen (die offizielle Auswertung verwendet Recall, der die Dokumentrelevanz durch Heuristiken bestimmt). Vollständige Benchmark-Ergebnisse sind im Anhang dieses Beitrags verfügbar.

tagNeue Architektur

Die Architektur von jina-reranker-m0 basiert auf Qwen2-VL-2B und besteht aus 2,1 Milliarden Parametern. Dieses Modell ordnet Dokumente effizient durch Bewertung ihrer visuellen und textuellen Elemente in Bezug auf Anfragen mittels paarweisem Vergleich.

Im Gegensatz zu jina-reranker-v2-base-multilingual wechselt jina-reranker-m0 von der klassischen Cross-Encoder-Architektur zu einem decoder-only Vision Language Model. Es nutzt den vortrainierten Vision-Encoder und Projektor von Qwen2-VL, feintunte sein LLM mit LoRA und trainierte nachträglich ein MLP, um Ranking-Logits zu generieren, die die Query-Dokument-Relevanz messen. Dies ergibt ein diskriminatives Modell, das für Ranking-Aufgaben optimiert ist.

	jina-reranker-m0	`jina-reranker-v2`
Architektur	Vision Language Model	Cross-Encoder
Basismodell	Qwen2-VL-2B	Jina-XLM-RoBERTa
Parameter	2,4 B	278 M
Max. Kontextlänge (Query + Dokument)	10.240	8.192
Max. Bildpatches (dynamische Auflösung)	768 × 28 × 28	❌
Mehrsprachige Unterstützung	✅	✅
Unterstützte Aufgaben	Text2Text, Text2Image, Image2Text, Text2Mixed	Text2Text

Diese neue Architektur ermöglicht es jina-reranker-m0, bis zu 32K Token zu verarbeiten und dabei visuelle und textuelle Eingaben nahtlos zu kombinieren. Das Modell unterstützt Bilder von einer Mindestgröße von 56×56 Pixeln bis hin zu 4K-Auflösung. Bei der Bildverarbeitung verdichten ViT und Projektor benachbarte 2×2 Token zu einzelnen visuellen Token für die LLM-Eingabe. Spezielle Token wie <|vision_start|> und <|vision_end|> markieren eindeutig die Grenzen visueller Token und ermöglichen es dem Sprachmodell, visuelle Informationen korrekt zu verarbeiten und anspruchsvolle multimodale Schlussfolgerungen zu ziehen, die sowohl visuelle als auch textuelle Elemente integrieren.

Diese Architektur löst auch effektiv das Modalitätslücken-Problem, das frühere Modelle wie jina-clip-v1 und jina-clip-v2 plagte. Zuvor clusterten sich Bilder in der Nähe anderer Bilder, während sich Text in der Nähe anderen Texts im Repräsentationsraum gruppierte, was eine Trennung erzeugte. Das bedeutete, dass wenn Ihre Kandidatendokumente sowohl Bilder als auch Text enthielten, das Abrufen von Bildern mittels Textanfragen problematisch war. Mit jina-reranker-m0 können Sie nun Bilder und Dokumente gemeinsam ranken, ohne sich um diese Lücke sorgen zu müssen, was ein wirklich einheitliches multimodales Sucherlebnis schafft.

In multimodalen Retrieval-Systemen bezieht sich eine "Modalitätslücke" auf den Unterschied, wie das Modell Text-zu-Text-Ähnlichkeit im Vergleich zu Text-zu-Bild-Ähnlichkeit bewertet. Betrachtet man das linke Bild (jina-clip-v2), gibt es eine klare Trennung zwischen den beiden Verteilungen: Die Text-zu-Text-Ähnlichkeitsverteilung (rot) erreicht ihren Höhepunkt bei etwa 0,35. Die Text-zu-Bild-Ähnlichkeit (blau) erreicht ihren Höhepunkt bei etwa 0,65-0,7. Diese signifikante Trennung weist auf eine große Modalitätslücke hin - das Modell bewertet Text-zu-Text- und Text-zu-Bild-Paare in grundsätzlich unterschiedlichen Bereichen. Dies macht es schwierig, Scores über Modalitäten hinweg direkt zu vergleichen. In einem System ohne Modalitätslücke würden wir erwarten, dass sich die Verteilungen weitgehend überlappen, was bedeutet, dass das Modell beide Arten von Paaren in ähnlichen Bereichen basierend auf reiner Relevanz und nicht auf Modalitätstyp bewertet.

Es ist erwähnenswert, dass unser Training auf maximal 10K Eingabe-Token beschränkt war, mit bis zu 768 Token pro Bild (zwischen <|vision_start|> und <|vision_end|> Markierungen). Zusätzlich haben wir das Modell nicht speziell für image-to-image, image-to-multimodal oder text-to-multimodal Reranking-Aufgaben trainiert. In diesem Kontext bezieht sich "multimodal" auf ein einzelnes Dokument, das sowohl Bild- als auch Text-Token in der Eingabe enthält. Betrachtet man alle möglichen Kombinationen von Bild- und Text-Token in sowohl Queries als auch Dokumenten, können wir den vollständigen Umfang der von jina-reranker-m0 unterstützten Aufgaben in der nachfolgenden Tabelle zusammenfassen.

jina-reranker-m0 unterstützt eine breite Palette von Query- und Dokument-Eingabekombinationen für Reranking-Zwecke. Dank umfangreichen Trainings erzielt es modernste Leistungen bei Text-zu-Text-, Text-zu-Bild-, Bild-zu-Text- und Text-zu-gemischt-unimodalen Aufgaben. Das Modell verarbeitet auch andere Eingabekombinationen im Zero-Shot-Verfahren - die Architektur unterstützt diese Token-Kombinationen, obwohl wir nicht speziell für diese Aufgaben trainiert haben.

In unseren Tests fanden wir einige Hinweise darauf, dass das Modell auf diese untrainierten Ranking-Aufgaben extrapolieren kann. Die Effektivität in diesen Bereichen sollte jedoch als Ergebnis der Zero-Shot-Übertragbarkeit des Modells oder unbeabsichtigter Trainingsnebeneffekte betrachtet werden. Wir haben keine ernsthaften Evaluierungen der Modellleistung für diese Aufgaben durchgeführt und planen, diese Fähigkeiten in zukünftiger Forschung gründlicher zu untersuchen.

tagErste Schritte

tagÜber API

Der folgende Code zeigt, wie Relevanzwerte zwischen der Anfrage "small language model data extraction" und einer Sammlung von Bildern und Textdokumenten berechnet werden. Sie können einen Text-String, ein Base64-codiertes Bild oder eine Bild-URL übergeben. Neue Nutzer erhalten einen Jina API-Schlüssel mit 1 Million kostenlosen Tokens. Während unsere API keine Bilder als Anfragen unterstützt, können Sie Bilder als Anfragen verwenden, wenn Sie auf das Modell über die Hugging Face Transformers-Bibliothek zugreifen.

curl -X POST \
  https://api.jina.ai/v1/rerank \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer JINA_API_KEY" \
  -d '{
  "model": "jina-reranker-m0",
  "query": "small language model data extraction",
  "documents": [
    {
      "image": "https://raw.githubusercontent.com/jina-ai/multimodal-reranker-test/main/handelsblatt-preview.png"
    },
    {
      "image": "https://raw.githubusercontent.com/jina-ai/multimodal-reranker-test/main/paper-11.png"
    },
    {
      "image": "https://raw.githubusercontent.com/jina-ai/multimodal-reranker-test/main/wired-preview.png"
    },
    {
      "text": "We present ReaderLM-v2, a compact 1.5 billion parameter language model designed for efficient web content extraction. Our model processes documents up to 512K tokens, transforming messy HTML into clean Markdown or JSON formats with high accuracy -- making it an ideal tool for grounding large language models. The models effectiveness results from two key innovations: (1) a three-stage data synthesis pipeline that generates high quality, diverse training data by iteratively drafting, refining, and critiquing web content extraction; and (2) a unified training framework combining continuous pre-training with multi-objective optimization. Intensive evaluation demonstrates that ReaderLM-v2 outperforms GPT-4o-2024-08-06 and other larger models by 15-20% on carefully curated benchmarks, particularly excelling at documents exceeding 100K tokens, while maintaining significantly lower computational requirements."
    },
    {
      "image": "https://jina.ai/blog-banner/using-deepseek-r1-reasoning-model-in-deepsearch.webp"
    },
    {
      "text": "数据提取么？为什么不用正则啊，你用正则不就全解决了么？"
    },
    {
      "text": "During the California Gold Rush, some merchants made more money selling supplies to miners than the miners made finding gold."
    },
    {
      "text": "Die wichtigsten Beiträge unserer Arbeit sind zweifach: Erstens führen wir eine neuartige dreistufige Datensynthese-Pipeline namens Draft-Refine-Critique ein, die durch iterative Verfeinerung hochwertige Trainingsdaten generiert; und zweitens schlagen wir eine umfassende Trainingsstrategie vor, die kontinuierliches Vortraining zur Längenerweiterung, überwachtes Feintuning mit spezialisierten Kontrollpunkten, direkte Präferenzoptimierung (DPO) und iteratives Self-Play-Tuning kombiniert. Um die weitere Forschung und Anwendung der strukturierten Inhaltsextraktion zu erleichtern, ist das Modell auf Hugging Face öffentlich verfügbar."
    }
  ],
  "return_documents": false
}'

Die Antwort ist unten dargestellt, wobei das erste Ergebnis index=1 unserem ReaderLM-v2 Paper-Screenshot entspricht.

{"model":"jina-reranker-m0","usage":{"total_tokens":2829},"results":[{"index":1,"relevance_score":0.9587112551898949},{"index":3,"relevance_score":0.9337408271911014},{"index":7,"relevance_score":0.8922925217195924},{"index":2,"relevance_score":0.8891905997562045},{"index":0,"relevance_score":0.8827516945848907},{"index":4,"relevance_score":0.8701035914834407},{"index":6,"relevance_score":0.8676828987527296},{"index":5,"relevance_score":0.8455347349164652}]}

tagÜber CSP-Marktplätze

jina-reranker-m0 wird in Kürze direkt auf AWS, Azure und GCP zu den dort aufgeführten Preisen verfügbar sein.

tagÜber HuggingFace

Sie können das Modell auch lokal von unserer Hugging Face-Seite aus nutzen. Wir haben ein Google Colab Notebook vorbereitet, das die Funktionsweise demonstriert. Im Vergleich zu unserer Web-API bietet die lokale Nutzung des Modells größere Flexibilität, wie zum Beispiel die Möglichkeit, Bilder als Anfragen zu verwenden und mit multimodalen Dokumenten zu arbeiten.

tagEvaluierung

Vollständige Evaluierungen finden Sie in dieser Google-Tabelle.

tagBEIR (Text2Text, nur Englisch)

BEIR: A Heterogenous Benchmark for Zero-shot Evaluation of Information Retrieval Models

Existing neural information retrieval (IR) models have often been studied in homogeneous and narrow settings, which has considerably limited insights into their out-of-distribution (OOD) generalization capabilities. To address this, and to facilitate researchers to broadly evaluate the effectiveness of their models, we introduce Benchmarking-IR (BEIR), a robust and heterogeneous evaluation benchmark for information retrieval. We leverage a careful selection of 18 publicly available datasets from diverse text retrieval tasks and domains and evaluate 10 state-of-the-art retrieval systems including lexical, sparse, dense, late-interaction and re-ranking architectures on the BEIR benchmark. Our results show BM25 is a robust baseline and re-ranking and late-interaction-based models on average achieve the best zero-shot performances, however, at high computational costs. In contrast, dense and sparse-retrieval models are computationally more efficient but often underperform other approaches, highlighting the considerable room for improvement in their generalization capabilities. We hope this framework allows us to better evaluate and understand existing retrieval systems, and contributes to accelerating progress towards better robust and generalizable systems in the future. BEIR is publicly available at https://github.com/UKPLab/beir.

arXiv.orgNandan Thakur

BEIR ist ein heterogener Benchmark für Information Retrieval, der entwickelt wurde, um die Vielseitigkeit und Robustheit von IR-Modellen zu evaluieren. Er enthält verschiedene Datensätze aus unterschiedlichen Domänen und konzentriert sich auf Zero-Shot-Evaluation. Standardisierte Evaluationsmetriken wie NDCG, Recall@K und MRR werden verwendet.

Model	AVG (NDCG@10)	TREC-COVID	NFCorpus	NQ	HotpotQA	FiQA	ArguAna	Touche-2020	DBPedia	SCIDOCS	FEVER	Climate-FEVER	SciFact	Quora
jina-reranker-m0	58.95	84.17	41.03	72.25	76.99	51.62	40.69	31.79	49.34	22.91	91.14	36.42	79.94	88.01
jina-embeddings-v3 (1024 tokens)	55.81	77.81	36.65	64.31	64.63	47.47	54.31	26.55	41.07	19.91	89.00	42.33	72.4	89.06
bge-reranker-v2-m3	56.51	82.19	34.33	69.52	77.89	45.45	36.21	33.12	46.72	17.79	91.03	38.69	72.64	89.10
jina-reranker-v2-multilingual	57.06	80.53	37.17	67.39	76.17	46.48	39.28	32.35	47.81	20.03	93.02	37.17	76.50	87.83

tagMIRACL (Text2Text, Mehrsprachig, 18 Sprachen)

Making a MIRACL: Multilingual Information Retrieval Across a Continuum of Languages

MIRACL (Multilingual Information Retrieval Across a Continuum of Languages) ist ein mehrsprachiger Datensatz, den wir für die WSDM 2023 Cup Challenge erstellt haben. Er konzentriert sich auf Ad-hoc-Retrieval in 18 verschiedenen Sprachen, die zusammen über drei Milliarden Muttersprachler weltweit umfassen. Diese Sprachen haben unterschiedliche Typologien, stammen aus vielen verschiedenen Sprachfamilien und verfügen über unterschiedlich viele Ressourcen - darunter sowohl ressourcenreiche als auch ressourcenarme Sprachen, wie sie von Forschern typischerweise charakterisiert werden. Unser Datensatz wurde entwickelt, um die Erstellung und Evaluation von Modellen für monolinguale Retrieval zu unterstützen, bei denen die Anfragen und Korpora in derselben Sprache vorliegen. Insgesamt haben wir über 700.000 hochwertige Relevanzbeurteilungen für rund 77.000 Anfragen über Wikipedia in diesen 18 Sprachen gesammelt, wobei alle Bewertungen von Muttersprachlern durchgeführt wurden, die von unserem Team eingestellt wurden. Unser Ziel ist es, Forschung anzuregen, die das Retrieval über ein Kontinuum von Sprachen hinweg verbessert und damit die Möglichkeiten des Informationszugangs für verschiedene Bevölkerungsgruppen weltweit erweitert, insbesondere für diejenigen, die traditionell unterversorgt sind. Dieses Übersichtspapier beschreibt den Datensatz und die Baselines, die wir der Community zur Verfügung stellen. Die MIRACL-Website ist unter http://miracl.ai/ erreichbar.

arXiv.orgXinyu Zhang

MIRACL ist ein umfangreicher mehrsprachiger Datensatz für Ad-hoc-Informationsabruf in 18 Sprachen. Er umfasst über drei Milliarden Muttersprachler und enthält sorgfältige menschliche Annotationen. Der Fokus liegt auf einsprachigen Abrufaufgaben.

Model	AVG (NDCG@10)	ar	bn	en	es	fa	fi	fr	hi	id	ja	ko	ru	sw	te	th	zh	de	yo
jina-reranker-m0	66.75	79.78	78.01	59.21	53.56	58.80	78.00	56.66	62.83	54.92	66.51	72.86	67.26	59.04	70.19	80.37	64.51	58.50	80.44
jina-embeddings-v3 (8192 tokens)	58.90	71.53	69.86	48.37	46.91	54.13	71.15	50.90	55.05	47.83	56.46	64.76	55.63	54.07	70.48	73.56	55.29	49.18	65.01
bge-reranker-v2-m3	69.32	80.51	81.85	57.67	57.64	61.92	80.38	59.60	67.66	58.86	67.37	75.14	67.61	68.92	76.69	82.29	64.46	58.32	80.85
jina-reranker-v2-multilingual	63.65	72.50	79.42	46.66	51.54	57.81	73.05	50.90	60.94	56.66	59.15	72.60	53.43	66.47	74.62	77.75	62.49	53.06	76.69

tagMLDR (Text2Text, Mehrsprachige Lange Dokumente, 13 Sprachen)

BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation

In diesem Paper präsentieren wir ein neues Embedding-Modell namens M3-Embedding, das sich durch seine Vielseitigkeit in Mehrsprachigkeit, Multifunktionalität und Mehrgranularität auszeichnet. Es unterstützt über 100 Arbeitssprachen und führt zu neuen State-of-the-Art-Leistungen bei mehrsprachigen und sprachübergreifenden Retrieval-Aufgaben. Es kann gleichzeitig die drei gängigen Retrieval-Funktionalitäten von Embedding-Modellen ausführen: Dense Retrieval, Multi-Vector Retrieval und Sparse Retrieval, was eine einheitliche Modellgrundlage für IR-Anwendungen in der Praxis bietet. Es kann Eingaben unterschiedlicher Granularität verarbeiten, von kurzen Sätzen bis hin zu langen Dokumenten mit bis zu 8192 Tokens. Das effektive Training von M3-Embedding beinhaltet folgende technische Beiträge. Wir schlagen einen neuartigen Self-Knowledge Distillation-Ansatz vor, bei dem die Relevanzwerte verschiedener Retrieval-Funktionalitäten als Lehrersignal zur Verbesserung der Trainingsqualität integriert werden können. Wir optimieren auch die Batching-Strategie, die eine große Batch-Größe und hohen Trainingsdurchsatz ermöglicht, um die Unterscheidbarkeit der Embeddings sicherzustellen. Nach unserem Wissen ist M3-Embedding das erste Embedding-Modell, das eine solch starke Vielseitigkeit realisiert. Das Modell und der Code werden unter https://github.com/FlagOpen/FlagEmbedding öffentlich verfügbar sein.

arXiv.orgJianlv Chen

MLDR ist ein mehrsprachiger Datensatz, der speziell für das Auffinden langer Dokumente entwickelt wurde und 13 Sprachen abdeckt. Er verwendet GPT-3.5 zur Generierung von Fragen für die Dokumente. Der Datensatz basiert auf Wikipedia, Wudao und mC4.

Model	AVG (NDCG@10)	ar	de	en	es	fr	hi	it	ja	ko	pt	ru	th	zh
jina-reranker-m0	59.83	55.86	51.25	54.67	87.63	82.59	32.76	73.25	58.93	55.73	86.08	66.73	39.17	33.14
jina-embeddings-v3 (8192 tokens)	39.71	28.44	31.57	29.07	62.08	59.79	25.47	53.72	38.36	32.37	63.26	49.65	25.15	17.26
bge-reranker-v2-m3	53.53	49.19	45.39	43.92	74.57	68.67	44.75	62.79	49.27	48.24	76.45	62.84	38.82	31.02
jina-reranker-v2-multilingual	59.50	51.96	50.13	46.85	86.34	82.25	49.50	69.00	59.07	52.19	85.26	68.06	38.73	34.15

tagMKQA (Text2Text, mehrsprachige Frage-Antwort, 24 Sprachen, 3 Varianten für Chinesisch)

MKQA: A Linguistically Diverse Benchmark for Multilingual Open Domain Question Answering

Der Fortschritt im sprachübergreifenden Modellieren hängt von anspruchsvollen, realistischen und vielfältigen Evaluierungssets ab. Wir stellen Multilingual Knowledge Questions and Answers (MKQA) vor, ein Evaluierungsset für domänenoffene Frage-Antwort-Systeme, das 10.000 Frage-Antwort-Paare umfasst, die über 26 typologisch verschiedene Sprachen hinweg ausgerichtet sind (insgesamt 260.000 Frage-Antwort-Paare). Die Antworten basieren auf einer stark kuratierten, sprachunabhängigen Datenrepräsentation, was die Ergebnisse über Sprachen hinweg vergleichbar und unabhängig von sprachspezifischen Passagen macht. Mit 26 Sprachen bietet dieser Datensatz die bisher größte Sprachauswahl zur Evaluierung von Frage-Antwort-Systemen. Wir vergleichen verschiedene State-of-the-Art-Methoden und Baselines für generative und extraktive Frage-Antwort-Systeme, die auf Natural Questions trainiert wurden, in Zero-Shot- und Übersetzungseinstellungen. Die Ergebnisse zeigen, dass dieser Datensatz selbst in Englisch anspruchsvoll ist, aber besonders in ressourcenarmen Sprachen

arXiv.orgShayne Longpre

MKQA ist ein Evaluierungsset für domänenübergreifende Frage-Antwort-Paare, das 10.000 Frage-Antwort-Paare umfasst, die über 26 typologisch verschiedene Sprachen ausgerichtet sind. Die Frage-Antwort-Paare stammen aus Google Natural Questions.

Model	AVG (recall@10)	ar	da	de	es	en	fi	fr	he	hu	it	ja	km	ko	ms	nl	no	pl	pt	ru	sv	th	tr	vi	zh_cn	zh_hk	zh_tw
jina-reranker-m0	68.19	63.88	70.57	70.52	71.26	73.47	64.10	71.11	63.68	63.23	70.30	69.13	50.43	64.30	70.78	71.73	70.25	69.72	70.57	70.78	70.69	69.80	67.90	69.68	69.12	68.23	67.79
jina-embeddings-v3 (8192 tokens)	65.63	59.00	69.12	68.27	68.15	71.14	65.66	68.30	59.51	63.23	68.30	64.36	56.13	58.98	68.30	69.53	68.65	67.26	67.93	67.06	68.68	66.32	66.97	66.87	63.38	63.59	61.55
bge-reranker-v2-m3	67.88	63.09	70.15	68.91	68.92	73.00	68.71	68.71	70.27	64.00	68.15	68.47	60.43	63.95	68.80	70.77	69.10	67.44	67.40	69.77	70.03	69.68	66.04	68.29	67.84	66.70	66.34
jina-reranker-v2-multilingual	67.90	63.88	70.31	70.09	70.51	73.09	67.50	70.38	63.00	64.59	69.90	67.34	57.79	62.14	70.36	71.58	69.51	68.61	70.13	70.07	70.15	68.80	68.02	69.39	67.23	65.77	65.37

tagCoIR (Text2Text, Code Information Retrieval)

CoIR: Ein umfassender Benchmark für Code Information Retrieval Modelle

Trotz des erheblichen Erfolgs von Information Retrieval (IR) in verschiedenen NLP-Aufgaben behandeln die meisten IR-Systeme hauptsächlich Abfragen und Korpora in natürlicher Sprache und vernachlässigen den Bereich des Code Retrieval. Code Retrieval ist von entscheidender Bedeutung, bleibt aber wenig erforscht, wobei bestehende Methoden und Benchmarks die Vielfalt von Code in verschiedenen Domänen und Aufgaben nicht angemessen repräsentieren. Um diese Lücke zu schließen, präsentieren wir COIR (Code Information Retrieval Benchmark), einen robusten und umfassenden Benchmark, der speziell für die Bewertung von Code-Retrieval-Fähigkeiten entwickelt wurde. COIR umfasst zehn sorgfältig kuratierte Code-Datensätze, die acht charakteristische Retrieval-Aufgaben in sieben verschiedenen Domänen abdecken. Wir diskutieren zunächst den Aufbau von COIR und seine vielfältige Datensatzzusammensetzung. Darüber hinaus evaluieren wir neun häufig verwendete Retrieval-Modelle mit COIR und decken dabei erhebliche Schwierigkeiten bei der Durchführung von Code-Retrieval-Aufgaben selbst mit modernsten Systemen auf. Um eine einfache Übernahme und Integration in bestehende Forschungsabläufe zu ermöglichen, wurde COIR als benutzerfreundliches Python-Framework entwickelt, das einfach über pip installiert werden kann. Es verwendet das gleiche Datenschema wie andere beliebte Benchmarks wie MTEB und BEIR und ermöglicht so nahtlose benchmarkübergreifende Evaluierungen. Mit COIR wollen wir die Forschung im Bereich Code Retrieval beleben und ein vielseitiges Benchmarking-Tool bereitstellen, das die Weiterentwicklung und Erforschung von Code-Retrieval-Systemen fördert https://github.com/CoIR-team/coir.

arXiv.orgXiangyang Li

CoIR ist ein umfassender Benchmark zur Bewertung der Code-Retrieval-Fähigkeiten von Modellen. Er umfasst 10 kuratierte Code-Datensätze, die 8 Retrieval-Aufgaben in 7 verschiedenen Domänen abdecken. Für diesen Benchmark wird ein Python-Framework bereitgestellt.

Model Name	Avg (NDCG@10)	Text-to-Code			Code-to-Text							Code-to-Code									Hybrid Code
		Apps	CosQA	SQL	CSN							CSN-CCR							CodeTransOcean		StackOver Flow	CodeFeedBack
		Apps	CosQA	SQL	AVG	python	javascript	go	ruby	java	php	AVG	python	javascript	go	ruby	java	php	-Contest	-DL	StackOver Flow	-MT	-ST
jina-reranker-m0	63.55	26.21	37.75	57.92	80.76	98.37	71.16	86.14	72.74	79.02	77.14	74.57	81.66	77.92	68.71	75.44	77.54	66.13	79.79	31.89	90.41	72.25	83.95
jina-embeddings-v2-base-code (top 100)	56.90	16.34	41.72	49.79	83.95	94.71	76.35	87.39	78.23	82.69	84.35	59.65	68.23	62.31	49.15	65.40	63.89	48.92	79.20	30.35	89.42	49.62	68.93
bge-reranker-v2-m3	35.97	8.33	30.06	50.63	49.26	67.62	39.55	58.11	41.37	44.77	44.13	40.81	42.57	42.75	38.04	38.04	41.73	41.73	34.93	5.09	60.12	16.44	64.05
jina-reranker-v2-multilingual	56.14	21.90	37.26	53.56	78.88	97.83	67.43	84.64	68.93	75.73	78.71	63.59	72.62	67.80	55.07	67.25	64.25	54.54	73.67	25.74	91.24	42.03	73.59

tagViDoRe (Text2Image, Visual Document Retrieval Benchmark)

ColPali: Effizientes Dokumenten-Retrieval mit Vision-Language-Modellen

Dokumente sind visuell reichhaltige Strukturen, die Informationen nicht nur durch Text, sondern auch durch Abbildungen, Seitenlayouts, Tabellen oder sogar Schriftarten vermitteln. Da moderne Retrieval-Systeme hauptsächlich auf der textuellen Information basieren, die sie aus Dokumentenseiten extrahieren - oft durch langwierige und anfällige Prozesse -, haben sie Schwierigkeiten, wichtige visuelle Hinweise effizient zu nutzen. Dies schränkt ihre Fähigkeiten in vielen praktischen Dokumenten-Retrieval-Anwendungen wie Retrieval Augmented Generation (RAG) ein. Um aktuelle Systeme beim Retrieval visuell reichhaltiger Dokumente zu benchmarken, stellen wir den Visual Document Retrieval Benchmark ViDoRe vor, der verschiedene Retrieval-Aufgaben auf Seitenebene umfasst und mehrere Domänen, Sprachen und praktische Szenarien abdeckt. Die inhärente Komplexität und Leistungsdefizite moderner Systeme motivieren ein neues Konzept: Dokumenten-Retrieval durch direktes Einbetten der Bilder der Dokumentenseiten. Wir veröffentlichen ColPali, ein Vision Language Model, das trainiert wurde, um hochwertige Multi-Vektor-Embeddings aus Bildern von Dokumentenseiten zu erzeugen. In Kombination mit einem Late-Interaction-Matching-Mechanismus übertrifft ColPali moderne Dokumenten-Retrieval-Pipelines deutlich und ist dabei drastisch einfacher, schneller und End-to-End trainierbar. Wir veröffentlichen Modelle, Daten, Code und Benchmarks unter offenen Lizenzen unter https://hf.co/vidore.

arXiv.orgManuel Faysse

ViDoRe ist ein Benchmark, der entwickelt wurde, um Retrieval-Systeme hinsichtlich ihrer Fähigkeit zu bewerten, Anfragen mit relevanten Dokumenten anhand visueller Merkmale abzugleichen. Er umfasst verschiedene Retrieval-Aufgaben auf Seitenebene über mehrere Domänen und Sprachen hinweg. Der Benchmark konzentriert sich auf visuelle Elemente von Dokumenten.

Model Name	AVG (NDCG@5)	TAT-DQA	Shift Project	Artificial Intelligence	Government Reports	ArxivQA	DocVQA	Healthcare Industry	InfoVQA	Energy	TabFQuad
jina-reranker-m0	91.02	81.83	93.22	99.63	97.59	89.82	62.58	99.26	92.88	96.06	97.32
MrLight/dse-qwen2-2b-mr1-v1	84.48	66.64	79.39	96.45	95.30	84.53	55.47	96.85	86.39	91.80	92.03
MonoQwen2-VL-v0.1	87.64	79.50	76.38	98.39	93.63	89.50	57.47	98.39	92.12	95.29	95.75

tagM-BEIR (Text2Image, Image2Text, Multimodal BEnchmark for Instructed Retrieval)

UniIR: Training and Benchmarking Universal Multimodal Information Retrievers

Existing information retrieval (IR) models often assume a homogeneous format, limiting their applicability to diverse user needs, such as searching for images with text descriptions, searching for a news article with a headline image, or finding a similar photo with a query image. To approach such different information-seeking demands, we introduce UniIR, a unified instruction-guided multimodal retriever capable of handling eight distinct retrieval tasks across modalities. UniIR, a single retrieval system jointly trained on ten diverse multimodal-IR datasets, interprets user instructions to execute various retrieval tasks, demonstrating robust performance across existing datasets and zero-shot generalization to new tasks. Our experiments highlight that multi-task training and instruction tuning are keys to UniIR's generalization ability. Additionally, we construct the M-BEIR, a multimodal retrieval benchmark with comprehensive results, to standardize the evaluation of universal multimodal information retrieval.

arXiv.orgCong Wei

M-BEIR ist ein umfassender großskaliger Retrieval-Benchmark, der zur Schulung und Bewertung von multimodalen Retrieval-Modellen entwickelt wurde. Er umfasst acht multimodale Retrieval-Aufgaben und zehn Datensätze aus verschiedenen Domänen und Quellen. Der Benchmark konzentriert sich auf anweisungsbasiertes Retrieval.

Model	MBEIR t2i VisualNews Recall@5	MBEIR t2i MSCOCO Recall@5	MBEIR t2i Fashion200K Recall@10	MBEIR i2t VisualNews Recall@5	MBEIR i2t MSCOCO Recall@5	MBEIR i2t Fashion200K Recall@10
jina-reranker-m0	23.89	72.19	9.79	17.61	41.21	11.56
jinaai/jina-clip-v2	15.42	52.28	7.03	11.63	28.80	8.78
MonoQwen2-VL-v0.1	22.74	71.29	10.00	15.08	42.24	11.25

tagWinoground (Text2Text, Text2Image)

Winoground: Probing Vision and Language Models for Visio-Linguistic Compositionality

We present a novel task and dataset for evaluating the ability of vision and language models to conduct visio-linguistic compositional reasoning, which we call Winoground. Given two images and two captions, the goal is to match them correctly - but crucially, both captions contain a completely identical set of words, only in a different order. The dataset was carefully hand-curated by expert annotators and is labeled with a rich set of fine-grained tags to assist in analyzing model performance. We probe a diverse range of state-of-the-art vision and language models and find that, surprisingly, none of them do much better than chance. Evidently, these models are not as skilled at visio-linguistic compositional reasoning as we might have hoped. We perform an extensive analysis to obtain insights into how future work might try to mitigate these models' shortcomings. We aim for Winoground to serve as a useful evaluation set for advancing the state of the art and driving further progress in the field. The dataset is available at https://huggingface.co/datasets/facebook/winoground.

arXiv.orgTristan Thrush

Winoground ist eine neuartige Aufgabe und ein Datensatz zur Bewertung der Fähigkeit von Bild- und Sprachmodellen, visio-linguistisches kompositionelles Schlussfolgern durchzuführen. Es verwendet Zwillingsbildunterschriften mit identischem Wortinhalt und nutzt kontrastive Bild-Text-Paare. Der Fokus liegt auf kompositionellem Schlussfolgern.

Model	Text	Image	Group	Avg
jina-reranker-m0	57.00	40.75	34.00	43.92
MrLight/dse-qwen2-2b-mrl-v1	7.50	9.25	1.75	6.17
MonoQwen2-VL-v0.1	52.00	36.25	31.50	39.92

Winoground bewertet Vision-Language-Modelle anhand von drei Schlüsselmetriken: Text Score, Image Score und Group Score. Der Text Score misst, ob ein Modell Bildunterschriften korrekt Bildern zuordnet, während der Image Score bewertet, ob es das richtige Bild für eine Bildunterschrift auswählt. Der Group Score, die strengste Metrik, erfordert, dass alle Bildunterschrift-Bild-Beziehungen korrekt identifiziert werden. Die Scores sind Prozentsätze, die Genauigkeitsraten darstellen, wobei höhere Werte bessere Schlussfolgerungsfähigkeiten anzeigen.

tagFazit

jina-reranker-m0 ist unser erster Versuch, textuelle und visuelle Modalitäten in einem einzigen Decoder-only Modell zu vereinen. Diese neue Architektur integriert Erkenntnisse aus unseren früheren Encoder-only Retrieval-Modellen, einschließlich jina-clip-v2, jina-embeddings-v3, jina-reranker-v2-base-multilingual und jina-embeddings-v2-base-code.

Das neue Modell erschließt nicht nur Möglichkeiten für multimodale Retrieval-Aufgaben wie Text-zu-Bild-Reranking und visuelles Dokument-Reranking, sondern zeigt auch verbesserte Leistung im Vergleich zu jina-reranker-v2-base-multilingual bei Text-zu-Text- und Text-zu-Code-Reranking-Aufgaben. Wir bezeichnen diese neue Modellreihe als „m-series", um ihren multimodalen Charakter hervorzuheben.

Beim Vergleich von jina-reranker-m0 mit jina-reranker-v2-base-multilingual ist unser Ziel für die m-series, Multimodalität zu erreichen und gleichzeitig die Leistung bei reinen Textaufgaben auf einem Niveau zu verbessern, das mit spezialisierten Text-only Modellen vergleichbar ist. Einige mögen den Wert eines 8-fach größeren Modells in Frage stellen, wenn die Leistungsverbesserung bei reinen Textaufgaben marginal erscheint. Während es momentan stimmt, dass m0 möglicherweise keinen wesentlichen Mehrwert gegenüber v2 für reine Text-Anwendungen bietet, eröffnet die Decoder-only Architektur viele neue Möglichkeiten, die mit Encoder-only Architekturen nicht erreichbar waren, darunter:

Echtes Mixed-Modality Reranking
Listenweises Reranking und Dokument-Deduplizierung
Erklärbarkeit von Ranking-Scores durch Attention-Mechanismus

Unsere zukünftige Arbeit wird sich darauf konzentrieren, den Text-only Reranker weiter zu verbessern und die neuen Funktionen, die durch diese multimodale Architektur ermöglicht werden, vollständig zu nutzen, um eine bessere und breitere Suche zu erreichen.