
Heute veröffentlichen wir jina-reranker-m0, unser neues mehrsprachiges multimodales Reranker-Modell zum Ranking visueller Dokumente in mehreren Sprachen: Es akzeptiert eine Anfrage zusammen mit einer Sammlung von visuell reichhaltigen Dokumentenbildern, einschließlich Seiten mit Text, Abbildungen, Tabellen, Infografiken und verschiedenen Layouts über mehrere Domänen und über 29 Sprachen hinweg. Es gibt eine nach Relevanz zur Eingabeanfrage geordnete Liste von Dokumenten aus. Im Vergleich zu jina-reranker-v2-base-multilingual verbessert jina-reranker-m0 auch das Text-Reranking für mehrsprachige Inhalte, lange Dokumente und Code-Suchaufgaben.


tagNeue Architektur
Im Gegensatz zu jina-reranker-v2-base-multilingual wechselt jina-reranker-m0 von der klassischen Cross-Encoder-Architektur zu einem decoder-only Vision Language Model. Es nutzt den vortrainierten Vision-Encoder und Projektor von Qwen2-VL, feintunte sein LLM mit LoRA und trainierte nachträglich ein MLP, um Ranking-Logits zu generieren, die die Query-Dokument-Relevanz messen. Dies ergibt ein diskriminatives Modell, das für Ranking-Aufgaben optimiert ist.
jina-reranker-m0 | jina-reranker-v2 |
|
---|---|---|
Architektur | Vision Language Model | Cross-Encoder |
Basismodell | Qwen2-VL-2B | Jina-XLM-RoBERTa |
Parameter | 2,4 B | 278 M |
Max. Kontextlänge (Query + Dokument) | 10.240 | 8.192 |
Max. Bildpatches (dynamische Auflösung) | 768 × 28 × 28 | ❌ |
Mehrsprachige Unterstützung | ✅ | ✅ |
Unterstützte Aufgaben | Text2Text, Text2Image, Image2Text, Text2Mixed | Text2Text |
Diese neue Architektur ermöglicht es jina-reranker-m0, bis zu 32K Token zu verarbeiten und dabei visuelle und textuelle Eingaben nahtlos zu kombinieren. Das Modell unterstützt Bilder von einer Mindestgröße von 56×56 Pixeln bis hin zu 4K-Auflösung. Bei der Bildverarbeitung verdichten ViT und Projektor benachbarte 2×2 Token zu einzelnen visuellen Token für die LLM-Eingabe. Spezielle Token wie <|vision_start|>
und <|vision_end|>
markieren eindeutig die Grenzen visueller Token und ermöglichen es dem Sprachmodell, visuelle Informationen korrekt zu verarbeiten und anspruchsvolle multimodale Schlussfolgerungen zu ziehen, die sowohl visuelle als auch textuelle Elemente integrieren.
Diese Architektur löst auch effektiv das Modalitätslücken-Problem, das frühere Modelle wie jina-clip-v1 und jina-clip-v2 plagte. Zuvor clusterten sich Bilder in der Nähe anderer Bilder, während sich Text in der Nähe anderen Texts im Repräsentationsraum gruppierte, was eine Trennung erzeugte. Das bedeutete, dass wenn Ihre Kandidatendokumente sowohl Bilder als auch Text enthielten, das Abrufen von Bildern mittels Textanfragen problematisch war. Mit jina-reranker-m0 können Sie nun Bilder und Dokumente gemeinsam ranken, ohne sich um diese Lücke sorgen zu müssen, was ein wirklich einheitliches multimodales Sucherlebnis schafft.
Es ist erwähnenswert, dass unser Training auf maximal 10K Eingabe-Token beschränkt war, mit bis zu 768 Token pro Bild (zwischen <|vision_start|>
und <|vision_end|>
Markierungen). Zusätzlich haben wir das Modell nicht speziell für image-to-image
, image-to-multimodal
oder text-to-multimodal
Reranking-Aufgaben trainiert. In diesem Kontext bezieht sich "multimodal" auf ein einzelnes Dokument, das sowohl Bild- als auch Text-Token in der Eingabe enthält. Betrachtet man alle möglichen Kombinationen von Bild- und Text-Token in sowohl Queries als auch Dokumenten, können wir den vollständigen Umfang der von jina-reranker-m0 unterstützten Aufgaben in der nachfolgenden Tabelle zusammenfassen.

In unseren Tests fanden wir einige Hinweise darauf, dass das Modell auf diese untrainierten Ranking-Aufgaben extrapolieren kann. Die Effektivität in diesen Bereichen sollte jedoch als Ergebnis der Zero-Shot-Übertragbarkeit des Modells oder unbeabsichtigter Trainingsnebeneffekte betrachtet werden. Wir haben keine ernsthaften Evaluierungen der Modellleistung für diese Aufgaben durchgeführt und planen, diese Fähigkeiten in zukünftiger Forschung gründlicher zu untersuchen.
tagErste Schritte
tagÜber API
Der folgende Code zeigt, wie Relevanzwerte zwischen der Anfrage "small language model data extraction"
und einer Sammlung von Bildern und Textdokumenten berechnet werden. Sie können einen Text-String, ein Base64-codiertes Bild oder eine Bild-URL übergeben. Neue Nutzer erhalten einen Jina API-Schlüssel mit 1 Million kostenlosen Tokens. Während unsere API keine Bilder als Anfragen unterstützt, können Sie Bilder als Anfragen verwenden, wenn Sie auf das Modell über die Hugging Face Transformers-Bibliothek zugreifen.
curl -X POST \
https://api.jina.ai/v1/rerank \
-H "Content-Type: application/json" \
-H "Authorization: Bearer JINA_API_KEY" \
-d '{
"model": "jina-reranker-m0",
"query": "small language model data extraction",
"documents": [
{
"image": "https://raw.githubusercontent.com/jina-ai/multimodal-reranker-test/main/handelsblatt-preview.png"
},
{
"image": "https://raw.githubusercontent.com/jina-ai/multimodal-reranker-test/main/paper-11.png"
},
{
"image": "https://raw.githubusercontent.com/jina-ai/multimodal-reranker-test/main/wired-preview.png"
},
{
"text": "We present ReaderLM-v2, a compact 1.5 billion parameter language model designed for efficient web content extraction. Our model processes documents up to 512K tokens, transforming messy HTML into clean Markdown or JSON formats with high accuracy -- making it an ideal tool for grounding large language models. The models effectiveness results from two key innovations: (1) a three-stage data synthesis pipeline that generates high quality, diverse training data by iteratively drafting, refining, and critiquing web content extraction; and (2) a unified training framework combining continuous pre-training with multi-objective optimization. Intensive evaluation demonstrates that ReaderLM-v2 outperforms GPT-4o-2024-08-06 and other larger models by 15-20% on carefully curated benchmarks, particularly excelling at documents exceeding 100K tokens, while maintaining significantly lower computational requirements."
},
{
"image": "https://jina.ai/blog-banner/using-deepseek-r1-reasoning-model-in-deepsearch.webp"
},
{
"text": "数据提取么?为什么不用正则啊,你用正则不就全解决了么?"
},
{
"text": "During the California Gold Rush, some merchants made more money selling supplies to miners than the miners made finding gold."
},
{
"text": "Die wichtigsten Beiträge unserer Arbeit sind zweifach: Erstens führen wir eine neuartige dreistufige Datensynthese-Pipeline namens Draft-Refine-Critique ein, die durch iterative Verfeinerung hochwertige Trainingsdaten generiert; und zweitens schlagen wir eine umfassende Trainingsstrategie vor, die kontinuierliches Vortraining zur Längenerweiterung, überwachtes Feintuning mit spezialisierten Kontrollpunkten, direkte Präferenzoptimierung (DPO) und iteratives Self-Play-Tuning kombiniert. Um die weitere Forschung und Anwendung der strukturierten Inhaltsextraktion zu erleichtern, ist das Modell auf Hugging Face öffentlich verfügbar."
}
],
"return_documents": false
}'
Die Antwort ist unten dargestellt, wobei das erste Ergebnis index=1
unserem ReaderLM-v2 Paper-Screenshot entspricht.
{"model":"jina-reranker-m0","usage":{"total_tokens":2829},"results":[{"index":1,"relevance_score":0.9587112551898949},{"index":3,"relevance_score":0.9337408271911014},{"index":7,"relevance_score":0.8922925217195924},{"index":2,"relevance_score":0.8891905997562045},{"index":0,"relevance_score":0.8827516945848907},{"index":4,"relevance_score":0.8701035914834407},{"index":6,"relevance_score":0.8676828987527296},{"index":5,"relevance_score":0.8455347349164652}]}
tagÜber CSP-Marktplätze
jina-reranker-m0 wird in Kürze direkt auf AWS, Azure und GCP zu den dort aufgeführten Preisen verfügbar sein.
tagÜber HuggingFace
Sie können das Modell auch lokal von unserer Hugging Face-Seite aus nutzen. Wir haben ein Google Colab Notebook vorbereitet, das die Funktionsweise demonstriert. Im Vergleich zu unserer Web-API bietet die lokale Nutzung des Modells größere Flexibilität, wie zum Beispiel die Möglichkeit, Bilder als Anfragen zu verwenden und mit multimodalen Dokumenten zu arbeiten.

tagEvaluierung
Vollständige Evaluierungen finden Sie in dieser Google-Tabelle.
tagBEIR (Text2Text, nur Englisch)

BEIR ist ein heterogener Benchmark für Information Retrieval, der entwickelt wurde, um die Vielseitigkeit und Robustheit von IR-Modellen zu evaluieren. Er enthält verschiedene Datensätze aus unterschiedlichen Domänen und konzentriert sich auf Zero-Shot-Evaluation. Standardisierte Evaluationsmetriken wie NDCG, Recall@K und MRR werden verwendet.
Model | AVG (NDCG@10) | TREC-COVID | NFCorpus | NQ | HotpotQA | FiQA | ArguAna | Touche-2020 | DBPedia | SCIDOCS | FEVER | Climate-FEVER | SciFact | Quora |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
jina-reranker-m0 | 58.95 | 84.17 | 41.03 | 72.25 | 76.99 | 51.62 | 40.69 | 31.79 | 49.34 | 22.91 | 91.14 | 36.42 | 79.94 | 88.01 |
jina-embeddings-v3 (1024 tokens) | 55.81 | 77.81 | 36.65 | 64.31 | 64.63 | 47.47 | 54.31 | 26.55 | 41.07 | 19.91 | 89.00 | 42.33 | 72.4 | 89.06 |
bge-reranker-v2-m3 | 56.51 | 82.19 | 34.33 | 69.52 | 77.89 | 45.45 | 36.21 | 33.12 | 46.72 | 17.79 | 91.03 | 38.69 | 72.64 | 89.10 |
jina-reranker-v2-multilingual | 57.06 | 80.53 | 37.17 | 67.39 | 76.17 | 46.48 | 39.28 | 32.35 | 47.81 | 20.03 | 93.02 | 37.17 | 76.50 | 87.83 |
tagMIRACL (Text2Text, Mehrsprachig, 18 Sprachen)

MIRACL ist ein umfangreicher mehrsprachiger Datensatz für Ad-hoc-Informationsabruf in 18 Sprachen. Er umfasst über drei Milliarden Muttersprachler und enthält sorgfältige menschliche Annotationen. Der Fokus liegt auf einsprachigen Abrufaufgaben.
Model | AVG (NDCG@10) | ar | bn | en | es | fa | fi | fr | hi | id | ja | ko | ru | sw | te | th | zh | de | yo |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
jina-reranker-m0 | 66.75 | 79.78 | 78.01 | 59.21 | 53.56 | 58.80 | 78.00 | 56.66 | 62.83 | 54.92 | 66.51 | 72.86 | 67.26 | 59.04 | 70.19 | 80.37 | 64.51 | 58.50 | 80.44 |
jina-embeddings-v3 (8192 tokens) | 58.90 | 71.53 | 69.86 | 48.37 | 46.91 | 54.13 | 71.15 | 50.90 | 55.05 | 47.83 | 56.46 | 64.76 | 55.63 | 54.07 | 70.48 | 73.56 | 55.29 | 49.18 | 65.01 |
bge-reranker-v2-m3 | 69.32 | 80.51 | 81.85 | 57.67 | 57.64 | 61.92 | 80.38 | 59.60 | 67.66 | 58.86 | 67.37 | 75.14 | 67.61 | 68.92 | 76.69 | 82.29 | 64.46 | 58.32 | 80.85 |
jina-reranker-v2-multilingual | 63.65 | 72.50 | 79.42 | 46.66 | 51.54 | 57.81 | 73.05 | 50.90 | 60.94 | 56.66 | 59.15 | 72.60 | 53.43 | 66.47 | 74.62 | 77.75 | 62.49 | 53.06 | 76.69 |
tagMLDR (Text2Text, Mehrsprachige Lange Dokumente, 13 Sprachen)

MLDR ist ein mehrsprachiger Datensatz, der speziell für das Auffinden langer Dokumente entwickelt wurde und 13 Sprachen abdeckt. Er verwendet GPT-3.5 zur Generierung von Fragen für die Dokumente. Der Datensatz basiert auf Wikipedia, Wudao und mC4.
Model | AVG (NDCG@10) | ar | de | en | es | fr | hi | it | ja | ko | pt | ru | th | zh |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
jina-reranker-m0 | 59.83 | 55.86 | 51.25 | 54.67 | 87.63 | 82.59 | 32.76 | 73.25 | 58.93 | 55.73 | 86.08 | 66.73 | 39.17 | 33.14 |
jina-embeddings-v3 (8192 tokens) | 39.71 | 28.44 | 31.57 | 29.07 | 62.08 | 59.79 | 25.47 | 53.72 | 38.36 | 32.37 | 63.26 | 49.65 | 25.15 | 17.26 |
bge-reranker-v2-m3 | 53.53 | 49.19 | 45.39 | 43.92 | 74.57 | 68.67 | 44.75 | 62.79 | 49.27 | 48.24 | 76.45 | 62.84 | 38.82 | 31.02 |
jina-reranker-v2-multilingual | 59.50 | 51.96 | 50.13 | 46.85 | 86.34 | 82.25 | 49.50 | 69.00 | 59.07 | 52.19 | 85.26 | 68.06 | 38.73 | 34.15 |
tagMKQA (Text2Text, mehrsprachige Frage-Antwort, 24 Sprachen, 3 Varianten für Chinesisch)

MKQA ist ein Evaluierungsset für domänenübergreifende Frage-Antwort-Paare, das 10.000 Frage-Antwort-Paare umfasst, die über 26 typologisch verschiedene Sprachen ausgerichtet sind. Die Frage-Antwort-Paare stammen aus Google Natural Questions.
Model | AVG (recall@10) | ar | da | de | es | en | fi | fr | he | hu | it | ja | km | ko | ms | nl | no | pl | pt | ru | sv | th | tr | vi | zh_cn | zh_hk | zh_tw |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
jina-reranker-m0 | 68.19 | 63.88 | 70.57 | 70.52 | 71.26 | 73.47 | 64.10 | 71.11 | 63.68 | 63.23 | 70.30 | 69.13 | 50.43 | 64.30 | 70.78 | 71.73 | 70.25 | 69.72 | 70.57 | 70.78 | 70.69 | 69.80 | 67.90 | 69.68 | 69.12 | 68.23 | 67.79 |
jina-embeddings-v3 (8192 tokens) | 65.63 | 59.00 | 69.12 | 68.27 | 68.15 | 71.14 | 65.66 | 68.30 | 59.51 | 63.23 | 68.30 | 64.36 | 56.13 | 58.98 | 68.30 | 69.53 | 68.65 | 67.26 | 67.93 | 67.06 | 68.68 | 66.32 | 66.97 | 66.87 | 63.38 | 63.59 | 61.55 |
bge-reranker-v2-m3 | 67.88 | 63.09 | 70.15 | 68.91 | 68.92 | 73.00 | 68.71 | 68.71 | 70.27 | 64.00 | 68.15 | 68.47 | 60.43 | 63.95 | 68.80 | 70.77 | 69.10 | 67.44 | 67.40 | 69.77 | 70.03 | 69.68 | 66.04 | 68.29 | 67.84 | 66.70 | 66.34 |
jina-reranker-v2-multilingual | 67.90 | 63.88 | 70.31 | 70.09 | 70.51 | 73.09 | 67.50 | 70.38 | 63.00 | 64.59 | 69.90 | 67.34 | 57.79 | 62.14 | 70.36 | 71.58 | 69.51 | 68.61 | 70.13 | 70.07 | 70.15 | 68.80 | 68.02 | 69.39 | 67.23 | 65.77 | 65.37 |
tagCoIR (Text2Text, Code Information Retrieval)

CoIR ist ein umfassender Benchmark zur Bewertung der Code-Retrieval-Fähigkeiten von Modellen. Er umfasst 10 kuratierte Code-Datensätze, die 8 Retrieval-Aufgaben in 7 verschiedenen Domänen abdecken. Für diesen Benchmark wird ein Python-Framework bereitgestellt.
Model Name | Avg (NDCG@10) | Text-to-Code | Code-to-Text | Code-to-Code | Hybrid Code | ||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Apps | CosQA | SQL | CSN | CSN-CCR | CodeTransOcean | StackOver Flow |
CodeFeedBack | ||||||||||||||||
AVG | python | javascript | go | ruby | java | php | AVG | python | javascript | go | ruby | java | php | -Contest | -DL | -MT | -ST | ||||||
jina-reranker-m0 | 63.55 | 26.21 | 37.75 | 57.92 | 80.76 | 98.37 | 71.16 | 86.14 | 72.74 | 79.02 | 77.14 | 74.57 | 81.66 | 77.92 | 68.71 | 75.44 | 77.54 | 66.13 | 79.79 | 31.89 | 90.41 | 72.25 | 83.95 |
jina-embeddings-v2-base-code (top 100) |
56.90 | 16.34 | 41.72 | 49.79 | 83.95 | 94.71 | 76.35 | 87.39 | 78.23 | 82.69 | 84.35 | 59.65 | 68.23 | 62.31 | 49.15 | 65.40 | 63.89 | 48.92 | 79.20 | 30.35 | 89.42 | 49.62 | 68.93 |
bge-reranker-v2-m3 | 35.97 | 8.33 | 30.06 | 50.63 | 49.26 | 67.62 | 39.55 | 58.11 | 41.37 | 44.77 | 44.13 | 40.81 | 42.57 | 42.75 | 38.04 | 38.04 | 41.73 | 41.73 | 34.93 | 5.09 | 60.12 | 16.44 | 64.05 |
jina-reranker-v2-multilingual | 56.14 | 21.90 | 37.26 | 53.56 | 78.88 | 97.83 | 67.43 | 84.64 | 68.93 | 75.73 | 78.71 | 63.59 | 72.62 | 67.80 | 55.07 | 67.25 | 64.25 | 54.54 | 73.67 | 25.74 | 91.24 | 42.03 | 73.59 |
tagViDoRe (Text2Image, Visual Document Retrieval Benchmark)

ViDoRe ist ein Benchmark, der entwickelt wurde, um Retrieval-Systeme hinsichtlich ihrer Fähigkeit zu bewerten, Anfragen mit relevanten Dokumenten anhand visueller Merkmale abzugleichen. Er umfasst verschiedene Retrieval-Aufgaben auf Seitenebene über mehrere Domänen und Sprachen hinweg. Der Benchmark konzentriert sich auf visuelle Elemente von Dokumenten.
Model Name | AVG (NDCG@5) |
TAT-DQA | Shift Project |
Artificial Intelligence |
Government Reports |
ArxivQA | DocVQA | Healthcare Industry |
InfoVQA | Energy | TabFQuad |
---|---|---|---|---|---|---|---|---|---|---|---|
jina-reranker-m0 | 91.02 | 81.83 | 93.22 | 99.63 | 97.59 | 89.82 | 62.58 | 99.26 | 92.88 | 96.06 | 97.32 |
MrLight/dse-qwen2-2b-mr1-v1 | 84.48 | 66.64 | 79.39 | 96.45 | 95.30 | 84.53 | 55.47 | 96.85 | 86.39 | 91.80 | 92.03 |
MonoQwen2-VL-v0.1 | 87.64 | 79.50 | 76.38 | 98.39 | 93.63 | 89.50 | 57.47 | 98.39 | 92.12 | 95.29 | 95.75 |
tagM-BEIR (Text2Image, Image2Text, Multimodal BEnchmark for Instructed Retrieval)

M-BEIR ist ein umfassender großskaliger Retrieval-Benchmark, der zur Schulung und Bewertung von multimodalen Retrieval-Modellen entwickelt wurde. Er umfasst acht multimodale Retrieval-Aufgaben und zehn Datensätze aus verschiedenen Domänen und Quellen. Der Benchmark konzentriert sich auf anweisungsbasiertes Retrieval.
Model | MBEIR t2i VisualNews Recall@5 |
MBEIR t2i MSCOCO Recall@5 |
MBEIR t2i Fashion200K Recall@10 |
MBEIR i2t VisualNews Recall@5 |
MBEIR i2t MSCOCO Recall@5 |
MBEIR i2t Fashion200K Recall@10 |
---|---|---|---|---|---|---|
jina-reranker-m0 | 23.89 | 72.19 | 9.79 | 17.61 | 41.21 | 11.56 |
jinaai/jina-clip-v2 | 15.42 | 52.28 | 7.03 | 11.63 | 28.80 | 8.78 |
MonoQwen2-VL-v0.1 | 22.74 | 71.29 | 10.00 | 15.08 | 42.24 | 11.25 |
tagWinoground (Text2Text, Text2Image)

Winoground ist eine neuartige Aufgabe und ein Datensatz zur Bewertung der Fähigkeit von Bild- und Sprachmodellen, visio-linguistisches kompositionelles Schlussfolgern durchzuführen. Es verwendet Zwillingsbildunterschriften mit identischem Wortinhalt und nutzt kontrastive Bild-Text-Paare. Der Fokus liegt auf kompositionellem Schlussfolgern.
Model | Text | Image | Group | Avg |
---|---|---|---|---|
jina-reranker-m0 | 57.00 | 40.75 | 34.00 | 43.92 |
MrLight/dse-qwen2-2b-mrl-v1 | 7.50 | 9.25 | 1.75 | 6.17 |
MonoQwen2-VL-v0.1 | 52.00 | 36.25 | 31.50 | 39.92 |
Winoground bewertet Vision-Language-Modelle anhand von drei Schlüsselmetriken: Text Score, Image Score und Group Score. Der Text Score misst, ob ein Modell Bildunterschriften korrekt Bildern zuordnet, während der Image Score bewertet, ob es das richtige Bild für eine Bildunterschrift auswählt. Der Group Score, die strengste Metrik, erfordert, dass alle Bildunterschrift-Bild-Beziehungen korrekt identifiziert werden. Die Scores sind Prozentsätze, die Genauigkeitsraten darstellen, wobei höhere Werte bessere Schlussfolgerungsfähigkeiten anzeigen.
tagFazit
jina-reranker-m0 ist unser erster Versuch, textuelle und visuelle Modalitäten in einem einzigen Decoder-only Modell zu vereinen. Diese neue Architektur integriert Erkenntnisse aus unseren früheren Encoder-only Retrieval-Modellen, einschließlich jina-clip-v2, jina-embeddings-v3, jina-reranker-v2-base-multilingual und jina-embeddings-v2-base-code.
Das neue Modell erschließt nicht nur Möglichkeiten für multimodale Retrieval-Aufgaben wie Text-zu-Bild-Reranking und visuelles Dokument-Reranking, sondern zeigt auch verbesserte Leistung im Vergleich zu jina-reranker-v2-base-multilingual bei Text-zu-Text- und Text-zu-Code-Reranking-Aufgaben. Wir bezeichnen diese neue Modellreihe als „m-series", um ihren multimodalen Charakter hervorzuheben.
Beim Vergleich von jina-reranker-m0 mit jina-reranker-v2-base-multilingual ist unser Ziel für die m-series, Multimodalität zu erreichen und gleichzeitig die Leistung bei reinen Textaufgaben auf einem Niveau zu verbessern, das mit spezialisierten Text-only Modellen vergleichbar ist. Einige mögen den Wert eines 8-fach größeren Modells in Frage stellen, wenn die Leistungsverbesserung bei reinen Textaufgaben marginal erscheint. Während es momentan stimmt, dass m0
möglicherweise keinen wesentlichen Mehrwert gegenüber v2
für reine Text-Anwendungen bietet, eröffnet die Decoder-only Architektur viele neue Möglichkeiten, die mit Encoder-only Architekturen nicht erreichbar waren, darunter:
- Echtes Mixed-Modality Reranking
- Listenweises Reranking und Dokument-Deduplizierung
- Erklärbarkeit von Ranking-Scores durch Attention-Mechanismus
Unsere zukünftige Arbeit wird sich darauf konzentrieren, den Text-only Reranker weiter zu verbessern und die neuen Funktionen, die durch diese multimodale Architektur ermöglicht werden, vollständig zu nutzen, um eine bessere und breitere Suche zu erreichen.