jina-reranker-m0：多語言多模態文件重排序器

今天我們發布了 jina-reranker-m0，這是我們新的多語言多模態重排序模型，用於跨多種語言對視覺文件進行排序：它接受查詢以及一系列視覺豐富的文件圖像，包括含有文字、圖表、表格、資訊圖表的頁面，以及跨越多個領域和超過 29 種語言的各種版面配置。它會輸出一個根據與輸入查詢相關性排序的文件列表。與 jina-reranker-v2-base-multilingual 相比，jina-reranker-m0 還改進了多語言內容、長文件和程式碼搜尋任務的文字重排序效果。

jina-reranker-m0 在 ViDoRe、MBEIR 和 Winoground 視覺檢索基準測試上的表現展示了其在跨越多個領域和語言的各種多模態檢索任務中的能力。每個點代表不同類型/任務的視覺文件的性能分數。箱型圖說明了這些分數的分布情況，突出顯示的數字表示平均（均值）性能。完整的基準測試結果請參考本文附錄。

這個箱型圖顯示了 jina-reranker-m0 在四個純文字重排序基準測試中的表現。每個基準測試可能包含多個數據集、語言或任務，由箱型圖內的個別點表示。箱型圖顯示了這些分數的分布情況，突出顯示的數字表示平均（均值）性能。雖然大多數基準測試使用 NDCG@10 作為性能指標，但 MKQA 使用 recall@10，因為 MKQA 的標註數據不支持 NDCG 計算（官方評估使用 recall，通過啟發式方法確定文件相關性）。完整的基準測試結果可在本文附錄中找到。

tag新架構

jina-reranker-m0 的架構建立在 Qwen2-VL-2B 的基礎上，包含 21 億參數。該模型通過評估文件的視覺和文字元素與查詢的關係，使用成對比較方式有效地對文件進行排序。

與 jina-reranker-v2-base-multilingual 不同，jina-reranker-m0 從傳統的交叉編碼器架構轉向只解碼器視覺語言模型。它利用了預訓練的 Qwen2-VL 的視覺編碼器和投影器，通過 LoRA 微調了其 LLM，並後訓練了一個 MLP 來生成衡量查詢-文件相關性的排序邏輯。這形成了一個針對排序任務優化的判別模型。

	jina-reranker-m0	`jina-reranker-v2`
架構	視覺語言模型	交叉編碼器
基礎模型	Qwen2-VL-2B	Jina-XLM-RoBERTa
參數量	2.4 B	278 M
最大上下文長度（查詢 + 文件）	10,240	8,192
最大圖像塊（動態解析度）	768 × 28 × 28	❌
多語言支援	✅	✅
支援的任務	Text2Text、Text2Image、Image2Text、Text2Mixed	Text2Text

這種新架構使 jina-reranker-m0 能夠處理高達 32K 的標記，無縫結合視覺和文字輸入。該模型支援從最小 56×56 像素到 4K 解析度的圖像。在處理圖像時，ViT 和投影器將相鄰的 2×2 標記壓縮成單個視覺標記供 LLM 輸入。特殊標記如 <|vision_start|> 和 <|vision_end|> 清晰地標記視覺標記邊界，使語言模型能夠正確處理視覺資訊並執行結合視覺和文字元素的複雜多模態推理。

這種架構還有效解決了困擾早期模型如 jina-clip-v1 和 jina-clip-v2 的模態差距問題。此前，圖像會聚集在其他圖像附近，而文字會聚集在其他文字附近的表示空間中，造成斷裂。這意味著當你的候選文件同時包含圖像和文字時，使用文字查詢檢索圖像會有問題。有了 jina-reranker-m0，你現在可以不用擔心這個差距就能同時對圖像和文件進行排序，創造真正統一的多模態搜尋體驗。

在多模態檢索系統中，「模態差距」指的是模型對文字到文字相似度與文字到圖像相似度的評分方式的差異。觀察左圖（jina-clip-v2），兩種分布之間有明顯的分離：文字到文字相似度分布（紅色）峰值在 0.35 左右。文字到圖像相似度（藍色）峰值在 0.65-0.7 左右。這種顯著的分離表明存在較大的模態差距 - 模型對文字到文字和文字到圖像對的評分在根本上處於不同的範圍。這使得直接比較跨模態的分數變得困難。在沒有模態差距的系統中（例如），我們期望這些分布在很大程度上重疊，這意味著模型完全基於相關性而不是模態類型在相似的範圍內對兩種類型的配對進行評分。

值得注意的是，我們的訓練限制在最多 10K 輸入標記，每張圖像最多 768 個標記（在 <|vision_start|> 和 <|vision_end|> 標記之間）。此外，我們沒有特別訓練模型用於 image-to-image、image-to-multimodal 或 text-to-multimodal 重排序任務。在這種情況下，「多模態」指的是單個文件在輸入中同時包含圖像和文字標記。查看查詢和文件中圖像和文字標記的所有可能組合，我們可以在下表中總結 jina-reranker-m0 支援的完整任務範圍。

jina-reranker-m0 支援各種查詢和文件輸入組合來進行重新排序。由於經過廣泛的訓練，它在文字對文字、文字對圖像、圖像對文字和文字對混合單模態任務中都能達到最先進的效能。該模型還能以零樣本方式處理其他輸入組合 - 架構可以容納這些 token 組合，儘管我們並未針對這些任務進行特定訓練。

在我們的測試中，我們發現一些證據表明該模型可以推廣到這些未經訓練的排序任務，但在這些領域的任何有效性都應被視為模型零樣本遷移能力或非預期訓練副作用的結果。我們尚未對模型在這些任務上的表現進行嚴格評估，並計劃在未來的研究中更徹底地探索這些能力。

tag開始使用

tag透過 API

以下程式碼展示了如何計算查詢 "small language model data extraction" 與一系列圖像和文字文件之間的相關性分數。您可以傳入文字字串、base64 編碼的圖像或圖像 URL。新使用者可以獲得一個包含 100 萬個免費 token 的 Jina API 金鑰。雖然我們的 API 不支援使用圖像作為查詢，但當您通過 Hugging Face Transformers 函式庫訪問模型時，可以使用圖像作為查詢。

curl -X POST \
  https://api.jina.ai/v1/rerank \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer JINA_API_KEY" \
  -d '{
  "model": "jina-reranker-m0",
  "query": "small language model data extraction",
  "documents": [
    {
      "image": "https://raw.githubusercontent.com/jina-ai/multimodal-reranker-test/main/handelsblatt-preview.png"
    },
    {
      "image": "https://raw.githubusercontent.com/jina-ai/multimodal-reranker-test/main/paper-11.png"
    },
    {
      "image": "https://raw.githubusercontent.com/jina-ai/multimodal-reranker-test/main/wired-preview.png"
    },
    {
      "text": "We present ReaderLM-v2, a compact 1.5 billion parameter language model designed for efficient web content extraction. Our model processes documents up to 512K tokens, transforming messy HTML into clean Markdown or JSON formats with high accuracy -- making it an ideal tool for grounding large language models. The models effectiveness results from two key innovations: (1) a three-stage data synthesis pipeline that generates high quality, diverse training data by iteratively drafting, refining, and critiquing web content extraction; and (2) a unified training framework combining continuous pre-training with multi-objective optimization. Intensive evaluation demonstrates that ReaderLM-v2 outperforms GPT-4o-2024-08-06 and other larger models by 15-20% on carefully curated benchmarks, particularly excelling at documents exceeding 100K tokens, while maintaining significantly lower computational requirements."
    },
    {
      "image": "https://jina.ai/blog-banner/using-deepseek-r1-reasoning-model-in-deepsearch.webp"
    },
    {
      "text": "数据提取么？为什么不用正则啊，你用正则不就全解决了么？"
    },
    {
      "text": "During the California Gold Rush, some merchants made more money selling supplies to miners than the miners made finding gold."
    },
    {
      "text": "Die wichtigsten Beiträge unserer Arbeit sind zweifach: Erstens führen wir eine neuartige dreistufige Datensynthese-Pipeline namens Draft-Refine-Critique ein, die durch iterative Verfeinerung hochwertige Trainingsdaten generiert; und zweitens schlagen wir eine umfassende Trainingsstrategie vor, die kontinuierliches Vortraining zur Längenerweiterung, überwachtes Feintuning mit spezialisierten Kontrollpunkten, direkte Präferenzoptimierung (DPO) und iteratives Self-Play-Tuning kombiniert. Um die weitere Forschung und Anwendung der strukturierten Inhaltsextraktion zu erleichtern, ist das Modell auf Hugging Face öffentlich verfügbar."
    }
  ],
  "return_documents": false
}'

回應如下所示，其中第一個結果 index=1 對應於我們的 ReaderLM-v2 論文截圖。

{"model":"jina-reranker-m0","usage":{"total_tokens":2829},"results":[{"index":1,"relevance_score":0.9587112551898949},{"index":3,"relevance_score":0.9337408271911014},{"index":7,"relevance_score":0.8922925217195924},{"index":2,"relevance_score":0.8891905997562045},{"index":0,"relevance_score":0.8827516945848907},{"index":4,"relevance_score":0.8701035914834407},{"index":6,"relevance_score":0.8676828987527296},{"index":5,"relevance_score":0.8455347349164652}]}

tag透過 CSP 市集

jina-reranker-m0 很快就會在 AWS、Azure 和 GCP 上直接提供，價格將列於其中。

tag透過 HuggingFace

您也可以從我們的 Hugging Face 頁面在本地使用該模型。我們準備了一個 Google Colab 筆記本來展示其工作原理。與我們的網頁 API 相比，本地使用模型提供更大的靈活性，例如能夠使用圖像作為查詢並處理多模態文件。

tag評估

tagBEIR（文字對文字，僅英文）

BEIR: A Heterogenous Benchmark for Zero-shot Evaluation of Information Retrieval Models

Existing neural information retrieval (IR) models have often been studied in homogeneous and narrow settings, which has considerably limited insights into their out-of-distribution (OOD) generalization capabilities. To address this, and to facilitate researchers to broadly evaluate the effectiveness of their models, we introduce Benchmarking-IR (BEIR), a robust and heterogeneous evaluation benchmark for information retrieval. We leverage a careful selection of 18 publicly available datasets from diverse text retrieval tasks and domains and evaluate 10 state-of-the-art retrieval systems including lexical, sparse, dense, late-interaction and re-ranking architectures on the BEIR benchmark. Our results show BM25 is a robust baseline and re-ranking and late-interaction-based models on average achieve the best zero-shot performances, however, at high computational costs. In contrast, dense and sparse-retrieval models are computationally more efficient but often underperform other approaches, highlighting the considerable room for improvement in their generalization capabilities. We hope this framework allows us to better evaluate and understand existing retrieval systems, and contributes to accelerating progress towards better robust and generalizable systems in the future. BEIR is publicly available at https://github.com/UKPLab/beir.

arXiv.orgNandan Thakur

BEIR 是一個異質性的資訊檢索基準測試，旨在評估 IR 模型的多樣性和穩健性。它包含來自各個領域的多元數據集，並專注於零樣本評估。使用標準化的評估指標，如 NDCG、Recall@K 和 MRR。

Model	AVG (NDCG@10)	TREC-COVID	NFCorpus	NQ	HotpotQA	FiQA	ArguAna	Touche-2020	DBPedia	SCIDOCS	FEVER	Climate-FEVER	SciFact	Quora
jina-reranker-m0	58.95	84.17	41.03	72.25	76.99	51.62	40.69	31.79	49.34	22.91	91.14	36.42	79.94	88.01
jina-embeddings-v3 (1024 tokens)	55.81	77.81	36.65	64.31	64.63	47.47	54.31	26.55	41.07	19.91	89.00	42.33	72.4	89.06
bge-reranker-v2-m3	56.51	82.19	34.33	69.52	77.89	45.45	36.21	33.12	46.72	17.79	91.03	38.69	72.64	89.10
jina-reranker-v2-multilingual	57.06	80.53	37.17	67.39	76.17	46.48	39.28	32.35	47.81	20.03	93.02	37.17	76.50	87.83

tagMIRACL（Text2Text，多語言，18 種語言）

Making a MIRACL: Multilingual Information Retrieval Across a Continuum of Languages

MIRACL（Multilingual Information Retrieval Across a Continuum of Languages）是我們為 WSDM 2023 Cup 挑戰賽建立的多語言數據集，專注於 18 種不同語言的臨時檢索，這些語言的母語使用者總計超過 30 億人。這些語言具有多樣的類型學特徵，來自多個語系，並且具有不同程度的可用資源——包括研究人員通常所說的高資源和低資源語言。我們的數據集旨在支持創建和評估單語檢索模型，其中查詢和語料庫使用相同的語言。總共，我們為這 18 種語言的維基百科收集了超過 77,000 個查詢的 700,000 多個高質量相關性判斷，所有評估都由我們團隊聘請的母語者執行。我們的目標是促進跨語言連續體的檢索研究，從而提高全球各地人群的資訊獲取能力，特別是那些傳統上未得到充分服務的人群。這篇概述論文描述了我們與社群共享的數據集和基準。MIRACL 網站已上線，網址為 http://miracl.ai/。

arXiv.orgXinyu Zhang

MIRACL 是一個涵蓋 18 種語言的大規模多語言資訊檢索資料集。它覆蓋超過 30 億原生語言使用者，並具有詳盡的人工標註。主要專注於單語言檢索任務。

Model	AVG (NDCG@10)	ar	bn	en	es	fa	fi	fr	hi	id	ja	ko	ru	sw	te	th	zh	de	yo
jina-reranker-m0	66.75	79.78	78.01	59.21	53.56	58.80	78.00	56.66	62.83	54.92	66.51	72.86	67.26	59.04	70.19	80.37	64.51	58.50	80.44
jina-embeddings-v3 (8192 tokens)	58.90	71.53	69.86	48.37	46.91	54.13	71.15	50.90	55.05	47.83	56.46	64.76	55.63	54.07	70.48	73.56	55.29	49.18	65.01
bge-reranker-v2-m3	69.32	80.51	81.85	57.67	57.64	61.92	80.38	59.60	67.66	58.86	67.37	75.14	67.61	68.92	76.69	82.29	64.46	58.32	80.85
jina-reranker-v2-multilingual	63.65	72.50	79.42	46.66	51.54	57.81	73.05	50.90	60.94	56.66	59.15	72.60	53.43	66.47	74.62	77.75	62.49	53.06	76.69

tagMLDR（Text2Text，多語言長文件，13 種語言）

BGE M3-Embedding：通過自知識蒸餾實現多語言、多功能、多粒度文本嵌入

本論文介紹了一個新的嵌入模型，稱為 M3-Embedding，它以多語言性、多功能性和多粒度性為特色。該模型支援超過 100 種工作語言，在多語言和跨語言檢索任務上取得了新的最佳性能。它可以同時執行嵌入模型的三種常見檢索功能：密集檢索、多向量檢索和稀疏檢索，為實際 IR 應用提供了統一的模型基礎。它能夠處理不同粒度的輸入，從短句到最多 8192 個 tokens 的長文件。M3-Embedding 的有效訓練包含以下技術貢獻。我們提出了一種新穎的自知識蒸餾方法，其中來自不同檢索功能的相關性分數可以整合為教師信號以提高訓練質量。我們還優化了批次處理策略，實現了大批次規模和高訓練吞吐量，以確保嵌入的區分性。據我們所知，M3-Embedding 是第一個實現如此強大通用性的嵌入模型。模型和程式碼將在 https://github.com/FlagOpen/FlagEmbedding 公開。

arXiv.orgJianlv Chen

MLDR 是一個專門為長文檔檢索設計的多語言數據集，涵蓋 13 種語言。它使用 GPT-3.5 為文檔生成問題。該數據集建立在 Wikipedia、Wudao 和 mC4 的基礎之上。

Model	AVG (NDCG@10)	ar	de	en	es	fr	hi	it	ja	ko	pt	ru	th	zh
jina-reranker-m0	59.83	55.86	51.25	54.67	87.63	82.59	32.76	73.25	58.93	55.73	86.08	66.73	39.17	33.14
jina-embeddings-v3 (8192 tokens)	39.71	28.44	31.57	29.07	62.08	59.79	25.47	53.72	38.36	32.37	63.26	49.65	25.15	17.26
bge-reranker-v2-m3	53.53	49.19	45.39	43.92	74.57	68.67	44.75	62.79	49.27	48.24	76.45	62.84	38.82	31.02
jina-reranker-v2-multilingual	59.50	51.96	50.13	46.85	86.34	82.25	49.50	69.00	59.07	52.19	85.26	68.06	38.73	34.15

tagMKQA（Text2Text，多語言問答，24 種語言，中文有 3 種變體）

MKQA: A Linguistically Diverse Benchmark for Multilingual Open Domain Question Answering

Progress in cross-lingual modeling depends on challenging, realistic, and diverse evaluation sets. We introduce Multilingual Knowledge Questions and Answers (MKQA), an open-domain question answering evaluation set comprising 10k question-answer pairs aligned across 26 typologically diverse languages (260k question-answer pairs in total). Answers are based on a heavily curated, language-independent data representation, making results comparable across languages and independent of language-specific passages. With 26 languages, this dataset supplies the widest range of languages to-date for evaluating question answering. We benchmark a variety of state-of-the-art methods and baselines for generative and extractive question answering, trained on Natural Questions, in zero shot and translation settings. Results indicate this dataset is challenging even in English, but especially in low-resource languages

arXiv.orgShayne Longpre

MKQA 是一個開放領域問答評估集，包含 10k 個問答配對，橫跨 26 種不同的類型語言。這些問答配對是從 Google Natural Questions 中取樣而來。

Model	AVG (recall@10)	ar	da	de	es	en	fi	fr	he	hu	it	ja	km	ko	ms	nl	no	pl	pt	ru	sv	th	tr	vi	zh_cn	zh_hk	zh_tw
jina-reranker-m0	68.19	63.88	70.57	70.52	71.26	73.47	64.10	71.11	63.68	63.23	70.30	69.13	50.43	64.30	70.78	71.73	70.25	69.72	70.57	70.78	70.69	69.80	67.90	69.68	69.12	68.23	67.79
jina-embeddings-v3 (8192 tokens)	65.63	59.00	69.12	68.27	68.15	71.14	65.66	68.30	59.51	63.23	68.30	64.36	56.13	58.98	68.30	69.53	68.65	67.26	67.93	67.06	68.68	66.32	66.97	66.87	63.38	63.59	61.55
bge-reranker-v2-m3	67.88	63.09	70.15	68.91	68.92	73.00	68.71	68.71	70.27	64.00	68.15	68.47	60.43	63.95	68.80	70.77	69.10	67.44	67.40	69.77	70.03	69.68	66.04	68.29	67.84	66.70	66.34
jina-reranker-v2-multilingual	67.90	63.88	70.31	70.09	70.51	73.09	67.50	70.38	63.00	64.59	69.90	67.34	57.79	62.14	70.36	71.58	69.51	68.61	70.13	70.07	70.15	68.80	68.02	69.39	67.23	65.77	65.37

tagCoIR（文本對文本，程式碼資訊檢索）

CoIR：程式碼資訊檢索模型的綜合基準

儘管資訊檢索（IR）在各種自然語言處理任務中取得了重大成功，但大多數 IR 系統主要處理自然語言的查詢和語料庫，忽略了程式碼檢索領域。程式碼檢索雖然至關重要，但仍未得到充分研究，現有的方法和基準無法充分代表各個領域和任務中程式碼的多樣性。為解決這個問題，我們提出了 COIR（程式碼資訊檢索基準），這是一個專門設計用於評估程式碼檢索能力的健全而全面的基準。COIR 包含十個精心策劃的程式碼數據集，涵蓋了七個不同領域的八種獨特檢索任務。我們首先討論 COIR 的構建及其多樣化的數據集組成。此外，我們使用 COIR 評估了九種廣泛使用的檢索模型，發現即使是最先進的系統在執行程式碼檢索任務時也存在顯著困難。為了便於在現有研究工作流程中輕鬆採用和整合，COIR 已開發為一個用戶友好的 Python 框架，可通過 pip 輕鬆安裝。它與其他流行的基準（如 MTEB 和 BEIR）共享相同的數據架構，使跨基準評估更加順暢。通過 COIR，我們旨在激發程式碼檢索領域的研究，提供一個多功能的基準工具，鼓勵進一步開發和探索程式碼檢索系統 https://github.com/CoIR-team/coir。

arXiv.orgXiangyang Li

CoIR 是一個全面的基準測試，旨在評估模型在程式碼檢索方面的能力。它包含 10 個精選的程式碼數據集，涵蓋了 7 個不同領域的 8 個檢索任務。該基準測試提供了一個 Python 框架。

Model Name	Avg (NDCG@10)	Text-to-Code			Code-to-Text							Code-to-Code									Hybrid Code
		Apps	CosQA	SQL	CSN							CSN-CCR							CodeTransOcean		StackOver Flow	CodeFeedBack
		Apps	CosQA	SQL	AVG	python	javascript	go	ruby	java	php	AVG	python	javascript	go	ruby	java	php	-Contest	-DL	StackOver Flow	-MT	-ST
jina-reranker-m0	63.55	26.21	37.75	57.92	80.76	98.37	71.16	86.14	72.74	79.02	77.14	74.57	81.66	77.92	68.71	75.44	77.54	66.13	79.79	31.89	90.41	72.25	83.95
jina-embeddings-v2-base-code (top 100)	56.90	16.34	41.72	49.79	83.95	94.71	76.35	87.39	78.23	82.69	84.35	59.65	68.23	62.31	49.15	65.40	63.89	48.92	79.20	30.35	89.42	49.62	68.93
bge-reranker-v2-m3	35.97	8.33	30.06	50.63	49.26	67.62	39.55	58.11	41.37	44.77	44.13	40.81	42.57	42.75	38.04	38.04	41.73	41.73	34.93	5.09	60.12	16.44	64.05
jina-reranker-v2-multilingual	56.14	21.90	37.26	53.56	78.88	97.83	67.43	84.64	68.93	75.73	78.71	63.59	72.62	67.80	55.07	67.25	64.25	54.54	73.67	25.74	91.24	42.03	73.59

tagViDoRe（文本轉圖像、視覺文件檢索基準測試）

ColPali：使用視覺語言模型進行高效文件檢索

文件是具有豐富視覺結構的內容，不僅通過文本，還通過圖表、頁面布局、表格甚至字體來傳遞信息。由於現代檢索系統主要依賴於從文件頁面中提取的文本信息來索引文件（通常通過冗長且脆弱的過程），他們難以有效地利用關鍵的視覺線索。這限制了它們在許多實際文件檢索應用中的能力，如檢索增強生成（RAG）。為了對當前系統在視覺豐富的文件檢索方面進行基準測試，我們引入了視覺文件檢索基準 ViDoRe，其中包含跨越多個領域、語言和實際場景的各種頁面級檢索任務。現代系統的固有複雜性和性能不足促使我們提出一個新概念：通過直接嵌入文件頁面的圖像來進行文件檢索。我們發布了 ColPali，這是一個經過訓練的視覺語言模型，可以從文件頁面的圖像生成高質量的多向量嵌入。結合後期交互匹配機制，ColPali 在性能上大大超越了現代文件檢索流程，同時更加簡單、快速且可端到端訓練。我們在 https://hf.co/vidore 以開放許可發布模型、數據、代碼和基準測試。

arXiv.orgManuel Faysse

ViDoRe 是一個專門設計用來評估檢索系統在使用視覺特徵匹配查詢與相關文件能力的基準測試。它涵蓋了多個領域和語言的各種頁面級檢索任務。該基準測試主要關注文件的視覺元素。

Model Name	AVG (NDCG@5)	TAT-DQA	Shift Project	Artificial Intelligence	Government Reports	ArxivQA	DocVQA	Healthcare Industry	InfoVQA	Energy	TabFQuad
jina-reranker-m0	91.02	81.83	93.22	99.63	97.59	89.82	62.58	99.26	92.88	96.06	97.32
MrLight/dse-qwen2-2b-mr1-v1	84.48	66.64	79.39	96.45	95.30	84.53	55.47	96.85	86.39	91.80	92.03
MonoQwen2-VL-v0.1	87.64	79.50	76.38	98.39	93.63	89.50	57.47	98.39	92.12	95.29	95.75

tagM-BEIR（Text2Image、Image2Text、基於指令的多模態檢索基準測試）

UniIR: Training and Benchmarking Universal Multimodal Information Retrievers

目前的資訊檢索（IR）模型通常假設一種同質的格式，這限制了它們在滿足多樣化用戶需求方面的應用，例如使用文本描述搜索圖像、使用標題圖像搜索新聞文章，或使用查詢圖像尋找類似的照片。為了應對這些不同的資訊搜尋需求，我們推出了 UniIR，這是一個統一的指令引導多模態檢索器，能夠處理跨模態的八種不同檢索任務。UniIR 是一個在十個不同多模態 IR 數據集上共同訓練的單一檢索系統，它能解讀用戶指令來執行各種檢索任務，在現有數據集上展現出強大的性能，並能零樣本泛化到新任務。我們的實驗強調，多任務訓練和指令調優是 UniIR 泛化能力的關鍵。此外，我們建立了 M-BEIR，這是一個具有全面結果的多模態檢索基準測試，用於標準化通用多模態資訊檢索的評估。

arXiv.orgCong Wei

M-BEIR 是一個全面的大規模檢索基準測試，專門用於訓練和評估多模態檢索模型。它包含八種多模態檢索任務和來自各種領域和來源的十個數據集。該基準測試主要關注遵循指令的檢索能力。

Model	MBEIR t2i VisualNews Recall@5	MBEIR t2i MSCOCO Recall@5	MBEIR t2i Fashion200K Recall@10	MBEIR i2t VisualNews Recall@5	MBEIR i2t MSCOCO Recall@5	MBEIR i2t Fashion200K Recall@10
jina-reranker-m0	23.89	72.19	9.79	17.61	41.21	11.56
jinaai/jina-clip-v2	15.42	52.28	7.03	11.63	28.80	8.78
MonoQwen2-VL-v0.1	22.74	71.29	10.00	15.08	42.24	11.25

tagWinoground（Text2Text、Text2Image）

Winoground: Probing Vision and Language Models for Visio-Linguistic Compositionality

我們提出了一個新穎的任務和數據集，用於評估視覺和語言模型進行視覺語言組合推理的能力，我們稱之為 Winoground。給定兩張圖像和兩個標題，目標是正確匹配它們——但關鍵在於，兩個標題包含完全相同的詞集，只是順序不同。該數據集經過專家註釋者精心策劃，並標註了豐富的細粒度標籤，以協助分析模型性能。我們測試了各種最先進的視覺和語言模型，令人驚訝的是，它們的表現都不比隨機猜測好多少。顯然，這些模型在視覺語言組合推理方面的技能並不如我們所希望的那樣。我們進行了廣泛的分析，以獲得洞見，幫助未來的工作嘗試減輕這些模型的缺陷。我們希望 Winoground 能作為一個有用的評估集，推動該領域的技術進步。該數據集可在 https://huggingface.co/datasets/facebook/winoground 獲取。

arXiv.orgTristan Thrush

Winoground 是一個新穎的任務和資料集，用於評估視覺和語言模型進行視覺語言組合推理的能力。它使用具有相同詞彙內容的雙胞胎字幕，並採用對比式的圖像-字幕配對。重點在於組合推理。

Model	Text	Image	Group	Avg
jina-reranker-m0	57.00	40.75	34.00	43.92
MrLight/dse-qwen2-2b-mrl-v1	7.50	9.25	1.75	6.17
MonoQwen2-VL-v0.1	52.00	36.25	31.50	39.92

Winoground 使用三個關鍵指標來評估視覺語言模型：Text Score、Image Score 和 Group Score。Text Score 衡量模型是否正確地將字幕與圖像配對，而 Image Score 則評估模型是否為字幕選擇正確的圖像。Group Score 是最嚴格的指標，要求所有字幕-圖像關係都必須被正確識別。這些分數以百分比表示準確率，分數越高表示推理能力越好。

tag結論

jina-reranker-m0 是我們首次嘗試在單一 decoder-only 模型中統一文本和視覺模態。這個新架構整合了我們從先前的 encoder-only 檢索模型中學到的經驗，包括 jina-clip-v2、jina-embeddings-v3、jina-reranker-v2-base-multilingual 和 jina-embeddings-v2-base-code。

新模型不僅解鎖了多模態檢索任務的能力，如文本到圖像重排序和視覺文件重排序，而且在文本到文本和文本到程式碼重排序任務上，相較於 jina-reranker-v2-base-multilingual 也展現了更好的表現。我們將這個新模型系列稱為「m-series」，以突顯其多模態特性。

在比較 jina-reranker-m0 和 jina-reranker-v2-base-multilingual 時，我們對 m-series 的目標是在實現多模態的同時，在純文本任務上能達到與專門的純文本模型相當的性能。有人可能會質疑，如果在純文本任務上的性能提升看起來微不足道，使用一個大 8 倍的模型是否值得。雖然目前 m0 在純文本應用上可能不會比 v2 帶來顯著的額外價值，但 decoder-only 架構開啟了許多使用 encoder-only 架構無法實現的新可能性，包括：

真正的混合模態重排序
列表式重排序和文件去重
通過注意力機制解釋排名分數

我們未來的工作將專注於進一步升級純文本重排序器，並充分利用這個多模態架構所啟用的新功能，以實現更好且更廣泛的搜尋。