Jina Reranker v3：用於 SOTA 多語檢索的 0.6B Listwise 重排器

jina-reranker-v3: Last but Not Late Interaction for Document Reranking

jina-reranker-v3 is a 0.6B parameter multilingual document reranker that introduces a novel last but not late interaction. Unlike late interaction models such as ColBERT that perform separate encoding followed by multi-vector matching, our approach conducts causal self-attention between query and documents within the same context window, enabling rich cross-document interactions before extracting contextual embeddings from the last token of each document. This compact architecture achieves state-of-the-art BEIR performance with 61.94 nDCG@10 while being ten times smaller than generative listwise rerankers.

arXiv.orgFeng Wang

我們很高興發布 jina-reranker-v3，這是我們最新一代的重排器，可在多語系檢索基準測試中提供最先進的效能。這個具有 0.6B 參數的文件重排器引入了一種新穎的最後但非延遲互動，它採用了與現有方法截然不同的方法。 jina-reranker-v3 以 listwise 方式工作：它在單個上下文視窗中，在查詢和所有候選文件之間應用因果注意力，從而在從每個文件的最後一個詞元中提取上下文向量模型之前，實現豐富的跨文件互動。我們的新模型在 BEIR 上實現了 61.94 nDCG@10，優於 Qwen3-Reranker-4B，同時尺寸縮小了 6 倍。

Model	Size	BEIR	MIRACL	MKQA	CoIR
jina-reranker-v3	0.6B	61.94	66.83	67.92	70.64
jina-reranker-v2	0.3B	57.06	63.65	67.90	56.14
jina-reranker-m0	2.4B	58.95	66.75	68.19	63.55
bge-reranker-v2-m3	0.6B	56.51	69.32	67.88	36.28
mxbai-rerank-base-v2	0.5B	58.40	55.32	64.24	65.71
mxbai-rerank-large-v2	1.5B	61.44	57.94	67.06	70.87
Qwen3-Reranker-0.6B	0.6B	56.28	57.70	65.34	65.18
Qwen3-Reranker-4B	4.0B	61.16	67.52	67.52	73.91
jina-code-embeddings-0.5b	0.5B	-	-	-	73.94

在 BEIR 上以 nDCG@10 衡量的英語檢索效能。所有分數都是我們基於來自 jina-embeddings-v3 作為第一階段檢索器的前 100 個結果的執行結果。我們評估了 jina-reranker-v3 的三種變體：按相關性分數降序排列的文件、按升序排列的分數以及隨機排列。評估顯示，v3 在不同的輸入排序中保持相對穩定的效能，這表明穩健的自我注意機制可以有效地處理文件，而不管其初始排列如何。

跨 18 種不同語言的 MIRACL 評估證明了 jina-reranker-v3 儘管其架構緊湊，但仍具有跨語言的一致性。我們評估的語言包括英語、中文、西班牙語、阿拉伯語、法語、俄語、德語、日語、印尼語、印地語、孟加拉語、韓語、斯瓦希里語、泰盧固語、泰語、波斯語/法語、約魯巴語和芬蘭語。

在 MKQA 上以 Recall@10 衡量的多語系檢索效能。我們評估的語言包括英語、簡體中文、西班牙語、阿拉伯語、葡萄牙語、俄語、日語、德語、法語、韓語、越南語、義大利語、土耳其語、波蘭語、泰語、荷蘭語、馬來語、繁體中文、瑞典語、希伯來語、匈牙利語、中文（香港）、丹麥語、挪威語、芬蘭語和高棉語。

tag模型架構

jina-reranker-v3 建構於 Qwen3-0.6B 主幹之上，Qwen3-0.6B 是一個僅解碼器的 Transformer 模型，具有因果自我注意。該模型同時處理多個文件和查詢，在指定的詞元位置提取上下文向量模型，以實現有效的相似性計算。

顯示 jina-reranker-v3 架構，其中包含具有特殊詞元位置的 Transformer 主幹，用於向量模型提取。該模型在一個上下文視窗中處理多個文件和查詢，在指定的詞元位置提取上下文向量模型，以進行相似性計算。

Parameter	Value
Total Parameters	0.6B
Non-Embedding Parameters	0.44B
Hidden Size	1,024
Number of Layers	28
Attention Heads (Q/KV)	16/8 (GQA)
Context Length	131,072
MLP Projector	1024→512→256
Final Embedding Size	256

給定一個查詢和一組候選文件，jina-reranker-v3 使用專用的提示詞模板處理重排任務，該模板可在單個正向傳遞中實現跨文件互動。輸入結構遵循特定格式：

<|im_start|>system
You are a search relevance expert who can determine
a ranking of passages based on their relevance to the query.
<|im_end|>

<|im_start|>user
I will provide you with k passages, each indicated by a numerical identifier.
Rank the passages based on their relevance to query: [QUERY]

<passage id="1">
[DOCUMENT_1]<|doc_emb|>
</passage>
<passage id="2">
[DOCUMENT_2]<|doc_emb|>
</passage>
...
<passage id="k">
[DOCUMENT_k]<|doc_emb|>
</passage>

<query>
[QUERY]<|query_emb|>
</query>
<|im_end|>

<|im_start|>assistant
<think></think>

每個文件都包含在具有連續 ID 的段落標籤中，從而在共享上下文視窗中實現清晰的文件邊界。該模型在其 131K 詞元上下文容量中同時處理最多 64 個文件。對於較大的文件集合，處理以批次方式進行，同時保持跨批次的查詢一致性。

查詢在輸入結構中出現兩次 - 一次在開頭用於任務說明，一次在結尾用於最終注意處理。這種雙重放置使最終查詢位置能夠通過因果注意來關注所有前面的文件。兩個重要的特殊詞元標記了向量模型提取位置：<|doc_emb|> 詞元放置在每個文件之後，以標記文件向量模型提取點，而 <|query_emb|> 詞元放置在最終查詢之後，以標記查詢向量模型提取點。這些向量模型通過共享的因果自我注意機制，捕獲本地文件語義和全域跨文件上下文。

我們將這種查詢-文件互動稱為「最後但非延遲」。 它是「最後」，因為 <|doc_emb|> 被放置為每個文件的最後一個詞元。它是「非延遲」，因為與 ColBERT 等延遲互動模型在多向量匹配之前單獨編碼文件不同，我們在正向傳遞期間在同一上下文視窗中啟用查詢-文件和文件-文件互動。

最後，一個具有 ReLU 激活函數的兩層 MLP 投影器將 1024 維的隱藏狀態映射到 256 維的排序空間。相關性評分是使用投影後的查詢向量模型與每個投影後的文件向量模型之間的 cosine 相似度計算得出的。這會為輸入集中的每個文件產生一個相關性分數。

tag開始使用

tag透過 API

使用 jina-reranker-v3 最簡單的方式是透過我們的 Search Foundation API。

curl -X POST \
  https://api.jina.ai/v1/rerank \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer JINA_API_KEY" \
  -d '{
  "model": "jina-reranker-v3",
  "query": "slm markdown",
  "documents": [
    ...
  ],
  "return_documents": false
}'

{
  "model":"jina-reranker-v3",
  "usage": {
    "total_tokens":2813
  },
  "results":[
    {
      "index":1,
      "relevance_score":0.9310624287463884
    },
    {
      "index":4,
      "relevance_score":0.8982678574191957
    },
    {
      "index":0,
      "relevance_score":0.890233167219021
    },
    ...
  ]
}

relevance_score 欄位表示每個文件與查詢的相關性，分數越高表示相關性越高。

tag透過 `transformers`

from transformers import AutoModel

model = AutoModel.from_pretrained(
    'jinaai/jina-reranker-v3',
    dtype="auto",
    trust_remote_code=True,
)
model.eval()

現在您可以使用模型的 rerank 函式來計算查詢和文件列表的相關性分數：

query = "What are the health benefits of green tea?"
documents = [
    "Green tea contains antioxidants called catechins that may help reduce inflammation and protect cells from damage.",
    "El precio del café ha aumentado un 20% este año debido a problemas en la cadena de suministro.",
    "Studies show that drinking green tea regularly can improve brain function and boost metabolism.",
    "Basketball is one of the most popular sports in the United States.",
    "绿茶富含儿茶素等抗氧化剂，可以降低心脏病风险，还有助于控制体重。",
    "Le thé vert est riche en antioxydants et peut améliorer la fonction cérébrale.",
]

# Rerank documents
results = model.rerank(query, documents)

# Results are sorted by relevance score (highest first)
for result in results:
    print(f"Score: {result['relevance_score']:.4f}")
    print(f"Document: {result['document'][:100]}...")
    print()

tag結論

jina-reranker-v3 是一個新的 0.6B 參數多語列表式重排器，它引入了最後但並非不重要的交互，以實現高效的文件重排。文件可以在編碼期間相互關注，建立有助於最終排序的交互。

其中一個主要考量是，這種交互是否能抵抗輸入排列—也就是說，如果我們打亂輸入順序，排名是否會保持不變？我們使用一個查詢針對 110 份候選文件進行了隨機排列測試，並在下圖中繪製了每個排名位置的變異數。

排名穩定性圖表視覺化了文件在 1,000 次隨機輸入排列中出現在特定排名位置的一致性。y 軸表示穩定性變異數，以百分比表示，其中 0% 表示完全穩定（完全相同的文件始終出現在此排名），而 100% 表示最大變異數（幾乎所有文件都出現在排列中的此排名）。x 軸顯示從 1 到 110 的排名位置。

關鍵發現是，排名靠前的位置顯示出卓越的穩定性。排名 1-10 表現出最小的變異數，無論輸入順序如何，最相關的文件始終排在最前面。這對於 nDCG@10 和類似的 top-k 指標至關重要。不相關的文件始終保持在底部，從而在相關內容和不相關內容之間建立清晰的分隔。

中間部分顯示了顯著的位置交換，這是預期且可接受的。該模型使用因果自我注意，並根據序列中出現在它們之前的內容來編碼不同的上下文訊息。

在實踐中，我們關心的是最靠前的結果，因此這種行為是完全可以接受的。我們的評估顯示，jina-reranker-v3 的表現優於我們之前的版本，包括 jina-reranker-v2-base-multilingual 和 jina-colbert-v2，以及更大的替代方案，如 Qwen3-Reranker-4B 和 jina-reranker-m0，進一步證實了這一點。