Jina Reranker v3: 0.6B Listwise Reranker для SOTA Мультиязычного Поиска

jina-reranker-v3: Last but Not Late Interaction for Document Reranking

jina-reranker-v3 is a 0.6B parameter multilingual document reranker that introduces a novel last but not late interaction. Unlike late interaction models such as ColBERT that perform separate encoding followed by multi-vector matching, our approach conducts causal self-attention between query and documents within the same context window, enabling rich cross-document interactions before extracting contextual embeddings from the last token of each document. This compact architecture achieves state-of-the-art BEIR performance with 61.94 nDCG@10 while being ten times smaller than generative listwise rerankers.

arXiv.orgFeng Wang

Мы рады представить jina-reranker-v3, наше последнее поколение **重排器**, которое демонстрирует передовую производительность в многоязычных тестах поиска. Этот **重排器** документов с 0,6 миллиардами параметров представляет собой новый вид взаимодействия — *последний, но не запоздалый* (last but not late), который принципиально отличается от существующих методов. jina-reranker-v3 работает **посписочно** (listwise): он применяет причинно-следственную связь между запросом и *всеми* документами-кандидатами в пределах одного контекстного окна, обеспечивая насыщенное взаимодействие между документами перед извлечением контекстных **向量模型** из последнего **词元** каждого документа. Наша новая модель достигает 61,94 nDCG@10 на BEIR, превосходя Qwen3-Reranker-4B, при этом она в 6 раз меньше по размеру.

Model	Size	BEIR	MIRACL	MKQA	CoIR
jina-reranker-v3	0.6B	61.94	66.83	67.92	70.64
jina-reranker-v2	0.3B	57.06	63.65	67.90	56.14
jina-reranker-m0	2.4B	58.95	66.75	68.19	63.55
bge-reranker-v2-m3	0.6B	56.51	69.32	67.88	36.28
mxbai-rerank-base-v2	0.5B	58.40	55.32	64.24	65.71
mxbai-rerank-large-v2	1.5B	61.44	57.94	67.06	70.87
Qwen3-Reranker-0.6B	0.6B	56.28	57.70	65.34	65.18
Qwen3-Reranker-4B	4.0B	61.16	67.52	67.52	73.91
jina-code-embeddings-0.5b	0.5B	-	-	-	73.94

Производительность поиска на английском языке на BEIR, измеряемая nDCG@10. Все оценки — это результаты наших запусков на основе 100 лучших результатов, полученных с помощью jina-embeddings-v3 в качестве поисковика первого этапа. Мы оцениваем три варианта jina-reranker-v3: документы, упорядоченные по убыванию релевантности, по возрастанию и со случайной перестановкой. Оценка показывает, что v3 поддерживает относительно стабильную производительность при различных порядках ввода, что говорит о надежных механизмах самообслуживания, которые могут эффективно обрабатывать документы независимо от их первоначального расположения.

Оценка MIRACL на 18 различных языках демонстрирует кросс-лингвистическую консистентность jina-reranker-v3, несмотря на его компактную архитектуру. В число языков, которые мы оцениваем, входят английский, китайский, испанский, арабский, французский, русский, немецкий, японский, индонезийский, хинди, бенгали, корейский, суахили, телугу, тайский, персидский/фарси, йоруба и финский.

Многоязычная производительность поиска на MKQA, измеряемая Recall@10. В число языков, которые мы оцениваем, входят английский, китайский (упрощенный), испанский, арабский, португальский, русский, японский, немецкий, французский, корейский, вьетнамский, итальянский, турецкий, польский, тайский, голландский, малайский, китайский (традиционный), шведский, иврит, венгерский, китайский (Гонконг), датский, норвежский, финский и кхмерский.

tagАрхитектура модели

jina-reranker-v3 построен на основе Qwen3-0.6B, декодерной трансформаторной модели с причинно-следственным самообслуживанием. Модель обрабатывает несколько документов и запросов одновременно, извлекая контекстные **向量模型** в заданных позициях **词元** для эффективного вычисления сходства.

Архитектура jina-reranker-v3, показывающая трансформаторную основу со специальными позициями **词元** для извлечения **向量模型**. Модель обрабатывает несколько документов и запросов в одном контекстном окне, извлекая контекстные **向量模型** в заданных позициях **词元** для вычисления сходства.

Parameter	Value
Total Parameters	0.6B
Non-Embedding Parameters	0.44B
Hidden Size	1,024
Number of Layers	28
Attention Heads (Q/KV)	16/8 (GQA)
Context Length	131,072
MLP Projector	1024→512→256
Final Embedding Size	256

Учитывая запрос и набор документов-кандидатов, jina-reranker-v3 выполняет задачу **重排器** с использованием специализированного шаблона **提示词**, который обеспечивает взаимодействие между документами за один прямой проход. Построение входных данных соответствует определенному формату:

<|im_start|>system
You are a search relevance expert who can determine
a ranking of passages based on their relevance to the query.
<|im_end|>

<|im_start|>user
I will provide you with k passages, each indicated by a numerical identifier.
Rank the passages based on their relevance to query: [QUERY]

<passage id="1">
[DOCUMENT_1]<|doc_emb|>
</passage>
</passage>
<passage id="2">
[DOCUMENT_2]<|doc_emb|>
</passage>
...
<passage id="k">
[DOCUMENT_k]<|doc_emb|>
</passage>

<query>
[QUERY]<|query_emb|>
</query>
<|im_end|>

<|im_start|>assistant
<think></think>

Каждый документ заключен в теги абзаца с последовательными идентификаторами, что обеспечивает четкое разграничение документов в общем контекстном окне. Модель обрабатывает до 64 документов одновременно в пределах своей емкости контекста в 131 тыс. **词元**. Для больших коллекций документов обработка происходит партиями с сохранением согласованности запросов между партиями.

Запрос появляется **дважды** во входной структуре — один раз в начале для инструкций по задаче и один раз в конце для окончательной обработки внимания. Такое двойное размещение позволяет конечной позиции запроса обращаться ко всем предыдущим документам посредством причинно-следственной связи. Два критических специальных **词元** отмечают позиции извлечения **向量模型**: **词元** <|doc_emb|> помещается после каждого документа, чтобы отметить точки извлечения **向量模型** документа, а **词元** <|query_emb|> помещается после последнего запроса, чтобы отметить точку извлечения **向量模型** запроса. Эти **向量模型** фиксируют как локальную семантику документа, так и глобальный междисциплинарный контекст посредством общего механизма причинно-следственного самообслуживания.

Мы называем это взаимодействие запроса и документа "последним, но не запоздалым" (last but not late). Оно "последнее", потому что <|doc_emb|> размещается в качестве последнего **词元** каждого документа. Оно "не запоздалое", потому что, в отличие от моделей позднего взаимодействия, таких как ColBERT, которые отдельно кодируют документы перед сопоставлением нескольких векторов, мы обеспечиваем взаимодействие запроса и документа, а также взаимодействие документов в одном и том же контекстном окне во время прямого прохода.

Наконец, двухслойный MLP-проектор с активацией ReLU отображает 1024-мерные скрытые состояния в 256-мерное пространство ранжирования. Оценка релевантности вычисляется с использованием косинусного сходства между спроецированным векторным представлением запроса и каждым спроецированным векторным представлением документа. Это дает оценку релевантности для каждого документа во входном наборе.

tagНачало работы

tagЧерез API

Самый простой способ использовать jina-reranker-v3 — через наш Search Foundation API.

curl -X POST \
  https://api.jina.ai/v1/rerank \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer JINA_API_KEY" \
  -d '{
  "model": "jina-reranker-v3",
  "query": "slm markdown",
  "documents": [
    ...
  ],
  "return_documents": false
}'

{
  "model":"jina-reranker-v3",
  "usage": {
    "total_tokens":2813
  },
  "results":[
    {
      "index":1,
      "relevance_score":0.9310624287463884
    },
    {
      "index":4,
      "relevance_score":0.8982678574191957
    },
    {
      "index":0,
      "relevance_score":0.890233167219021
    },
    ...
  ]
}

Поле relevance_score указывает на релевантность каждого документа запросу, при этом более высокие оценки указывают на большую релевантность.

tagЧерез `transformers`

from transformers import AutoModel

model = AutoModel.from_pretrained(
    'jinaai/jina-reranker-v3',
    dtype="auto",
    trust_remote_code=True,
)
model.eval()

Теперь вы можете использовать функцию rerank модели для вычисления оценок релевантности для запроса и списка документов:

query = "What are the health benefits of green tea?"
documents = [
    "Green tea contains antioxidants called catechins that may help reduce inflammation and protect cells from damage.",
    "El precio del café ha aumentado un 20% este año debido a problemas en la cadena de suministro.",
    "Studies show that drinking green tea regularly can improve brain function and boost metabolism.",
    "Basketball is one of the most popular sports in the United States.",
    "绿茶富含儿茶素等抗氧化剂，可以降低心脏病风险，还有助于控制体重。",
    "Le thé vert est riche en antioxydants et peut améliorer la fonction cérébrale.",
]

# Rerank documents
results = model.rerank(query, documents)

# Results are sorted by relevance score (highest first)
for result in results:
    print(f"Score: {result['relevance_score']:.4f}")
    print(f"Document: {result['document'][:100]}...")
    print()

tagЗаключение

jina-reranker-v3 — это новый многоязычный списочный 重排器 с 0,6B параметрами, который представляет взаимодействие last but not late для эффективного 重排 документов. Документы могут обращать внимание друг на друга во время кодирования, устанавливая взаимодействие, которое информирует об окончательном ранжировании.

Одна из основных проблем заключается в том, устойчиво ли такое взаимодействие к перестановке входных данных — то есть, если мы перемешаем порядок ввода, останется ли ранжирование прежним? Мы протестировали это с запросом к 110 документам-кандидатам с использованием случайной перестановки и построили график дисперсии в каждой позиции ранга на рисунке ниже.

График стабильности ранга визуализирует, насколько последовательно документы появляются на определенных позициях ранга в 1000 случайных перестановках входных данных. Ось y представляет дисперсию стабильности в процентах, где 0% указывает на идеальную стабильность (один и тот же документ всегда появляется в этом ранге), а 100% указывает на максимальную дисперсию (почти все документы появлялись в этом ранге в разных перестановках). Ось x показывает позиции ранга от 1 до 110.

Критический вывод заключается в том, что позиции с самым высоким рейтингом демонстрируют отличную стабильность. Ранги 1-10 демонстрируют минимальную дисперсию, при этом наиболее релевантные документы последовательно занимают верхние строчки, независимо от порядка ввода. Это имеет решающее значение для nDCG@10 и аналогичных метрик top-k. Нерелевантные документы постоянно остаются внизу, создавая четкое разделение между релевантным и нерелевантным контентом.

Средняя часть показывает значительную смену позиций, что ожидаемо и приемлемо. Модель использует причинное самовнимание и кодирует различную контекстную информацию на основе того, что появляется перед ней в последовательности.

На практике, где нас волнуют самые верхние результаты, такое поведение вполне приемлемо. Наша оценка показывает, что jina-reranker-v3 превосходит наши предыдущие поколения, включая jina-reranker-v2-base-multilingual и jina-colbert-v2, а также гораздо более крупные альтернативы, такие как Qwen3-Reranker-4B и jina-reranker-m0, что еще больше подтверждает это.