使用 Jina Reranker 提升搜索相关性和 RAG 准确度

文本嵌入以其语义表示能力而闻名，结合快速的向量检索，是当今海量数据集文档搜索的基石。然而，挑战往往在于如何准确过滤这些检索到的文档以匹配用户的搜索意图，这项任务已经超出了简单余弦相似度度量的能力范围。

今天，我们很高兴宣布推出 Jina Reranker（jina-reranker-v1-base-en），这是一个专门解决相关性关键问题的前沿神经重排序模型。Jina Reranker 通过深入且上下文地理解搜索查询词，通过对检索文档进行重新排序来增强您的搜索和 RAG（检索增强生成）系统。我们的评估表明，使用 Jina Reranker 的搜索系统在命中率提高 +8%，平均倒数排名提高 +33%！

tag什么是 Reranker？

理解重排序器的概念往往会让我们质疑搜索（排序）系统中重新排序机制的必要性。常见的问题是："为什么我们需要重排序器？"和"仅仅通过查询和文档嵌入之间的余弦相似度来排序文档难道还不够吗？"为了回答这些问题，让我们首先回顾一下单一嵌入余弦相似度方法及其局限性。

余弦相似度通过测量两个嵌入向量之间的夹角余弦来量化两个文档之间的相似度。这种度量方法因其简单性而备受推崇，并已被许多向量数据库用作默认的检索方式。然而，这种被称为基于表示的方法往往过于简化了查询和文档之间的交互。具体来说，它难以捕捉子文档级别和子查询级别的细微交互，经常无法完全理解用户意图和文档相关性的细节。

Comparative diagram of "representation-based" and "Re_ranker" information retrieval approaches with sub-query interactions. — 基于表示的余弦相似度（左）和重排序器（右）的比较。

这就是重排序器发挥作用的地方。利用深度神经网络，重排序器能更深入地分析查询和短列表文档之间的交互。它们超越了基本的文档级嵌入，拥抱了发生在查询内部、文档内部以及跨越查询-文档边界的标记级交互。虽然与简单的余弦相似度相比，这种方法的计算强度更高，但它实现了一种细致的比较，融入了上下文、语义含义和查询背后的意图，大大提高了搜索结果的相关性。

	基于余弦相似度的向量搜索	重排序器
交互级别	文档级嵌入	标记级交互
计算需求	低	高
主要计算发生在	离线，即索引时	在线，即查询时
结果	广泛但浅层的匹配	高度相关和精确的匹配
优势	- 快速高效 - 实现简单	- 深度上下文理解 - 高级语义分析
局限性	- 缺乏深度和上下文 - 可能错过用户意图的细微差别	- 计算密集 - 需要更复杂的模型
最适合	提供快速、高效的初步筛选	增加深度，提高最终搜索结果的准确性和相关性

总之，重排序器是搜索管道中的关键组件。一个高质量的搜索系统通常从基于嵌入的向量检索步骤开始，然后由重排序模型进行精炼。这种两步法利用了两种模型的优势，确保提供与用户需求无缝对接的精确、高质量信息。

Diagram of information retrieval with steps from query to sorting documents by relevancy highlighted in a flowchart. — 实际的搜索系统通常将基于嵌入的搜索和重排序器串联在一起，以实现最佳的搜索质量。

tag开始使用 Jina Reranker

要开始使用 Jina Reranker，请访问我们的 Reranker 页面获取 YOUR_API_KEY。您可以通过更改查询或添加更多文档来修改下面的 cURL 示例：

curl -X 'POST' \
  'https://api.jina.ai/v1/rerank' \
  -H 'accept: application/json' \
  -H 'Authorization: Bearer YOUR_API_KEY' \
  -H 'Content-Type: application/json' \
  -d '{
  "model": "jina-reranker-v1-base-en",
  "query": "Organic skincare products for sensitive skin",
  "documents": [
    "Eco-friendly kitchenware for modern homes",
    "Biodegradable cleaning supplies for eco-conscious consumers",
    "Organic cotton baby clothes for sensitive skin",
    "Natural organic skincare range for sensitive skin",
    "Tech gadgets for smart homes: 2024 edition",
    "Sustainable gardening tools and compost solutions",
    "Sensitive skin-friendly facial cleansers and toners",
    "Organic food wraps and storage solutions",
    "All-natural pet food for dogs with allergies",
    "Yoga mats made from recycled materials"
  ], 
  "top_n": 3
}'

在这个例子中，文档涵盖了从家居用品到科技产品、服装，甚至宠物食品在内的广泛内容，展示了电商网站上可能找到的各种产品。这种多样性要求重排序器能够有效识别和优先考虑与"有机敏感肌肤护肤品"查询最相关的项目，即使在存在其他类别的有机、环保或敏感肌相关产品的情况下。响应是一个 JSON 对象，如下所示：

{
  "model": "jina-reranker-v1-base-en",
  "usage": {
    "total_tokens": 38,
    "prompt_tokens": 38
  },
  "results": [
    {
      "index": 3,
      "document": {
        "text": "Natural organic skincare range for sensitive skin"
      },
      "relevance_score": 0.8292155861854553
    },
    {
      "index": 2,
      "document": {
        "text": "Organic cotton baby clothes for sensitive skin"
      },
      "relevance_score": 0.14426936209201813
    },
    {
      "index": 6,
      "document": {
        "text": "Sensitive skin-friendly facial cleansers and toners"
      },
      "relevance_score": 0.13857832551002502
    }
  ]
}

tagJina Reranker 的顶级性能

我们在四个关键基准测试上评估了 Jina Reranker，以确保顶级性能和搜索相关性。这些基准测试的高性能直接转化为搜索和检索应用中更好的精确度、相关性和上下文理解。

为了比较，我们在基准测试中包含了来自 BGE (BAAI)、BCE (网易有道) 和 Cohere 的三个其他领先重排序器。如下面的结果所示，Jina Reranker 在所有重排序相关类别中都保持最高的平均分数，使其成为同类产品中的明显领导者。

tag基准测试 1：LlamaIndex RAG

LlamaIndex 进行了一项基准测试研究（我们也复现了），评估了在 RAG 任务中组合使用不同的嵌入和重排序模型的效果。这个测试结合了两个评分标准 —— 命中率（嵌入模型检索相关文档的可能性）和平均倒数排名（MRR —— 重排序模型将最相关文档排在多高的位置）。

	No Reranker		jina-reranker		bge-reranker-base		bce-reranker-base_v1		cohere-reranker
Embedding model	Hit Rate	MRR	Hit Rate	MRR	Hit Rate	MRR	Hit Rate	MRR	Hit Rate	MRR
jina-embeddings-v2-base-en	0.8053	0.5156	0.8737	0.7229	0.8368	0.6568	0.8737	0.7007	0.8842	0.7008
bge-base-en-v1.5	0.7842	0.5183	0.8368	0.6895	0.8158	0.6586	0.8316	0.6843	0.8368	0.6739
bce-embedding-base_v1	0.8526	0.5988	0.8895	0.7346	0.8684	0.6927	0.9157	0.7379	0.9158	0.7296
CohereV3-en	0.7211	0.4900	0.8211	0.6894	0.8000	0.6285	0.8263	0.6855	0.8316	0.6710
Average	0.7908	0.5307	0.8553	0.7091	0.8303	0.6592	0.8618	0.7021	0.8671	0.6938

相比简单余弦相似度的显著改进

Jina Reranker 在命中率和平均倒数排名（MRR）两个指标上都带来了显著的改进。平均而言，引入 Jina Reranker 将命中率从 0.7908 提升到 0.8553（+7.9%），将 MRR 从 0.5307 提升到 0.7091（+33.7%）。这展示了重排序器能够显著提高搜索结果的精确度和相关性，确保用户能够以更高的准确度找到他们要搜索的内容。

嵌入模型无关性

Jina Reranker 在不同嵌入模型上的表现进一步说明了其模型无关性。无论是与 jina-embeddings-v2-base-en、bge-base-en-v1.5、bce-embedding-base_v1 还是 CohereV3-en 搭配使用，Jina Reranker 都能持续改善命中率和 MRR。这种通用性使其成为各种应用场景中的宝贵工具，证实了其能够适应不同的底层技术和使用场景。

tag基准测试 2：BEIR

BIER (Benchmarking IR) 评估模型的检索有效性，包括相关性和 NDCG。更高的 BIER 得分对应着更准确的匹配和搜索结果排名。

Dataset	jina-reranker	bge-reranker-base	bce-reranker-base-v1	cohere-rerank-english-v2.0
NQ	0.5951	0.5457	0.5186	0.6004
HotpotQA	0.7447	0.7766	0.7392	0.7202
FiQA-2018	0.3981	0.3228	0.3262	0.4387
CQADupstack	0.4077	0.3516	0.3594	0.3829
Quora	0.8792	0.7001	0.8390	0.6433
FEVER	0.8707	0.8961	0.7203	0.8265
Climate-FEVER	0.2570	0.3399	0.2171	0.2038
TREC-COVID	0.8523	0.7121	0.7364	0.8419
NFCorpus	0.3809	0.3308	0.3534	0.3673
ArguAna	0.5938	0.2620	0.3856	0.3040
Touche-2020	0.3065	0.2965	0.2533	0.3052
DBPedia	0.4387	0.4196	0.4069	0.4236
SciFact	0.7549	0.7104	0.7021	0.7379
SCIDOCS	0.1983	0.1540	0.1802	0.1813
MSMarco	0.7042	0.7303	0.7155	0.7350
Average	0.5588	0.5032	0.4969	0.5141

tag基准测试 3：MTEB

MTEB（多语言文本嵌入基准）整体上测试模型在文本嵌入方面的能力，包括聚类、分类、检索等多个指标。不过在我们的比较中，我们只使用了 MTEB 的重排序任务。

Dataset	jina-reranker	bge-reranker-base	bce-reranker-base-v1	cohere-rerank-english-v2.0
AskUbuntuDupQuestions	0.5793	0.5471	0.5654	0.5536
SciDocsRR	0.8056	0.6741	0.7578	0.6728
StackOverflowDupQuestions	0.4850	0.3764	0.4287	0.4414
Average	0.6233	0.5325	0.5840	0.5559

tag基准测试 4：LoCo

通过 LoCo 基准测试，我们测量了模型对局部连贯性和上下文的理解，以及查询特定排序的能力。更高的 LoCo 分数反映了更好的相关信息识别和优先排序能力。

Dataset	jina-reranker	bge-reranker-base	bce-reranker-base-v1	cohere-rerank-english-v2.0
qasper_None_abstract	0.996	0.774	0.989	0.919
qasper_None_title	0.980	0.883	0.971	0.983
scrolls_gov_report_output	0.962	0.574	0.922	0.659
scrolls_qmsum_output	0.466	0.549	0.449	0.444
scrolls_summ_screen_fd_output	0.962	0.629	0.920	0.905
Average	0.873	0.682	0.850	0.782

tagJina Reranker 模型亮点

Jina Reranker 在重排序领域脱颖而出，如前面的分析所示，其表现优于来自 Cohere、BGE 和 BCE 的主要竞争对手。其与嵌入方式无关的特性和无与伦比的效率凸显了其在行业中的领先地位。此外，Jina Reranker 还具有以下显著特点：

tag长上下文长度

Jina Reranker 在处理长上下文长度方面优于其他重排序解决方案。它能够处理长达 512 个 token 的查询和最多 8192 个 token 的文档。此外，该模型设计为可以为每个查询处理多达 2048 个候选文档。

重排序时间成本(查询=1，文档=100)，单位：毫秒	#每个文档的 Token 数
#查询 Token 数	256	512	1024	2048	4096
64	156	323	1366	2107	3571
128	194	369	1377	2123	3598
256	273	475	1397	2155	4299
512	468	1385	2114	3536	7068

tag通过 RAG 集成提高准确性

检索增强生成（RAG）通过将额外的、特定上下文的信息（例如公司的内部数据库）整合到查询过程中，显著提高了大型语言模型（LLM）响应的准确性。这种方法确保 LLM 的响应牢固地建立在提供的上下文数据之上。在信息检索流程中将重排序器与 RAG 集成，为开发能够在广泛领域中提供精确信息检索的高性能应用铺平了道路。

举个例子，假设你正在计划使用客人喜欢的特定食材烹饪一顿特别的餐点。为了简化这项任务，你决定使用一个基于知名烹饪书籍推荐菜谱的聊天机器人。最初，在没有重排序器的情况下，你的输入可能是这样的：

Context information is below.
---------------------
{Madhur_Jaffrey_An_Invitation_To_Indian_Cooking}
{Julia_Child_Mastering_The_Art_Of_French_Cooking}
{Jiro_Ono_Sushi_Estetica_E_Tecnica}
---------------------

Given the context information and no prior knowledge, answer the query.
Query: Create a recipe using the ingredients below.
---------------------
Salmon
Asparagus
Potatoes
---------------------

然而，通过引入 reranker 模型，可以对文档相关性进行更细致的理解，用文档相对于查询的重要性信息来增强 LLM 的上下文。经过优化的输入，突出显示了上下文与查询的相关性排名，可能如下所示：

Context information is below.
Note that the context is ranked from most to least relevant to the query.
---------------------
{Julia_Child_Mastering_The_Art_Of_French_Cooking}
{Jiro_Ono_Sushi_Estetica_E_Tecnica}
{Madhur_Jaffrey_An_Invitation_To_Indian_Cooking}
---------------------

Given the context information and no prior knowledge, answer the query.
Query: Create a recipe using the ingredients below.
---------------------
Salmon
Asparagus
Potatoes
---------------------

对于这些原料的烹饪书籍相关性的这一额外见解层，清楚地表明最佳食谱很可能出自法国菜系，引导聊天机器人的建议朝着最符合食材烹饪背景的方向发展。如果没有重新排序，考虑到三文鱼的突出地位，基于寿司的建议也同样合理，但这会带来截然不同的用餐体验。

此外，通过确定排序过程中要考虑的文档数量，用户可以根据具体需求调整操作的精确度和计算需求，进一步展示了 reranker 的多功能性和有效性。

tag实惠的 API 定价

Jina Reranker API 的定价与我们的嵌入式 API（包括 100 万次免费试用）相同，如 jina-embeddings-v2-base-en，基于查询和文档中的总 token 数量。可以在我们的 Embeddings/Reranker API 页面购买 token 配额。API 密钥和 token 配额可以同时用于 reranker 和嵌入式 API。

tag即将登陆 AWS Marketplace

为了扩大我们的覆盖范围，Jina Reranker 不仅可以通过我们的 API 访问，还将在 AWS SageMaker Marketplace 上首次亮相，以实现无缝的私有云部署。这项即将推出的功能旨在在您熟悉的 AWS 云订阅范围内提供增强的数据保护和应用程序安全性。

我们非常重视您对 Jina Reranker 的见解和体验。欢迎在我们的 Discord 频道上与我们交流，分享您的反馈并了解我们最新的模型。在我们继续完善技术并为更具活力和包容性的搜索 AI 生态系统做出贡献的过程中，您的意见至关重要。