更小、更快、更便宜：介绍 Jina Rerankers Turbo 和 Tiny 版本

Jina AI 在其顶尖重排模型系列中推出新模型，现已在 AWS Sagemaker 和 Hugging Face 上线：jina-reranker-v1-turbo-en 和 jina-reranker-v1-tiny-en。这些模型在保持标准基准测试高性能的同时优先考虑速度和体积，为那些对响应时间和资源使用要求严格的环境提供更快速、更节省内存的重排流程。

Reranker Turbo 和 Tiny 为信息检索应用优化了极速响应时间。与我们的嵌入模型一样，它们使用 JinaBERT 架构，这是一种增强了对称双向 ALiBi 变体的 BERT 架构。这种架构支持长文本序列，我们的模型可接受多达 8,192 个令牌，非常适合对大型文档进行深度分析和需要详细语言理解的复杂查询。

Turbo 和 Tiny 模型借鉴了Jina Reranker v1 的经验。重排可能是信息检索应用的主要瓶颈。传统搜索应用是一项非常成熟的技术，其性能已经得到充分理解。重排器为基于文本的检索增加了很高的精确度，但 AI 模型体积大，运行可能较慢且成本较高。

许多用户更倾向于使用更小、更快、更便宜的模型，即使这会在一定程度上影响准确性。有了单一目标——重排搜索结果——就可以精简模型，在更紧凑的模型中为用户提供有竞争力的性能。通过减少隐藏层，我们加快了处理速度并减小了模型体积。这些模型运行成本更低，更快的速度使它们更适用于不能容忍太多延迟的应用，同时保留了几乎所有大型模型的性能。

在本文中，我们将向您展示 Reranker Turbo 和 Reranker Tiny 的架构，测量其性能，并向您展示如何开始使用它们。

tag精简架构

Jina Reranker Turbo（jina-reranker-v1-turbo-en）使用六层架构，总共 3,780 万个参数，而基础重排模型 jina-reranker-v1-base-en 则有 1.37 亿个参数和十二层。这使模型体积减少了四分之三，处理速度提高了近三倍。

Reranker Tiny（jina-reranker-v1-tiny-en）使用四层架构，有 3,300 万个参数，提供更强的并行处理能力和更快的速度——比基础 Reranker 模型快近五倍——同时比 Turbo 模型节省 13% 的内存成本。

Graph comparing performance of Jina Reranker versions with bars representing documents processed per 50ms. — Jina Reranker 模型的文档处理量

tag知识蒸馏

我们使用知识蒸馏技术训练 Reranker Turbo 和 Tiny。这是一种使用现有 AI 模型来训练另一个模型以匹配其行为的技术。我们不使用外部数据源，而是使用现有模型来生成训练数据。我们使用 Jina Reranker 基础模型对文档集合进行排名，然后使用这些结果来训练 Turbo 和 Tiny。这样，我们可以将更多数据引入训练过程，因为我们不受可用真实数据的限制。

这有点像学生向老师学习：已经训练好的高性能模型——Jina Reranker Base 模型——通过生成新的训练数据来"教导"未训练的 Jina Turbo 和 Jina Tiny 模型。这种技术广泛用于从大型模型创建小型模型。在最好的情况下，"教师"模型和"学生"之间在任务性能上的差异可以很小。

tagBEIR 评估

精简和知识蒸馏带来的好处对性能质量的影响相对较小。在信息检索的 BEIR 基准测试中，jina-reranker-v1-turbo-en 的准确率仅略低于 jina-reranker-v1-base-en 的 95%，而 jina-reranker-v1-tiny-en 的得分达到了基础模型得分的 92.5%。

所有 Jina Reranker 模型都能与其他流行的重排模型竞争，而这些模型大多体积要大得多。

Model	BEIR Score (NDCC@10)	Parameters
Jina Reranker models
jina-reranker-v1-base-en	52.45	137M
jina-reranker-v1-turbo-en	49.60	38M
jina-reranker-v1-tiny-en	48.54	33M
Other reranking models
`mxbai-rerank-base-v1`	49.19	184M
`mxbai-rerank-xsmall-v1`	48.80	71M
`ms-marco-MiniLM-L-6-v2`	48.64	23M
`bge-reranker-base`	47.89	278M
`ms-marco-MiniLM-L-4-v2`	47.81	19M

NDCC@10：使用标准化折损累积增益计算前 10 个结果的分数。

Chart displaying BEIR scores for various reranker projects, assessing model performance over documents processed per 50ms. — BEIR 基准测试：吞吐量（X 轴）vs 得分（Y 轴）*（注意 Y 轴不是从原点开始的。我们从较高的 BIER 分数值开始，以提高图表的可读性。）*

只有 MiniLM-L6（ms-marco-MiniLM-L-6-v2）和 MiniLM-L4（ms-marco-MiniLM-L-4-v2）具有相似的大小和速度，而 jina-reranker-v1-turbo-en 和 jina-reranker-v1-tiny-en 的表现相当或明显更好。

在 LlamaIndex RAG 基准测试中，我们得到了类似的结果。我们在 RAG 设置中测试了全部三个 Jina Reranker，使用了三个用于向量搜索的嵌入模型（jina-embeddings-v2-base-en、bge-base-en-v1.5 和 Cohere-embed-english-v3.0），并对分数进行了平均。

Reranker Model	Avg. Hit Rate	Avg. MRR
Jina Reranker models
jina-reranker-v1-base-en	0.8439	0.7006
jina-reranker-v1-turbo-en	0.8351	0.6498
jina-reranker-v1-tiny-en	0.8316	0.6761
Other reranking models
`mxbai-rerank-base-v1`	0.8105	0.6583
`mxbai-rerank-xsmall-v1`	0.8193	0.6673
`ms-marco-MiniLM-L-6-v2`	0.8052	0.6121
`bge-reranker-base`	0.8175	0.6480
`ms-marco-MiniLM-L-4-v2`	0.8246	0.6354

MRR：平均倒数排名

对于检索增强生成（RAG）任务，结果质量的损失甚至比 BEIR 纯信息检索基准测试更小。当将 RAG 性能与处理速度进行对比时，我们发现只有 ms-marco-MiniLM-L-4-v2 提供了显著更高的吞吐量，但代价是结果质量的显著降低。

Scatter plot showing hit rate versus document speed for language models, with highlighted ones like "jina-reranker" and "ms-m — LlamaIndex RAG 基准测试：吞吐量（X 轴）vs 命中率（Y 轴）*（注意 Y 轴不是从原点开始的。我们从较高的命中率值开始，以提高图表的可读性。）*

tagAWS 上的成本节省

使用 Reranker Turbo 和 Reranker Tiny 可以为需要支付内存使用和 CPU 时间费用的 AWS 和 Azure 用户带来巨大的成本节省。尽管不同用例的节省程度有所不同，但大约 75% 的内存使用量减少直接对应于按内存收费的云系统节省 75% 的成本。

此外，更快的吞吐量意味着您可以在更便宜的 AWS 实例上运行更多查询。

tag开始使用

Jina Reranker 模型易于使用并集成到您的应用程序和工作流程中。要开始使用，您可以访问 Reranker API 页面，了解如何使用我们的服务，并获得 100 万个免费令牌来亲自试用。

我们的模型也在 AWS SageMaker 上提供。如需了解更多信息，请参阅我们关于如何在 AWS 上设置检索增强生成系统的教程。

Jina Reranker 模型也可以在 Hugging Face 上以 Apache 2.0 许可下载：