I/O 图
选择要比较的模型
论文 (1)
概述
jina-reranker-v3 是一个参数量达 0.6B 的多语言文档重排器,引入了一种新颖的“后发先至”的交互架构。与 ColBERT 采用多向量匹配的单独编码不同,该模型在同一上下文窗口内对查询和文档执行因果自注意力机制,从而在从每个文档的最后一个标记提取上下文向量化之前实现丰富的跨文档交互。该模型基于 Qwen3-0.6B 构建,拥有 28 个 Transformer 层和一个轻量级 MLP 投影器(1024→512→256),可在 131K 标记上下文中同时处理多达 64 个文档。该模型实现了 61.94 nDCG-10 的行业领先性能,同时比生成式列表式重排器小 10 倍。
方法
采用三阶段渐进式训练,多目标损失函数结合了 InfoNCE、分散损失(0.45)、双重匹配损失(0.85)和相似性损失(0.85)。第一阶段使用 LoRA 微调(r=16,α=32),在特定领域数据集(包括 BGE-M3、Cornstack)上进行训练,每个查询包含 16 个文档。第二阶段将上下文扩展至 8,192 个标记,并在检索系统中挖掘硬负样本,最多可包含 25 个负样本,τ=0.05。第三阶段合并权重为 0.25-0.65 的专用模型。特殊标记 doc_emb 和 query_emb 标记向量化提取位置。训练使用具有系统/用户/助手角色的结构化提示,将查询置于开头和结尾以进行双向注意。
性能
在 BEIR 数据集上,nDCG-10 得分达到 61.94,在所有评估的重排器中最高,比 jina-reranker-v2 提升 4.88%。在多跳检索方面表现出色,在 HotpotQA 数据集上达到 78.56,在 FEVER 数据集上达到 93.95。在 MIRACL 数据集上,18 种语言的多语言性能达到 66.50,其中阿拉伯语为 78.69,泰语为 81.06。在 CoIR 数据集上,代码检索达到 63.28。在参数减少 2.5 倍的情况下,性能优于 15 亿 mxbai-rerank-large 数据集(61.44)。比同规模的 bge-reranker-v2-m3 提升 5.43%。在文档排序方面相对稳定:随机排序(62.54)、降序排序(61.94)、升序排序(61.52)。
最佳实践
使用包含系统/用户/助手角色的结构化提示模板和特殊标记进行向量化提取。对于超过 131K 上下文的集合,每次前向传递最多可处理 64 个文档。文档随机排序或按相关性降序排列效果最佳。利用跨文档交互功能进行比较排名任务。对于多语言应用,该模型可在 18 种语言之间提供强大的零样本迁移。对大型文档集进行批处理,并在各个批次之间保持一致的查询向量化。考虑使用 256 维输出向量化进行高效的相似度计算。非常适合同时要求排名质量和推理效率的应用,尤其是多跳推理和事实验证任务。
提及此模型的博客







