SIGIR(信息检索特别兴趣小组)是一个顶尖的信息检索会议,汇集了来自全球的研究人员、开发人员、行业专家和教育工作者,共同分享最新的突破性研究。Jina AI参加了今年7月在帕多瓦举行的会议,并在Robust IR Workshop上展示了我们在后期分块方面的工作。
今年的会议展示了令人惊叹的研究,尤其是在重排器方法、稀疏检索模型以及在大模型在信息检索中的应用。亮点包括Stephen Robertson关于BM25排序算法历史和发展的主题演讲,以及Iryna Gurevych关于人工智能在科学研究未来前景的主题演讲。与会的专家和充满热情的博士生引发了许多热烈的讨论。会议在位于城市中心的帕多瓦会议中心举行。帕多瓦本身就是一个历史和文化底蕴深厚的地方,我们非常享受在那里度过的时光。
tagRobust IR中的后期分块
Robust IR workshop是SIGIR的一个新活动,今年是首次举办。它专注于信息检索系统在困难和特殊情况下如何运作,以及我们如何提高它们的鲁棒性。研讨会包括邀请讲座、已接受论文的口头报告以及小组讨论。
我们在研讨会的展板环节展示了我们关于后期分块的工作。我们收到了许多有见地的提问和评论,其中不少来自已经阅读过我们预印本的人。




从Google Drive下载海报
tag有趣的研究
我们发现SIGIR上展示了很多有趣的研究,但以下工作让我们印象深刻。
tagCLIP-AdaM:为开放集3D对象检索调整多视图CLIP
本文侧重于3D图像检索,特别是开放集3D对象检索,即检索先前未见过的对象类别的3D对象,而无需针对它们进行训练。他们的方法使用从多个角度渲染的3D模型视图,以使用在平面图像上训练的CLIP模型识别对象。该论文的一个有趣的发现是,当平均从对象的不同视图生成的向量模型时,CLIP模型表现良好。

除此之外,该论文提出了一种新颖的3D对象检索训练方法,该方法学习对不同视图进行加权,以及自适应层,这些自适应层针对特定任务调整模型,同时防止在训练数据类别上过度拟合,并提高在新类别上的零样本性能。
tag优化复合检索系统
大多数现有的排名系统,它们结合了多个排名模型来生成结果,都是基于排名级联。这意味着一个排名模型在另一个排名模型之后执行,每个模型仅保留前一个模型中得分最高的结果。
本文提出了一种不同的方法,它称之为复合检索系统:一种结合不同的重排器以最大化排名准确性和计算效率的框架。作者提出将其理解为级联方法的泛化,该方法在先前排名阶段的不同结果子集上执行多个重排器。
下图在论文中给出,展示了如何组合不同的重排器。

在他们的示例中,第一阶段排名器生成一个初始排名。然后,第二阶段使用两种具有不同排名方法的重排器:
- 一个逐点排名模型,它基于查询为来自第一排名器的文档生成相关性得分。
- 一个成对排名模型,它比较两个文档和查询,并输出估计的概率,即其中一个文档比另一个文档与查询更相关。
每个模型都有一个选择策略,该策略应用于前一排名阶段的结果,例如,仅采用前 n 个结果。还有一个最终排序函数,用于生成最终结果。选择策略和排序函数都具有通过训练设置的参数,从而实现整体优化,从而产生更好、更稳健的结果。
tagRE-AdaptIR: Improving Information Retrieval through Reverse Engineered Adaptation
已经有很多关于使用线性代数技术来优化向量模型权重方面的研究。例如,模型汤方法通过平均使用不同超参数微调同一基础模型所产生的模型的权重来提高模型准确性和稳健性。

本文提出的研究提供了一个相关的想法:我们是否可以使用微调的向量模型与其未微调的基础模型之间的权重差异向量,将学习从一个模型转移到另一个模型?如果我们针对特定领域的文本在下一个词元预测中微调基础模型的另一个副本,然后添加来自训练后的向量模型的权重差异,我们是否会获得更好的目标领域的向量模型?

这对于训练新领域的模型具有重要的优势。它可以利用丰富的纯文本数据来训练下一个词元预测,从而获得改进的向量模型。
tagBenchmarking LLM-based Relevance Judgment Methods
本文评估了使用大模型作为相关性判断器的提示词策略,包括将它们用于二元(是/否)判断、分级评估(即 0-4 级)、文档相关性的成对比较以及“基于要点”的方法,该方法确定文档是否包含特定信息。
作者通过使用 GPT-4o 和 Llama 3 进行测试得出结论,当大模型选择较少时,结果与人类判断更加一致。二元判断和成对比较效果最佳,并且对于非常强大的人工智能模型来说,足以用于大规模自动化使用。良好的提示词设计是一个关键因素。
基于要点的方法提供了人类可解释性,但可靠性较低。
tagRankers, Judges, and Assistants: Towards Understanding the Interplay of LLMs in Information Retrieval Evaluation
本文探讨了在大模型的三个不同角色中使用时的问题:对结果进行排名、判断相关性和评估结果,以及支持功能,如结果摘要和查询扩展。
它考虑了如下图所示的 LLM 在整个信息周期中的使用后果,该图取自本文。

该论文得出结论,在使用基于 LLM 的判断来评估本身依赖于 LLM 的信息检索系统时,存在重大问题。不同的基于 LLM 的组件之间的交互肯定会导致有偏差和不准确的结果。
tagLLM-Driven Usefulness Labeling for IR Evaluation
本文区分了搜索结果中的相关性和有用性。在他们的定义中,相关性是指检索到的文档的主题是否与查询在主题上相关;有用性是指文档是否对查询做出响应,即是否满足用户的意图。
其重点是 LLM 是否可以识别和排名有用性,以及他们的判断是否与人类的判断一致。他们的结论是,人类对有用性的判断与 LLM 之间存在显着的一致性。但是,可用的 LLM 在相关性和有用性不一致的情况下会遇到困难,即相关但无用的文档。作者发现,与仅提供文本查询相比,为 LLM 提供更多上下文信息可以显着改善结果。
tagLLM-based Relevance Assessment Still Can’t Replace Human Relevance Assessment
本文讨论了在信息检索中使用 LLM 进行自动相关性评估,这将使训练检索模型变得更加容易,因为永远没有足够的人工排名数据。尽管最近的一些研究声称 LLM 可以完全取代人类评估者,但本文确定了阻止 LLM 替代人类判断的关键限制。
- 当前研究的证据不足且泛化性有限:当前的研究缺乏强有力的证据表明 LLM 可以完全取代人类的相关性判断,尤其是在不同的数据集和实际场景中。如果存在积极的结果,那么它们是否真的适用于广泛的领域是值得商榷的。
- 易受操纵:包括基于 LLM 的自动化指标很容易被操纵。很容易提高分数而没有真正提高性能。
- 自我偏好偏差:LLM 倾向于偏爱与其自身训练数据相似的输出,从而引入偏差,从而损害了相关性评估的客观性。
- 过度拟合的风险:依赖基于 LLM 的评估可能会导致检索系统针对特定 LLM 的特殊性进行优化,从而降低在实际使用中的性能。
tag结论
大型语言模型的迅速崛起极大地改变了信息检索,取代了 BM25 等已建立的方法,并开辟了新的可能性。SIGIR 上展示的研究突出了这种转变。
但是,语言模型并没有将信息检索变成一个已解决的问题。会议以各种旨在使 IR 系统更紧密地与用户不断变化的需求保持一致的创新理念为特色。我们非常高兴与博士生和专家联系,交流想法,并分享我们在 Jina AI 对搜索未来的愿景。我们很高兴能继续推动该领域可能性的界限。













