我們在 SIGIR 2025 上學到的東西

SIGIR（資訊檢索特別興趣小組）是一個頂級的資訊檢索會議，匯集了來自全球的研究人員、開發人員、產業專家和教育工作者，共同分享最新的突破性研究。Jina AI 參加了今年七月在帕多瓦舉行的會議，並在Robust IR Workshop上發表了我們關於late chunking的研究成果。

今年的會議展示了許多令人驚嘆的研究，尤其是在重排序方法、稀疏檢索模型以及在大模型在資訊檢索中的應用。重點包括 Stephen Robertson 關於 BM25 排名演算法的歷史和發展，以及 Iryna Gurevych 關於人工智慧在科學研究中未來展望的主題演講。與會的專家和熱情的博士生引發了許多熱烈的討論。會議在位於市中心的帕多瓦會議中心舉行。帕多瓦本身就是一個充滿歷史和文化的地方，我們在那裡度過了非常愉快的時光。

tagRobust IR 中的 Late Chunking

Robust IR workshop 是 SIGIR 的一個新活動，今年是第一次舉辦。它主要關注資訊檢索系統在困難和特殊情況下的運作情況，以及我們如何提高它們的穩健性。研討會包括邀請演講、已接受論文的口頭報告以及小組討論。

我們在研討會的海報展示環節中展示了我們關於 late chunking 的工作。我們收到了許多富有洞察力的問題和評論，其中不少來自已經閱讀過我們預印本的人。

Late Chunking: Contextual Chunk Embeddings Using Long-Context Embedding Models

Many use cases require retrieving smaller portions of text, and dense vector-based retrieval systems often perform better with shorter text segments, as the semantics are less likely to be over-compressed in the embeddings. Consequently, practitioners often split text documents into smaller chunks and encode them separately. However, chunk embeddings created in this way can lose contextual information from surrounding chunks, resulting in sub-optimal representations. In this paper, we introduce a novel method called late chunking, which leverages long context embedding models to first embed all tokens of the long text, with chunking applied after the transformer model and just before mean pooling - hence the term late in its naming. The resulting chunk embeddings capture the full contextual information, leading to superior results across various retrieval tasks. The method is generic enough to be applied to a wide range of long-context embedding models and works without additional training. To further increase the effectiveness of late chunking, we propose a dedicated fine-tuning approach for embedding models.

arXiv.orgMichael Günther

Late Chunking Poster at Robust-IR@SIGIR 2025

tag有趣的研究

我們在 SIGIR 上發現了許多有趣的研究，但以下的研究讓我們印象深刻。

tagCLIP-AdaM: Adapting Multi-view CLIP for Open-set 3D Object Retrieval

這篇論文著重於 3D 影像檢索，特別是開放集 3D 物件檢索，這項任務是在未經訓練的情況下，檢索先前未見過的物件類別的 3D 物件。他們的方法是使用從多個角度渲染的 3D 模型視圖，利用在平面影像上訓練的 CLIP 模型來識別物件。這篇論文一個有趣的發現是，當對從物件不同視圖產生的向量模型進行平均時，CLIP 模型表現良好。

此外，這篇論文提出了一種新穎的 3D 物件檢索訓練方法，該方法學習權衡不同的視圖，以及調整模型以適應特定任務的自適應層，同時防止在訓練資料類別上過度擬合，並提高在新類別上的 zero-shot 效能。

tagOptimizing Compound Retrieval Systems

大多數現有的排名系統，將多個排名模型結合以產生結果，都是基於排名串聯。這意味著一個排名模型在另一個之後執行，每個模型僅保留前一個模型中得分最高的結果。

這篇論文提出了一種不同的方法，稱為複合檢索系統：一種結合不同重排器以最大化排名準確性和計算效率的框架。作者提出將其理解為串聯方法的推廣，該方法在先前排名階段的不同結果子集上執行多個重排器。

下圖是論文中給出的，展示了如何結合不同的重排器。

Figure 3: Schemata of the multi-stage reranking process, with the original caption.

在他們的範例中，第一階段的排名器產生一個初始排名。然後，第二階段使用兩種具有不同排名方法的重排器：

一個點式排名模型，基於查詢，為來自第一階段排名器的文檔產生一個相關性分數。
一個配對式排名模型，比較兩個文檔和查詢，並輸出一個估計的概率，即其中一個文檔比另一個文檔與查詢更相關。

每個模型都有一個選擇策略，應用於前一個排序階段的結果，例如，僅取前 n 個。還有一個最終排序函數，產生最終結果。選擇策略和排序函數都有由訓練設定的參數，從而實現整體優化，產生更好且更穩健的結果。

tagRE-AdaptIR：透過逆向工程適應來改善資訊檢索

已經有很多研究使用線性代數技術來優化向量模型權重。例如，模型湯方法透過平均使用不同超參數微調相同基礎模型所產生的模型的權重，來提高模型準確性和穩健性。

本文提出的研究提供了一個相關的想法：我們是否可以使用微調後的向量模型和其未微調的基礎模型之間的權重差異向量，來將學習從一個模型轉移到另一個模型？如果我們在特定領域文本的下一個詞元預測中微調基礎模型的另一個副本，然後加入來自訓練後的向量模型的權重差異，我們是否會獲得目標領域的更好的向量模型？

這對於為新領域訓練模型具有重要的優勢。它可以使用大量的純文本數據來訓練下一個詞元預測，然後因此獲得改進的 embeddings。

tag基準測試基於大模型（LLM）的相關性判斷方法

本文評估了使用大模型作為相關性判斷者的提示詞策略，包括將它們用於二元（是/否）判斷、分級評估（即 0-4 分制）、文檔的成對相關性比較，以及「基於要點」的方法，這些方法決定文檔是否包含特定資訊。

作者從使用 GPT-4o 和 Llama 3 進行的測試中得出結論，當大模型擁有的選擇較少時，結果與人類判斷更為一致。二元判斷和成對比較表現最佳，並且對於非常強大的人工智慧模型來說，它們足夠用於大規模自動化使用。良好的提示詞設計是一個關鍵因素。

基於要點的方法提供了人類可解釋性，但可靠性較差。

tag排序器、判斷者和助手：理解大模型在資訊檢索評估中的相互作用

本文探討了在大模型的三個不同角色中使用它們的問題：排序結果、判斷相關性和評估結果，以及支援功能，如結果摘要和查詢擴展。

它考慮了在大模型在整個資訊週期中的使用後果，如下圖所示，該圖取自論文。

該論文得出結論，在使用基於大模型的判斷來評估本身依賴於大模型的資訊檢索系統時，存在重大問題。不同的基於大模型的組件之間的相互作用肯定會導致有偏差和不準確的結果。

tag用於 IR 評估的基於大模型的實用性標記

本文區分了搜尋結果中的相關性和實用性。在他們的定義中，相關性是指檢索到的文檔的主題是否與查詢在主題上相關；實用性是指文檔是否對查詢做出回應，即是否滿足使用者的意圖。

它的重點是大模型是否可以識別和排序實用性，以及它們的判斷是否與人類的判斷一致。他們的結論是，人類對實用性的判斷與大模型之間存在顯著的一致性。然而，可用的大模型在相關性和實用性不一致的情況下（即相關但不實用的文檔）會遇到困難。作者發現，給予大模型更多的上下文資訊，而不僅僅是文本查詢，可以顯著改善結果。

tag基於大模型的相關性評估仍然無法取代人類相關性評估

本文討論了在資訊檢索中使用大模型進行自動相關性評估，這將使訓練檢索模型變得更加容易，因為永遠沒有足夠的人工排序數據。儘管最近的一些研究聲稱大模型可以完全取代人類評估者，但本文確定了阻止大模型替代人類判斷的關鍵限制。

目前研究的證據不足和泛化能力有限：目前的研究缺乏強有力的證據表明大模型可以完全取代人類相關性判斷，尤其是在不同的數據集和真實場景中。在存在正面結果的地方，它們是否真的適用於廣泛的領域是值得商榷的。
容易被操縱：自動化指標，包括那些基於大模型的指標，很容易被操縱。在沒有真正提高性能的情況下，很容易提高分數。
自我偏好偏差：大模型傾向於偏愛與其自身訓練數據相似的輸出，從而引入偏差，損害了相關性評估的客觀性。
過度擬合的風險：依賴基於大模型的評估可能會導致檢索系統針對特定大模型的特性進行優化，從而降低在現實世界中的使用性能。

tag結論

大型語言模型的快速崛起已顯著改變了資訊檢索，取代了 BM25 等已建立的方法，並開闢了新的可能性。在 SIGIR 上展示的研究突顯了這種轉變。

然而，語言模型並沒有將資訊檢索變成一個已解決的問題。會議以廣泛的創新想法為特色，旨在使 IR 系統更緊密地與使用者不斷變化的需求保持一致。我們非常享受與博士生和專家聯繫、交流想法，並在 Jina AI 分享我們對搜尋未來的願景。我們很高興能繼續推動該領域可能性的界限。