SIGIR 2025で学んだこと

SIGIR (情報検索に関する特別関心グループ、Special Interest Group on Information Retrieval) は、世界中の研究者、開発者、業界のエキスパート、教育者が集まり、最新の画期的な研究を共有する、情報検索に関するトップレベルの国際会議です。Jina AI は、7月にパドヴァで開催された今年の会議に参加し、Robust IR Workshopにて、late chunking に関する研究を発表しました。今年の会議では、特に重排器 (Reranker) の手法、スパース検索モデル、および情報検索における大模型 (LLM) の使用に関する素晴らしい研究が発表されました。注目すべきは、Stephen Robertson による BM25 ランキングアルゴリズムの歴史と発展に関する基調講演、およびIryna Gurevych による科学研究における AI の将来に関する展望についての基調講演です。参加した専門家や熱心な博士課程の学生たちは、活発な議論を巻き起こしました。会議は、街の中心部にあるパドヴァ・コングレスセンターで開催されました。パドヴァ自体が歴史と文化に富んだ場所であり、私たちはそこで過ごす時間を大いに楽しみました。

tagRobust IR での Late Chunking

Robust IR ワークショップは、SIGIR で今年初めて開催された新しいイベントです。このワークショップでは、情報検索システムが困難で例外的な状況下でどの程度適切に動作するか、そして、そのロバスト性をどのように改善できるかに焦点が当てられました。ワークショップは、招待講演と採択された論文の口頭発表、およびパネルディスカッションで構成されました。私たちは、ワークショップのポスターセッションで、late chunking に関する研究発表を行いました。多くの洞察に満ちた質問やコメントがあり、中にはすでに私たちのプレプリントを読んでいる人もいました。

Late Chunking：Long-Context Embedding Models を用いた文脈的なチャンクのベクトル模型 (Embeddings)

多くのユースケースでは、テキストのより小さな部分を検索する必要があります。密なベクトルベースの検索システムは、ベクトル模型 (Embeddings) においてセマンティクスが過度に圧縮される可能性が低いため、短いテキストセグメントでより良いパフォーマンスを発揮することがよくあります。したがって、実務者はテキストドキュメントをより小さなチャンクに分割し、それらを個別にエンコードすることがよくあります。しかし、このようにして作成されたチャンクのベクトル模型 (Embeddings) は、周囲のチャンクからの文脈情報を失う可能性があり、その結果、最適な表現が得られません。本稿では、long-context 埋め込みモデルを利用して、長いテキストのすべての词元 (Tokens) を最初に埋め込み、トランスフォーマーモデルの後、平均プーリングの直前にチャンク分割を適用する、late chunking と呼ばれる新しい手法を紹介します。その結果得られるチャンクのベクトル模型 (Embeddings) は、完全な文脈情報を捉え、さまざまな検索タスクで優れた結果をもたらします。この方法は、広範囲の long-context 埋め込みモデルに適用できるほど汎用的であり、追加のトレーニングなしで動作します。late chunking の有効性をさらに高めるために、埋め込みモデル専用のファインチューニングアプローチを提案します。

arXiv.orgMichael Günther

Robust-IR@SIGIR 2025 での Late Chunking ポスター

tag興味深い研究

SIGIR で発表された多くの興味深い研究の中でも、以下の研究は特に印象に残りました。

tagCLIP-AdaM：Open-set 3D Object Retrieval のための Multi-view CLIP の適応

この論文は、3D 画像検索、特に open-set 3D object retrieval に焦点を当てています。これは、事前に学習することなく、以前に見たことのないカテゴリの 3D オブジェクトを検索するタスクです。彼らのアプローチでは、平面画像で学習された CLIP モデルを使用してオブジェクトを認識するために、複数の角度からの 3D モデルのレンダリングされたビューを使用します。この論文の興味深い発見の 1 つは、オブジェクトの異なるビューから生成されたベクトル模型 (Embeddings) を平均化すると、CLIP モデルのパフォーマンスが向上することです。

さらに、この論文では、異なるビューに重み付けすることを学習する 3D オブジェクト検索のための新しいトレーニング方法と、トレーニングデータカテゴリでの過学習を防ぎ、新しいカテゴリでのゼロショットパフォーマンスを向上させながら、特定のタスクに合わせてモデルを調整する適応レイヤーを提案しています。

tag複合検索システムの最適化

複数のランキングモデルを組み合わせて結果を生成する既存のランキングシステムのほとんどは、*ランキングカスケード*に基づいています。これは、あるランキングモデルが別のランキングモデルの後に実行され、それぞれが前のモデルからの最高のスコアの結果のみを保持することを意味します。この論文では、*複合検索システム*と呼ばれる別のアプローチを提案しています。これは、ランキングの精度と計算効率を最大化するために、異なる重排器 (Reranker) を組み合わせるためのフレームワークです。著者らは、これをカスケードアプローチの一般化として理解することを提案しており、前のランキング段階からの結果の異なるサブセットに対して複数の重排器 (Reranker) を実行します。以下の図は、異なる重排器 (Reranker) を組み合わせる方法を示すために論文に示されています。

彼らの例では、最初の段階のランキングモデルが初期ランキングを生成します。次に、2番目の段階では、異なるランキングアプローチを持つ2つの重排器 (Reranker) を使用します。 * クエリに基づいて、最初のランキングモデルからのドキュメントの関連性スコアを生成するポイントワイズランキングモデル。 * 2つのドキュメントとクエリを比較し、2つのうちの1つが他方よりもクエリに関連する推定確率を出力するペアワイズランキングモデル。各モデルには、前のランキング段階の結果に適用される選択ポリシーがあります。たとえば、上位*n*件のみを取得するなどです。また、最終結果を生成する最終的な順序付け関数もあります。選択ポリシーと順序付け関数の両方には、トレーニングによって設定されたパラメータがあり、より優れた、より堅牢な結果をもたらす全体的な最適化が可能です。 ### RE-AdaptIR：リバースエンジニアリングされた適応による情報検索の改善線形代数技術を使用して、埋め込み向量模型の重みを最適化する研究が多く行われています。たとえば、モデルスープ法は、異なるハイパーパラメータで同じベースモデルをファインチューニングした結果得られるモデルの重みを平均化することにより、モデルの精度と堅牢性を向上させます。

この論文で発表された研究は、関連するアイデアを提供しています。ファインチューニングされた埋め込みモデルの重みとそのファインチューニングされていないベースの重みの差のベクトルを使用して、あるモデルから別のモデルへの転移学習を行うことは可能でしょうか？ベースモデルの別のコピーをドメイン固有のテキストの次のトークン予測でファインチューニングし、トレーニングされた埋め込みモデルからの重みの差を追加すると、ターゲットドメインに適した埋め込みモデルが得られるでしょうか？

これは、新しいドメインのモデルをトレーニングする上で重要な利点があります。豊富なプレーンテキストデータを使用して次のトークン予測のトレーニングを行い、その結果として埋め込みを改善することができます。 ### LLMベースの関連性判断手法のベンチマークこの論文では、LLM を関連性判定者として使用するためのプロンプト戦略を評価しています。これには、バイナリ（はい/いいえ）判断、段階的評価（つまり、0〜4スケール）、関連性のためのドキュメントのペアワイズ比較、およびドキュメントに特定の情報が含まれているかどうかを判断する「ナゲットベース」の方法が含まれます。著者らは、GPT-4o および Llama 3 でのテストから、LLM が選択肢を少なくするほど、結果が人間の判断とより一致すると結論付けています。バイナリ判断とペアワイズ比較が最も優れたパフォーマンスを発揮し、非常に強力な AI モデルでは、大規模な自動使用に十分です。優れたプロンプト設計は重要な要素です。ナゲットベースの方法は、人間による解釈可能性を提供しますが、信頼性は低くなります。 ### Rankers、Judges、Assistants：情報検索評価における LLM の相互作用の理解に向けてこの論文では、結果のランキング、関連性の判断と結果の評価、および結果の要約やクエリ拡張などのサポート機能という3つの異なる役割で LLM を使用する際の問題を探求しています。以下の図に示すように、情報サイクル全体にわたる LLM の使用の影響を検討しています。

この論文では、LLM に基づく情報検索システムを評価する際に、LLM に基づく判断を使用することには重大な問題があることが結論付けられています。異なる LLM に基づくコンポーネントの相互作用は、確実に偏った不正確な結果につながる可能性があります。 ### IR 評価のための LLM 駆動型有用性ラベリングこの論文では、検索結果における*関連性*と*有用性*を区別しています。彼らの定義では、*関連性*は、取得されたドキュメントのトピックがクエリとトピック的に関連しているかどうかに関することです。*有用性*は、ドキュメントがクエリに応答的であるかどうか、つまり、ユーザーの意図を満たしているかどうかに関することです。その焦点は、LLM が有用性を認識してランク付けできるかどうか、そしてその判断が人間の判断と一致するかどうかです。彼らは、有用性に関する人間の判定者と LLM の間に大きな一致があると結論付けています。ただし、利用可能な LLM は、関連性と有用性が一致しない場合、つまり、関連性はあるが役に立たないドキュメントの場合には苦労します。著者らは、LLM にテキストクエリだけでなく、より多くのコンテキスト情報を提供すると、結果が大幅に向上することを発見しました。 ### LLMベースの関連性評価は、依然として人間の関連性評価に取って代わることはできませんこの論文では、情報検索における自動関連性評価に LLM を使用することについて議論しています。これにより、人間のランク付けされたデータが不足しているため、検索モデルのトレーニングがはるかに簡単になります。最近の研究では、LLM が人間の評価者を完全に置き換えることができると主張されていますが、この論文では、LLM が人間の判断に代わることを妨げる重要な制限を特定しています。 * **現在の研究の証拠不十分と一般化可能性の制限**：現在の研究では、特に多様なデータセットと現実世界のシナリオにおいて、LLM が人間の関連性判断を完全に置き換えることができるという強力な証拠が不足しています。肯定的な結果が存在する場合でも、それらが本当に幅広いドメインに適用できるかどうかは議論の余地があります。 * **操作に対する脆弱性：** LLM に基づくものを含む、自動化されたメトリックは簡単に操作できます。パフォーマンスを実際に向上させることなく、スコアを向上させるのは非常に簡単です。 * **自己優先バイアス**：LLM は、独自のトレーニングデータと同様の出力を優先する傾向があり、関連性評価の客観性を損なうバイアスが生じます。 * **過剰適合のリスク**：LLM に基づく評価に依存すると、検索システムが特定の LLM の癖に合わせて最適化され、実際の使用におけるパフォーマンスが低下する可能性があります。 ## 結論大規模言語モデルの急速な台頭は、情報検索を大幅に変革し、BM25 などの確立された方法を置き換え、新たな可能性を切り開きました。SIGIR で発表された研究は、この変革を強調しています。ただし、言語モデルによって情報検索が解決済みの問題になるわけではありません。この会議では、IR システムをユーザーの進化するニーズにより密接に合わせることを目的とした、幅広い革新的なアイデアが紹介されました。Jina AI では、博士課程の学生や専門家とつながり、アイデアを交換し、検索の未来に対するビジョンを共有できたことを本当に楽しんでいます。私たちは、この分野で可能なことの限界を押し広げ続けることに興奮しています。