tagRobust IR での Late Chunking
Robust IR ワークショップは、SIGIR で今年初めて開催された新しいイベントです。このワークショップでは、情報検索システムが困難で例外的な状況下でどの程度適切に動作するか、そして、そのロバスト性をどのように改善できるかに焦点が当てられました。ワークショップは、招待講演と採択された論文の口頭発表、およびパネルディスカッションで構成されました。 私たちは、ワークショップのポスターセッションで、late chunking に関する研究発表を行いました。多くの洞察に満ちた質問やコメントがあり、中にはすでに私たちのプレプリントを読んでいる人もいました。Long-Context Embedding Models における Late Chunking
文脈情報を保持しながら長いドキュメントをチャンクに分割することは困難です。より優れた検索アプリケーションのために、long-context 埋め込みモデルを利用して文脈的なチャンクのベクトル模型 (Embeddings) を生成する「Late Chunking」を紹介します。

Late Chunking の真実 & そうでないこと:パートII
Late Chunking の探求のパート2として、チャンクのベクトル模型 (Embeddings) を作成し、検索/RAG のパフォーマンスを向上させるための最良の方法である理由を深く掘り下げます。

Late Chunking:Long-Context Embedding Models を用いた文脈的なチャンクのベクトル模型 (Embeddings)
多くのユースケースでは、テキストのより小さな部分を検索する必要があります。密なベクトルベースの検索システムは、ベクトル模型 (Embeddings) においてセマンティクスが過度に圧縮される可能性が低いため、短いテキストセグメントでより良いパフォーマンスを発揮することがよくあります。したがって、実務者はテキストドキュメントをより小さなチャンクに分割し、それらを個別にエンコードすることがよくあります。しかし、このようにして作成されたチャンクのベクトル模型 (Embeddings) は、周囲のチャンクからの文脈情報を失う可能性があり、その結果、最適な表現が得られません。本稿では、long-context 埋め込みモデルを利用して、長いテキストのすべての词元 (Tokens) を最初に埋め込み、トランスフォーマーモデルの後、平均プーリングの直前にチャンク分割を適用する、late chunking と呼ばれる新しい手法を紹介します。その結果得られるチャンクのベクトル模型 (Embeddings) は、完全な文脈情報を捉え、さまざまな検索タスクで優れた結果をもたらします。この方法は、広範囲の long-context 埋め込みモデルに適用できるほど汎用的であり、追加のトレーニングなしで動作します。late chunking の有効性をさらに高めるために、埋め込みモデル専用のファインチューニングアプローチを提案します。


Late_Chunking_Poster.pdf
Google Drive からポスターをダウンロード
tag興味深い研究
SIGIR で発表された多くの興味深い研究の中でも、以下の研究は特に印象に残りました。tagCLIP-AdaM:Open-set 3D Object Retrieval のための Multi-view CLIP の適応
この論文は、3D 画像検索、特に open-set 3D object retrieval に焦点を当てています。これは、事前に学習することなく、以前に見たことのないカテゴリの 3D オブジェクトを検索するタスクです。彼らのアプローチでは、平面画像で学習された CLIP モデルを使用してオブジェクトを認識するために、複数の角度からの 3D モデルのレンダリングされたビューを使用します。この論文の興味深い発見の 1 つは、オブジェクトの異なるビューから生成されたベクトル模型 (Embeddings) を平均化すると、CLIP モデルのパフォーマンスが向上することです。
tag複合検索システムの最適化
複数のランキングモデルを組み合わせて結果を生成する既存のランキングシステムのほとんどは、*ランキングカスケード*に基づいています。これは、あるランキングモデルが別のランキングモデルの後に実行され、それぞれが前のモデルからの最高のスコアの結果のみを保持することを意味します。 この論文では、*複合検索システム*と呼ばれる別のアプローチを提案しています。これは、ランキングの精度と計算効率を最大化するために、異なる重排器 (Reranker) を組み合わせるためのフレームワークです。著者らは、これをカスケードアプローチの一般化として理解することを提案しており、前のランキング段階からの結果の異なるサブセットに対して複数の重排器 (Reranker) を実行します。 以下の図は、異なる重排器 (Reranker) を組み合わせる方法を示すために論文に示されています。


