人々からよく聞かれる興味深い質問の1つに、「貴社ではどのようにして埋め込み (Embeddings) の出来栄えをチェックしているのですか?」というものがあります。確かに、公開ベンチマークで本格的かつ定量的な評価を行うためのMTEBは存在しますが、オープンな領域や新しい問題に対しては何をすればよいのでしょうか?今日は、デバッグと視覚化に使用している小さな内部ツールを紹介したいと思います。これを当社のバイブステストツールキットと呼ぶことができます。私たちはこれをCorrelations
と呼んでおり、GitHubでオープンソースとして公開されています。
tag設計
Correlationsは、インタラクティブなヒートマップを生成します。各セルには、同じドキュメントコレクション、モダリティ、ハイパーパラメータ、モデルのチャンクであるかどうかにかかわらず、2つの要素間のコサイン類似度が表示されます。これは、いくつかのインタラクションをサポートしています。
- ホバー検査: 個々のセルペアの元のテキスト/画像と類似度スコア
- 領域選択: 類似性パターンの集中的な分析のためのインタラクティブな領域選択
- 閾値フィルタリング: ノイズを減らすための類似度スコアとテキスト長のフィルター
このツールは、2段階のパイプラインで動作します。
npm run embed
: 構成可能なチャンク戦略(改行、句読点、文字ベース、または正規表現パターン)を使用したJina Embeddings APIの使用npm run corr
: リアルタイムインタラクティブ性を備えた相関ヒートマップを提供するブラウザベースのUI
始めるには:
npm install
export JINA_API_KEY=your_jina_key_here
npm run embed -- https://jina.ai/news/jina-embeddings-v3-a-frontier-multilingual-embedding-model -o v3-blog.jsonl -t retrieval.query
npm run embed -- https://arxiv.org/pdf/2409.10173 -o v3-arxiv.jsonl -t retrieval.passage
npm run corr -- v3-blog.jsonl v3-arxiv.jsonl
JINA_API_KEY
は、必要に応じてURLからコンテンツを埋め込み (Embedding) および読み取るために使用されます。ローカルテキストファイルからの読み取りももちろんサポートされています。独自の埋め込み (Embeddings) を持ち込んで、視覚化のみを目的としてnpm run corr
を実行することもできます。その場合、JINA_API_KEY
は必要ありません。このツールは、自己相関分析(単一のコレクション内)と相互相関分析(2つのコレクション間)の両方をサポートしています。
tagユースケース
tagコンテンツの重複排除とアライメント分析
jina-embeddings-v3の出版物の分析を通じて、このツールの有用性を示します。学術論文とリリースノートを比較すると、視覚化により、相関ヒートマップに明確な対角パターンが明らかになり、ドキュメント間のチャンクごとの強力なアライメントが示されました。詳細な調査により、特にLoRAタスクタイプを説明する技術セクションで、体系的なコンテンツの再利用が見られました。
tag引用と参照の検証
このツールは、検索拡張生成システムにおける引用の正確性を検証するのに役立ちます。検索されたパッセージが生成された主張を本当にサポートしていることを確認することが重要になります。類似性ベースの分析は、たとえば類似性でアイテムをグループ化してパターンを明らかにするなど、大規模なデータセットを探索するための強力で直感的なツールです。
tagチャンク戦略の探索
後期チャンクや他のセグメンテーション戦略は、異なるアプローチがテキストセグメント内およびセグメント間の意味的一貫性にどのように影響するかを調べることで評価できます。この可視化は、意味構造と一致する類似性パターンを明らかにすることで、後期チャンク効果と最適なチャンク境界を特定するのに役立ちます。
tagクロスモーダル分析
このツールは、jina-clip-v2 を介してテキストを超えて画像埋め込み (Embeddings) をサポートし、マルチモーダルアプリケーションのテキストと画像の相関パターンを分析できるようにします。
tag埋め込み可視化における関連研究
解釈可能性の課題は、高次元の埋め込み (Embeddings) を扱う場合に特に深刻です。埋め込み可視化技術の状況は大きく進化しており、異なるアプローチは次のように分類できます。
- 次元削減ベース: 高次元空間を2D/3Dに投影するPCA、t-SNE、UMAPを使用する従来のアプローチ
- インタラクティブ探索ベース: 直接操作と探索を可能にするParallaxやTextEssenceなどのツール
- ドメイン固有のソリューション: 生物学的データ用のClustergrammerなどの特殊なツール
- 直接類似性可視化: 完全な関係情報を保持する私たちのアプローチや同様のヒートマップベースの方法
メソッド | アプローチ | ユースケース |
---|---|---|
Correlations | 直接的なペアワイズ類似性ヒートマップ | テキスト類似性デバッグ、アライメント分析 |
Embedding Projector | PCA、t-SNE、およびカスタム線形投影 | インタラクティブな可視化と解釈 |
Parallax | 意味的探索のための代数式 | 意味的関係の理解 |
TextEssence | 比較コーパス分析 | 通時的分析、コーパス比較 |
Nomic Atlas | クラウドベースのスケーラブルな可視化 | 大規模データセット、コラボレーション |
Clustergrammer | クラスタリングを備えたインタラクティブなヒートマップ | 高次元の生物学的データ |
t-SNE | 非線形クラスタ可視化 | モデルデバッグ、混乱の特定 |
UMAP | ローカルおよびグローバル構造の保持 | 中〜大規模データセット、一般的な分析 |
PCA | 線形次元削減 | 初期探索、ベースライン比較 |
tagポイントワイズアプローチの制限
既存の可視化ツールは、主に2D空間でのポイントワイズ表現に焦点を当てており、ペアワイズ関係に関する重要な情報が失われる可能性があります。さらに、ほとんどのツールは、異なるソース、モダリティ、または埋め込み戦略(オンとオフの後期チャンクなど)間の比較評価ではなく、単一の埋め込み空間分析用に設計されています。
たとえば、最近Jinaで2つのユースケースが発生しました。1つ目は、DeepSearchの引用をクロスチェックすることです。ここでは、生成されたレポートを、参照資料からの元の抜粋と一致させる必要があります。2つ目は、マルチモーダル検索です。ここでは、新しいラベルなしデータで画像とテキスト、および画像と画像の配置を検証する必要があります。どちらの場合も、2つの埋め込み (Embeddings) コレクション間の関係を調べる必要があります。そのため、Correlations
を使用して、一致がどれだけ適切に整列しているかを確認し、最高の相関関係が常に正しい一致に対応しているかどうかを検証します。
tag結論
correlations
は、雰囲気の確認を超えて、意味的関係に関するより深い洞察を提供できます。出発点として、相関行列からいくつかの重要な統計量を抽出できます。
- 行列密度: 指定されたしきい値を超える相関の割合。全体的な意味的結束を示します。
- 固有値分布: 主成分分析は、類似性構造の支配的なパターンを明らかにします。
- 行列ランク: 類似性関係の有効次元数を示します。
- 条件数: 数値的安定性と潜在的な多重共線性問題を測定します。
高度な分析には、一貫性のある意味領域を表す意味のある部分行列の抽出も含まれる場合があります。n次の実数行列からk次の最大和主部分行列を抽出することは、最も相関性の高いセグメントを特定できる典型的な組み合わせ最適化問題です。