ニュース
モデル
製品
keyboard_arrow_down
読者
URL を読み取ったり検索したりすると、大規模なモデルのサポートが向上します。
ベクトルモデル
世界クラスのマルチモーダル、多言語埋め込み。
並べ替え者
検索の関連性を最大化する世界クラスのニューラルレトリーバー。
ディープサーチ
最善の答えが見つかるまで、検索し、読み、推論してください。
もっと
keyboard_arrow_down
分類子
画像とテキストのゼロショットおよび少数ショットの分類。
スライサー
長いテキストをチャンクまたはトークンに分割します。

MCPサーバー
大規模なモデルが API を使用できるようにするには、MCP サーバーとして mcp.jina.ai を追加します。
open_in_new
APIドキュメント
AIプログラミングアシスタントIDEまたは大規模モデル用のコードを自動生成
open_in_new


会社
keyboard_arrow_down
私たちについて
営業担当者に問い合わせる
インターンプログラム
参加しませんか
open_in_new
ロゴをダウンロード
open_in_new
利用規約


ログイン
login
設計
ユースケース
埋め込み可視化における関連研究
結論
技術記事
5月 28, 2025

相関関係:GUI でのベクトルモデル (Embeddings) のバイブテスト

MTEBを真剣に考えているのと同じくらい、雰囲気テストも大好きです。Correlationsは、DeepSearchでの引用の検証、遅延チャンクのデバッグ、および埋め込み (Embeddings) の雰囲気テストに使用するシンプルなGUIです。今回、オープンソース化されました。
Jina AI
Jina AI • 4 読む時間
GitHub - jina-ai/correlations: Simple UI for debugging correlations of text embeddings
Simple UI for debugging correlations of text embeddings - jina-ai/correlations
GitHubjina-ai

人々からよく聞かれる興味深い質問の1つに、「貴社ではどのようにして埋め込み (Embeddings) の出来栄えをチェックしているのですか?」というものがあります。確かに、公開ベンチマークで本格的かつ定量的な評価を行うためのMTEBは存在しますが、オープンな領域や新しい問題に対しては何をすればよいのでしょうか?今日は、デバッグと視覚化に使用している小さな内部ツールを紹介したいと思います。これを当社のバイブステストツールキットと呼ぶことができます。私たちはこれをCorrelationsと呼んでおり、GitHubでオープンソースとして公開されています。

0:00
/1:23

tag設計

Correlationsは、インタラクティブなヒートマップを生成します。各セルには、同じドキュメントコレクション、モダリティ、ハイパーパラメータ、モデルのチャンクであるかどうかにかかわらず、2つの要素間のコサイン類似度が表示されます。これは、いくつかのインタラクションをサポートしています。

  • ホバー検査: 個々のセルペアの元のテキスト/画像と類似度スコア
  • 領域選択: 類似性パターンの集中的な分析のためのインタラクティブな領域選択
  • 閾値フィルタリング: ノイズを減らすための類似度スコアとテキスト長のフィルター

このツールは、2段階のパイプラインで動作します。

  1. npm run embed: 構成可能なチャンク戦略(改行、句読点、文字ベース、または正規表現パターン)を使用したJina Embeddings APIの使用
  2. npm run corr: リアルタイムインタラクティブ性を備えた相関ヒートマップを提供するブラウザベースのUI

始めるには:

npm install
export JINA_API_KEY=your_jina_key_here
npm run embed -- https://jina.ai/news/jina-embeddings-v3-a-frontier-multilingual-embedding-model -o v3-blog.jsonl -t retrieval.query
npm run embed -- https://arxiv.org/pdf/2409.10173 -o v3-arxiv.jsonl -t retrieval.passage
npm run corr -- v3-blog.jsonl v3-arxiv.jsonl

JINA_API_KEYは、必要に応じてURLからコンテンツを埋め込み (Embedding) および読み取るために使用されます。ローカルテキストファイルからの読み取りももちろんサポートされています。独自の埋め込み (Embeddings) を持ち込んで、視覚化のみを目的としてnpm run corrを実行することもできます。その場合、JINA_API_KEYは必要ありません。このツールは、自己相関分析(単一のコレクション内)と相互相関分析(2つのコレクション間)の両方をサポートしています。

tagユースケース

tagコンテンツの重複排除とアライメント分析

jina-embeddings-v3の出版物の分析を通じて、このツールの有用性を示します。学術論文とリリースノートを比較すると、視覚化により、相関ヒートマップに明確な対角パターンが明らかになり、ドキュメント間のチャンクごとの強力なアライメントが示されました。詳細な調査により、特にLoRAタスクタイプを説明する技術セクションで、体系的なコンテンツの再利用が見られました。

0:00
/1:19

tag引用と参照の検証

このツールは、検索拡張生成システムにおける引用の正確性を検証するのに役立ちます。検索されたパッセージが生成された主張を本当にサポートしていることを確認することが重要になります。類似性ベースの分析は、たとえば類似性でアイテムをグループ化してパターンを明らかにするなど、大規模なデータセットを探索するための強力で直感的なツールです。

tagチャンク戦略の探索

後期チャンクや他のセグメンテーション戦略は、異なるアプローチがテキストセグメント内およびセグメント間の意味的一貫性にどのように影響するかを調べることで評価できます。この可視化は、意味構造と一致する類似性パターンを明らかにすることで、後期チャンク効果と最適なチャンク境界を特定するのに役立ちます。

tagクロスモーダル分析

このツールは、jina-clip-v2 を介してテキストを超えて画像埋め込み (Embeddings) をサポートし、マルチモーダルアプリケーションのテキストと画像の相関パターンを分析できるようにします。

0:00
/0:08

tag埋め込み可視化における関連研究

解釈可能性の課題は、高次元の埋め込み (Embeddings) を扱う場合に特に深刻です。埋め込み可視化技術の状況は大きく進化しており、異なるアプローチは次のように分類できます。

  • 次元削減ベース: 高次元空間を2D/3Dに投影するPCA、t-SNE、UMAPを使用する従来のアプローチ
  • インタラクティブ探索ベース: 直接操作と探索を可能にするParallaxやTextEssenceなどのツール
  • ドメイン固有のソリューション: 生物学的データ用のClustergrammerなどの特殊なツール
  • 直接類似性可視化: 完全な関係情報を保持する私たちのアプローチや同様のヒートマップベースの方法
メソッド アプローチ ユースケース
Correlations 直接的なペアワイズ類似性ヒートマップ テキスト類似性デバッグ、アライメント分析
Embedding Projector PCA、t-SNE、およびカスタム線形投影 インタラクティブな可視化と解釈
Parallax 意味的探索のための代数式 意味的関係の理解
TextEssence 比較コーパス分析 通時的分析、コーパス比較
Nomic Atlas クラウドベースのスケーラブルな可視化 大規模データセット、コラボレーション
Clustergrammer クラスタリングを備えたインタラクティブなヒートマップ 高次元の生物学的データ
t-SNE 非線形クラスタ可視化 モデルデバッグ、混乱の特定
UMAP ローカルおよびグローバル構造の保持 中〜大規模データセット、一般的な分析
PCA 線形次元削減 初期探索、ベースライン比較

tagポイントワイズアプローチの制限

既存の可視化ツールは、主に2D空間でのポイントワイズ表現に焦点を当てており、ペアワイズ関係に関する重要な情報が失われる可能性があります。さらに、ほとんどのツールは、異なるソース、モダリティ、または埋め込み戦略(オンとオフの後期チャンクなど)間の比較評価ではなく、単一の埋め込み空間分析用に設計されています。

たとえば、最近Jinaで2つのユースケースが発生しました。1つ目は、DeepSearchの引用をクロスチェックすることです。ここでは、生成されたレポートを、参照資料からの元の抜粋と一致させる必要があります。2つ目は、マルチモーダル検索です。ここでは、新しいラベルなしデータで画像とテキスト、および画像と画像の配置を検証する必要があります。どちらの場合も、2つの埋め込み (Embeddings) コレクション間の関係を調べる必要があります。そのため、Correlationsを使用して、一致がどれだけ適切に整列しているかを確認し、最高の相関関係が常に正しい一致に対応しているかどうかを検証します。

tag結論

correlationsは、雰囲気の確認を超えて、意味的関係に関するより深い洞察を提供できます。出発点として、相関行列からいくつかの重要な統計量を抽出できます。

  • 行列密度: 指定されたしきい値を超える相関の割合。全体的な意味的結束を示します。
  • 固有値分布: 主成分分析は、類似性構造の支配的なパターンを明らかにします。
  • 行列ランク: 類似性関係の有効次元数を示します。
  • 条件数: 数値的安定性と潜在的な多重共線性問題を測定します。

高度な分析には、一貫性のある意味領域を表す意味のある部分行列の抽出も含まれる場合があります。n次の実数行列からk次の最大和主部分行列を抽出することは、最も相関性の高いセグメントを特定できる典型的な組み合わせ最適化問題です。

カテゴリー:
技術記事
rss_feed
オフィス
location_on
カリフォルニア州サニーベール
710 Lakeway Dr、Ste 200、サニーベール、CA 94085、アメリカ合衆国
location_on
ドイツ、ベルリン(本社)
Prinzessinnenstraße 19-20、10969 ベルリン、ドイツ
location_on
中国、北京
中国北京市海淀区西街48号ビル6号5階
location_on
深セン、中国
ルーム 402、4 階、福安テクノロジービル、深セン、中国
検索ベース
読者
ベクトルモデル
並べ替え者
ディープサーチ
分類子
スライサー
APIドキュメント
Jina APIキーを取得する
レート制限
APIステータス
会社
私たちについて
営業担当者に問い合わせる
ニュース
インターンプログラム
参加しませんか
open_in_new
ロゴをダウンロード
open_in_new
条項
安全性
利用規約
プライバシー
Cookieを管理する
email
Jina AI © 2020-2025.