關聯性：在 GUI 中進行向量模型 (Embeddings) 的氛圍測試

人們問我們一個有趣的問題：「你們如何檢查向量模型 (Embeddings) 的氛圍 (vibe-check)？」當然，有 MTEB 可以在公開基準上進行嚴肅和量化的評估，但是對於開放領域或新問題，您該怎麼辦？今天，我們想分享一個我們用於除錯和視覺化的小型內部工具。您可以將其稱為我們的氛圍測試工具包。我們稱它為 Correlations，它在 GitHub 上是開源的。

0:00

/1:23

tag設計

Correlations 產生互動式熱圖，其中每個單元格顯示兩個片段之間的餘弦相似度，無論它們是來自相同或不同文件集合、模態、超參數還是模型。它支援多種互動：

懸停檢查：個別單元格對的原始文字/圖像和相似度分數
區域選擇：互動式區域選擇，用於專注分析相似度模式
閾值過濾：相似度分數和文字長度過濾器，以減少雜訊

該工具透過兩階段管道運作：

npm run embed：使用具有可配置分塊策略（換行符、標點符號、基於字元或正則表達式模式）的 Jina 向量模型 (Embeddings) API
npm run corr：基於瀏覽器的 UI，提供具有即時互動性的相關性熱圖

若要開始使用：

npm install
export JINA_API_KEY=your_jina_key_here
npm run embed -- https://jina.ai/news/jina-embeddings-v3-a-frontier-multilingual-embedding-model -o v3-blog.jsonl -t retrieval.query
npm run embed -- https://arxiv.org/pdf/2409.10173 -o v3-arxiv.jsonl -t retrieval.passage
npm run corr -- v3-blog.jsonl v3-arxiv.jsonl

JINA_API_KEY 用於在必要時從 URL 嵌入和讀取內容，當然支援從本機文字檔案讀取。您也可以攜帶自己的向量模型 (Embeddings)，並執行 npm run corr 僅用於視覺化，在這種情況下，您不需要 JINA_API_KEY。該工具支援自相關分析（在單個集合中）和互相關分析（在兩個集合之間）。

tag使用案例

tag內容去重和對齊分析

我們透過分析我們的 jina-embeddings-v3 出版物來展示該工具的實用性。透過比較學術論文和版本說明，視覺化顯示相關性熱圖中不同的對角線模式，表明文件之間存在強烈的區塊到區塊對齊。詳細檢查顯示了系統的內容重用，尤其是在描述 LoRA 任務類型的技術章節中。

0:00

/1:19

tag引用和參考驗證

該工具證明對於驗證檢索增強生成 (retrieval-augmented generation) 系統中的引用準確性非常有用，在這種系統中，驗證檢索到的段落是否確實支持生成的聲明至關重要。基於相似性的分析是一種強大且直觀的工具，用於探索大型資料集，例如，透過按相似性對項目進行分組來揭示模式。

tag分塊策略探索

透過檢視不同方法如何影響文本片段內和片段之間的語義連貫性，可以評估延遲分塊和其他分段策略。視覺化有助於識別延遲分塊效應和最佳分塊邊界，方法是揭示與語義結構一致的相似性模式。

該工具不僅支援文本，還透過 jina-clip-v2 支援圖像向量模型 (Embeddings)，從而能夠分析多模態應用程式的文本-圖像相關模式。

0:00

/0:08

當使用高維向量模型 (Embeddings) 時，可解釋性的挑戰尤其嚴峻。向量模型視覺化技術的發展日新月異，不同的方法可以分為：

基於降維 (Dimensionality Reduction-Based)：使用 PCA、t-SNE、UMAP 等傳統方法，將高維空間投影到 2D/3D
基於互動探索 (Interactive Exploration-Based)：Parallax 和 TextEssence 等工具，可直接操作和探索
特定領域的解決方案 (Domain-Specific Solutions)：適用於生物資料的 Clustergrammer 等專用工具
直接相似性視覺化 (Direct Similarity Visualization)：我們的方法和類似的熱圖方法，可保留完整的關係資訊

方法	途徑	使用案例
Correlations	直接成對相似性熱圖	文本相似性除錯、對齊分析
Embedding Projector	PCA、t-SNE 和自訂線性投影	互動式視覺化和解釋
Parallax	用於語義探索的代數公式	理解語義關係
TextEssence	比較語料庫分析	歷時分析、語料庫比較
Nomic Atlas	基於雲端的可擴展視覺化	大規模資料集、協作
Clustergrammer	具有聚類的互動式熱圖	高維生物資料
t-SNE	非線性聚類視覺化	模型除錯、混淆識別
UMAP	局部和全域結構保留	中大型資料集、一般分析
PCA	線性降維	初步探索、基準比較

tag逐點方法的局限性

現有的視覺化工具主要側重於 2D 空間中的逐點表示，這可能會遺失有關成對關係的重要資訊。此外，大多數工具都是為單個向量模型 (Embedding) 空間分析而設計，而不是為不同來源、模態 (modalities) 或向量模型策略 (embedding strategies)（例如，開啟與關閉延遲分塊）之間的比較評估而設計。

例如，我們最近在 Jina 遇到了兩個使用案例。第一個涉及DeepSearch 中的交叉檢查引文，我們需要將產生的報告與參考資料中的原始摘錄進行比對。第二個是多模態檢索，我們需要在新的未標記資料上驗證圖像-文本和圖像-圖像對齊。在這兩種情況下，我們都需要探索兩個向量模型 (Embeddings) 集合之間的關係。因此，我們使用 Correlations 來了解比對的對齊程度，並驗證最高相關性是否始終對應於正確的比對。