jina-embeddings-v2-base-de

此模型已被較新的模型棄用。

向量模型

Apache 2.0 許可證

發行説明

jina-embeddings-v2-base-de

支持德英雙語的 8K 最佳向量模型

許可證

Apache-2.0

發佈日期

2024-01-15

輸入

文本

輸出

向量

遲分技術

Yes

模型詳細信息

參數: 161M

輸入詞元長度: 8K

輸出維度: 768

底座模型

jina-embeddings-v2-base-en

訓練過的語言

2 語言

相關模型

jina-embeddings-v2-base-en

標籤

german-language

text-embedding

monolingual

large-context

production

semantic-search

document-retrieval

fine-tunable

可通過以下方式獲取

Jina API 亞馬遜雲微軟雲抱抱臉

I/O 圖

選擇要比較的模型

jina-embeddings-v2-base-de

jina-embeddings-v2-base-en

論文 (1)

arXiv

二月 26, 2024

Multi-Task Contrastive Learning for 8192-Token Bilingual Text Embeddings

概述

Jina Embeddings v2 Base German 解決了國際業務中的一個關鍵挑戰：彌合德語和英語市場之間的語言差距。對於向英語地區擴張的德國公司來説，準確的雙語理解至關重要，因為英語地區三分之一的企業的全球銷售額佔比超過 20%。該模型通過實現德語和英語的無縫文本理解和檢索，改變了組織處理跨語言內容的方式，這對於實施國際文檔系統、客户支持平台或內容管理解決方案的公司來説非常有用。與傳統的基於翻譯的方法不同，該模型將兩種語言的等效含義直接映射到相同的向量空間，從而實現更準確、更高效的雙語操作。

方法

該模型通過創新架構實現了令人印象深刻的雙語能力，該架構在統一的 768 維向量空間中處理德語和英語文本。其核心是採用基於 Transformer 的神經網絡，該網絡具有 1.61 億個參數，經過精心訓練，可以理解兩種語言之間的語義關係。這種架構特別有效的原因是其偏差最小化方法，專門設計用於避免偏向英語語法結構的常見陷阱 - 這是最近多語言模型研究中發現的一個問題。該模型的擴展上下文窗口為 8,192 個詞元，使其能夠一次性處理整個文檔或多頁文本，從而保持兩種語言長篇內容的語義一致性。

性能

在實際測試中，Jina Embeddings v2 Base German 表現出卓越的效率和準確性，尤其是在跨語言檢索任務中。該模型在大小不到微軟 E5 基礎模型三分之一的情況下表現優於後者，儘管體積只有後者的七分之一，但性能卻與 E5 大型模型相當。在包括用於英語到德語檢索的 WikiCLIR、用於雙向語言理解的 STS17 和 STS22 以及用於精確雙語文本對齊的 BUCC 在內的關鍵基準測試中，該模型始終表現出卓越的能力。其緊湊的尺寸為 322MB，可在標準硬件上部署，同時保持最先進的性能，使其在考慮計算資源的生產環境中特別高效。

最佳實踐

為了有效部署 Jina Embeddings v2 Base German，組織應考慮幾個實際方面。該模型與 MongoDB、Qdrant 和 Weaviate 等流行的矢量數據庫無縫集成，使構建可擴展的雙語搜索系統變得簡單。為了獲得最佳性能，請實施適當的文本預處理以有效處理 8,192 個詞元限制 - 這通常可容納大約 15-20 頁文本。雖然該模型在德語和英語內容方面都表現出色，但在用於查詢和文檔語言可能不同的跨語言檢索任務時尤其有效。組織應考慮為經常訪問的內容實施緩存策略，並使用批處理進行大規模文檔索引。該模型的 AWS SageMaker 集成提供了一條可靠的生產部署路徑，但團隊應該監控詞元使用情況併為高流量應用程序實施適當的速率限制。當將該模型用於 RAG 應用程序時，請考慮實施語言檢測以根據輸入語言優化提示構造。

提及此模型的博客

九月 27, 2024 • 15 分鐘的讀取量

從 Jina Embeddings v2 遷移到 v3

我們收集了一些建議，幫助您從 Jina Embeddings v2 遷移到 v3。