新聞
模型
API
keyboard_arrow_down
讀取器
讀取URL或搜索為大模型提供更好的依據。
向量模型
世界一流的多模態多語言向量模型。
重排器
世界一流的重排器,最大限度地提高搜索相關性。
Elastic Inference Service
在 Elasticsearch 中原生運行 Jina 模型。
MCP terminal命令行articlellms.txtsmart_toy代理人data_object模式menu_book文檔



登錄
login
warning
此模型已被較新的模型棄用。
向量模型
Apache 2.0 許可證
open_in_new 發行説明

jina-embeddings-v2-base-de

支持德英雙語的 8K 最佳向量模型
許可證
Apache-2.0
發佈日期
calendar_month
2024-01-15
輸入
abc
文本
arrow_forward
輸出
more_horiz
向量
遲分技術 help_outline
check_circle
Yes
模型詳細信息
參數: 161M
輸入詞元長度: 8K
輸出維度: 768
底座模型 help_outline
open_in_new
jina-embeddings-v2-base-en
訓練過的語言 help_outline
2 語言
相關模型
link
jina-embeddings-v2-base-en
標籤
german-language
text-embedding
monolingual
large-context
production
semantic-search
document-retrieval
fine-tunable
可通過以下方式獲取
Jina API亞馬遜雲微軟雲抱抱臉
I/O 圖

文本

jina-embeddings-v2-base-de

向量

選擇要比較的模型
論文 (1)
arXiv
二月 26, 2024
Multi-Task Contrastive Learning for 8192-Token Bilingual Text Embeddings

概述

Jina Embeddings v2 Base German 解決了國際業務中的一個關鍵挑戰:彌合德語和英語市場之間的語言差距。對於向英語地區擴張的德國公司來説,準確的雙語理解至關重要,因為英語地區三分之一的企業的全球銷售額佔比超過 20%。該模型通過實現德語和英語的無縫文本理解和檢索,改變了組織處理跨語言內容的方式,這對於實施國際文檔系統、客户支持平台或內容管理解決方案的公司來説非常有用。與傳統的基於翻譯的方法不同,該模型將兩種語言的等效含義直接映射到相同的向量空間,從而實現更準確、更高效的雙語操作。

方法

該模型通過創新架構實現了令人印象深刻的雙語能力,該架構在統一的 768 維向量空間中處理德語和英語文本。其核心是採用基於 Transformer 的神經網絡,該網絡具有 1.61 億個參數,經過精心訓練,可以理解兩種語言之間的語義關係。這種架構特別有效的原因是其偏差最小化方法,專門設計用於避免偏向英語語法結構的常見陷阱 - 這是最近多語言模型研究中發現的一個問題。該模型的擴展上下文窗口為 8,192 個詞元,使其能夠一次性處理整個文檔或多頁文本,從而保持兩種語言長篇內容的語義一致性。

性能

在實際測試中,Jina Embeddings v2 Base German 表現出卓越的效率和準確性,尤其是在跨語言檢索任務中。該模型在大小不到微軟 E5 基礎模型三分之一的情況下表現優於後者,儘管體積只有後者的七分之一,但性能卻與 E5 大型模型相當。在包括用於英語到德語檢索的 WikiCLIR、用於雙向語言理解的 STS17 和 STS22 以及用於精確雙語文本對齊的 BUCC 在內的關鍵基準測試中,該模型始終表現出卓越的能力。其緊湊的尺寸為 322MB,可在標準硬件上部署,同時保持最先進的性能,使其在考慮計算資源的生產環境中特別高效。

最佳實踐

為了有效部署 Jina Embeddings v2 Base German,組織應考慮幾個實際方面。該模型與 MongoDB、Qdrant 和 Weaviate 等流行的矢量數據庫無縫集成,使構建可擴展的雙語搜索系統變得簡單。為了獲得最佳性能,請實施適當的文本預處理以有效處理 8,192 個詞元限制 - 這通常可容納大約 15-20 頁文本。雖然該模型在德語和英語內容方面都表現出色,但在用於查詢和文檔語言可能不同的跨語言檢索任務時尤其有效。組織應考慮為經常訪問的內容實施緩存策略,並使用批處理進行大規模文檔索引。該模型的 AWS SageMaker 集成提供了一條可靠的生產部署路徑,但團隊應該監控詞元使用情況併為高流量應用程序實施適當的速率限制。當將該模型用於 RAG 應用程序時,請考慮實施語言檢測以根據輸入語言優化提示構造。
提及此模型的博客
九月 27, 2024 • 15 分鐘的讀取量
從 Jina Embeddings v2 遷移到 v3
我們收集了一些建議,幫助您從 Jina Embeddings v2 遷移到 v3。
Alex C-G
Scott Martens
A digital upgrade theme with "V3" and a white "2", set against a green and black binary code background, with "Upgrade" centr
五月 15, 2024 • 11 分鐘的讀取量
二進位嵌入:擁有所有 AI 功能,只需 3.125% 的容量
32 位元對於像是 AI 模型這樣既強大又不精確的東西來說太過精密了。所以我們去掉了其中的 31 位!二元嵌入更小、更快,而且表現優異。
Sofia Vasileva
Scott Martens
Futuristic digital 3D model of a coffee grinder with blue neon lights on a black background, featuring numerical data.
四月 29, 2024 • 7 分鐘的讀取量
Jina Embeddings 和 Reranker 在 Azure 上的應用:可擴展的企業級 AI 解決方案
Jina Embeddings 和 Rerankers 現已在 Azure Marketplace 上架。重視隱私和安全的企業現在可以輕鬆地將 Jina AI 的最先進模型整合到其現有的 Azure 生態系統中。
Susana Guzmán
Futuristic black background with a purple 3D grid, featuring the "Embeddings" and "Reranker" logos with a stylized "A".
一月 31, 2024 • 16 分鐘的讀取量
深入探討 Tokenization
在 LLM 中,Tokenization 意味著將輸入文字切分成較小的部分進行處理。那麼為什麼 embeddings 要按照 token 來計費呢?
Scott Martens
Colorful speckled grid pattern with a mix of small multicolored dots on a black background, creating a mosaic effect.
一月 26, 2024 • 13 分鐘的讀取量
Jina Embeddings v2 雙語模型現已在 Hugging Face 開源
Jina AI 的德英和中英雙語 embedding 模型現已在 Hugging Face 上開源。 我們將介紹如何安裝並進行跨語言檢索。
Scott Martens
Colorful "EMBEDDINGS" text above a pile of yellow smileys on a black background with decorative lines at the top.
搜索底座
讀取器
向量模型
重排器
Elastic Inference Service
open_in_new
獲取 Jina API 密鑰
速率限制
API 狀態
公司
關於我們
新聞
下載 Jina 標誌
open_in_new
下載 Elastic 徽標
open_in_new
條款
安全
條款及條件
隱私
管理 Cookie
Elastic © 2020-2026.