新聞
模型
產品
keyboard_arrow_down
讀取器
讀取URL或搜索為大模型提供更好的依據。
向量模型
世界一流的多模態多語言向量模型。
重排器
世界一流的重排器,最大限度地提高搜索相關性。
深度搜索
搜索、讀取並推理直到找到最佳答案。
更多的
keyboard_arrow_down
分類器
圖片和文本的零樣本和少樣本分類。
切分器
將長文本切分成塊或詞元。

API 文檔
為您的AI 編程助手 IDE 或大模型自動生成代碼
open_in_new


公司
keyboard_arrow_down
關於我們
聯繫銷售
實習生計劃
加入我們
open_in_new
下載Logo
open_in_new
條款及條件


登錄
login
模型亮點
德語自然語言處理的領先性能
獲取 API 存取權限
Jina 8K Embeddings:多元 AI 應用的基石
新聞稿
一月 15, 2024

我是柏林人:具有 8K Token 長度的德英雙語 Embeddings

Jina AI 推出一款德語/英語雙語嵌入模型,具有 8,192 個 token 的廣泛長度,專門設計用於支援在美國市場發展的德國企業。
Illustration of Berlin's Brandenburg Gate in neon-style green and blue with classical design elements and a chariot sculpture
Jina AI
Jina AI • 5 分鐘的讀取量

柏林,德國 - 2023 年 1 月 15 日 – 呼應甘迺迪的經典名言「我是柏林人」,在 Jina AI,我們很高興能以自己的方式跨越語言的藩籬。今天,我們很自豪地宣布我們最新的創新:jina-embeddings-v2-base-de,一個德語/英語嵌入模型。這個最先進的雙語模型在語言表示方面邁出了重要的一步,具有 8,192 個 token 的上下文長度。它的與眾不同之處在於其卓越的效率:在僅為可比模型 1/7 大小的情況下,就能達到頂級性能。

對於希望擴展到美國市場的德國企業來說,嵌入模型至關重要。根據 2022 年德美商業展望 (GABO),約三分之一的德國公司在美國產生超過 20% 的全球銷售額和利潤,其中 93% 預期美國銷售額將增長。這一趨勢持續發展,93% 計劃在未來三年增加其公司在美國的投資,85% 預期淨銷售額增長,並且高度關注數位轉型。優質的嵌入模型可以在這種擴張中發揮關鍵作用,通過促進對客戶偏好的更好理解,實現更有效的溝通,並定位具有文化共鳴的產品。

我們的突破對於希望在英語國家實施雙語應用的德國企業特別有利。藉助 jina-embeddings-v2-base-de,我們很期待看到德國公司如何在日益互聯的世界中創新和蓬勃發展。

tag模型亮點

  • 最先進的性能:jina-embeddings-v2-base-de 在相關基準測試中持續排名領先,並在同等規模的開源模型中佔據領先地位。
  • 雙語模型: 這個模型可以同時編碼德語和英語文本,允許在檢索應用中使用任一語言作為查詢或目標文檔。兩種語言中具有相同含義的文本會被映射到相同的嵌入空間,為多語言應用奠定基礎。
  • 擴展的上下文:8192 個 token 的長度使 jina-embeddings-v2-base-de 能夠支援更長的文本和文檔片段,遠超只能一次支援幾百個 token 的模型。
  • 緊湊的大小:jina-embeddings-v2-base-de 專為在標準電腦硬體上實現高性能而設計。僅有 1.61 億個參數,整個模型大小為 322MB,可以適配普通電腦的記憶體。嵌入本身為 768 維度,相比許多模型而言是相對較小的向量大小,可為應用節省空間和運行時間。
  • 偏差最小化:最新研究 表明,沒有特定語言訓練的多語言模型在嵌入中會顯示出對英語語法結構的強烈偏好。嵌入模型應該是捕捉含義,而不是偏好僅在表面上相似的句子對。
  • 無縫整合:Jina Embeddings v2 模型與主要向量數據庫都有原生整合,包括 MongoDB、Qdrant 和 Weaviate,以及 RAG 和 LLM 框架,如 Haystack 和 LlamaIndex。

tag德語自然語言處理的領先性能

我們將 jina-embeddings-v2-base-de 與四個同樣支援德語和英語的知名基準模型進行了對比測試。這些包括:

  • 來自 Microsoft 的 Multilingual-E5-large 和 Multilingual-E5-base
  • T-Systems 的 Cross English & German RoBERTa for Sentence Embeddings
  • Sentence-BERT(distiluse-base-multilingual-cased-v2)

我們的基準測試包括 英語的 MTEB 任務和我們自己的客製化基準。鑑於缺乏全面的德語嵌入基準測試套件,我們主動開發了自己的套件,靈感來自 MTEB。我們很自豪在此與您分享我們的發現和突破。

GitHub - jina-ai/mteb-de: MTEB: Massive Text Embedding Benchmark
MTEB: Massive Text Embedding Benchmark. Contribute to jina-ai/mteb-de development by creating an account on GitHub.
GitHubjina-ai
一個比較機器學習模型性能的表格,列出了四個不同模型的名稱、大小(MB)以及在德語和英語任務中的熟練度

tag體積小巧,結果出眾

jina-embeddings-v2-base-de 展現出卓越的性能,尤其是在德語任務方面。它在體積不到 E5 base 模型三分之一的情況下,表現超越了該模型。此外,它還能與體積是其七倍的 E5 large 模型並駕齊驅,展示了其效率和實力。這種效率使 jina-embeddings-v2-base-de 成為一個突破性的產品,特別是與其他流行的雙語和多語言嵌入模型相比。

tag在德英跨語言檢索中表現出色

我們的模型不僅僅是關於大小和效率;在英德跨語言檢索任務中也是頂級表現者。這在各種關鍵基準測試中得到了證明:

  • WikiCLIR,用於英語到德語的檢索
  • STS17,MTEB 評估中的英語到德語檢索部分
  • STS22,用於德語到英語的檢索,也是 MTEB 的一部分
  • BUCC,用於德語到英語的檢索,包含在 MTEB 中

在這些基準測試中的表現,特別是在 MTEB 評估測試中(WikiCLIR 除外),突顯了 jina-embeddings-v2-base-de 在處理複雜雙語任務方面的效能。

語言模型比較表,包含 MB 大小和 WikiCLIR、STS17 等指標的準確度百分比

tag獲取 API 存取權限

我們為重視隱私和數據合規的企業用戶提供的服務,包括 jina-embeddings-v2-base-de,可通過 Jina Embeddings API 存取:

  1. 前往 Jina Embeddings API 並點擊模型下拉選單
  2. 選擇 jina-embeddings-v2-base-de
Embedding API
頂級性能、8192 字元上下文長度、每 12.5 億字元 $100、無縫 OpenAI 替代方案、免費試用
Screenshot of technology platform with highlighted language models, code snippets, and options like 'Integrate' and 'Try out'

我們很快就會在 AWS Sagemaker marketplace 上為 Amazon 雲端用戶提供此模型,並在 HuggingFace 上提供下載。

tagJina 8K Embeddings:多元 AI 應用的基石

Embeddings 對於廣泛的 AI 應用至關重要,包括資訊檢索、數據品質控制、分類和推薦。它們是提升眾多 AI 任務的基礎。

Jina AI 致力於推進 embedding 技術的最新發展,讓我們的核心 AI 組件保持透明、易用,並為重視隱私和數據合規的各類型和規模的企業提供可負擔的價格。除了 jina-embeddings-v2-base-de,Jina AI 還發布了用於中文的最先進 embedding 模型和高性能的英文單語言模型。這是我們讓 AI 技術更具包容性和全球適用性的使命的一部分。

我們重視您的回饋。加入我們的社群頻道,提供反饋並了解我們的最新進展。讓我們一起打造一個更強大、更包容的 AI 未來。

加入 Jina AI Discord 伺服器!
快來看看 Discord 上的 Jina AI 社群 - 與其他 4232 位成員一起交流,享受免費的語音和文字聊天。
Discord
類別:
新聞稿
rss_feed
辦公室
location_on
加利福尼亞州桑尼維爾
710 Lakeway Dr, Ste 200, 桑尼維爾, CA 94085, 美國
location_on
德國柏林(總部)
Prinzessinnenstraße 19-20,10969 柏林,德國
location_on
中國北京
中國北京市海淀區西大街48號6號樓5層
location_on
中國深圳
中國深圳市賦安科技大廈4樓402
搜索底座
讀取器
向量模型
重排器
深度搜索
分類器
切分器
API 文檔
獲取 Jina API 密鑰
速率限制
API 狀態
公司
關於我們
聯繫銷售
新聞
實習生計劃
加入我們
open_in_new
下載Logo
open_in_new
條款
安全
條款及條件
隱私
管理 Cookie
email
Jina AI © 2020-2025.