新聞
模型
產品
keyboard_arrow_down
深度搜索
搜索、讀取並推理直到找到最佳答案。
讀取器
讀取URL或搜索為大模型提供更好的依據。
向量模型
世界一流的多模態多語言向量模型。
重排器
世界一流的重排器,最大限度地提高搜索相關性。
更多的
keyboard_arrow_down
分類器
圖片和文本的零樣本和少樣本分類。
切分器
將長文本切分成塊或詞元。

API 文檔
為您的AI 編程助手 IDE 或大模型自動生成代碼
open_in_new


公司
keyboard_arrow_down
關於我們
聯繫銷售
實習生計劃
加入我們
open_in_new
下載Logo
open_in_new
條款及條件


登錄
login
warning
此模型已被較新的模型棄用。

jina-embeddings-v2-base-zh

支持中英雙語的 8K 最佳向量模型
發行説明arrow_forward
許可證
license
Apache-2.0
發佈日期
calendar_month
2024-01-09
輸入
abc
文本
arrow_forward
輸出
more_horiz
向量
模型詳細信息
參數: 161M
輸入詞元長度: 8K
輸出維度: 768
語言支持
🇺🇸 英語
🇨🇳 中文
相關模型
link
jina-embeddings-v2-base-en
link
jina-embeddings-v3
標籤
text-embedding
chinese
multilingual
base-model
production
long-context
high-dimension
可通過以下方式獲取
Jina API亞馬遜雲微軟雲抱抱臉
選擇要比較的模型
出版物 (1)
arXiv
二月 26, 2024
Multi-Task Contrastive Learning for 8192-Token Bilingual Text Embeddings

概述

Jina Embeddings v2 Base Chinese 開創了先河,成為第一個無縫處理中文和英文文本的開源模型,其上下文長度達到前所未有的 8,192 個 token。這個強大的雙語模型解決了全球商業面臨的一個關鍵挑戰:需要準確、長篇文檔處理中文和英文內容。與傳統模型難以進行跨語言理解或需要為每種語言建立單獨的模型不同,該模型將兩種語言的等效含義映射到同一個向量空間,這對於在全球範圍內擴張或管理多語言內容的組織來説非常有價值。

方法

該模型的架構將基於 BERT 的主幹與對稱雙向 ALiBi(具有線性偏差的注意力機制)相結合,從而能夠高效處理長序列,而不受傳統 512 個 token 的限制。訓練過程遵循精心策劃的三階段方法:首先在高質量雙語數據上進行預訓練,然後進行主要和次要微調階段。這種有條不紊的訓練策略,加上模型的 161M 參數和 768 維輸出,實現了卓越的效率,同時保持了兩種語言的平衡性能。對稱雙向 ALiBi 機制代表了一項重大創新,使模型能夠處理長度高達 8,192 個 token 的文檔——這一功能以前僅限於專有解決方案。

性能

在中文 MTEB (C-MTEB) 排行榜的基準測試中,該模型在 0.5GB 以下的模型中表現出色,尤其是在中文任務中表現出色。它在中文特定應用中的表現明顯優於 OpenAI 的 text-embedding-ada-002,同時在英語任務中保持了競爭力。此版本中的一個顯着改進是改進了相似度分數分佈,解決了預覽版本中存在的分數膨脹問題。該模型現在提供更獨特、更合乎邏輯的相似度分數,確保更準確地表示文本之間的語義關係。這種增強在比較測試中尤為明顯,其中模型在兩種語言中對相關和不相關內容表現出更好的區分能力。

最佳實踐

該模型需要 322MB 的存儲空間,可通過多種渠道部署,包括 AWS SageMaker(us-east-1 區域)和 Jina AI API。雖然 GPU 加速不是強制性的,但它可以顯著提高生產工作負載的處理速度。該模型在文檔分析、多語言搜索和跨語言信息檢索等各種應用中表現出色,但用户應注意,它專門針對中英雙語場景進行了優化。為了獲得最佳效果,輸入文本應正確分段,雖然該模型最多可以處理 8,192 個詞元,但建議將極長的文檔分解為具有語義意義的塊以獲得更好的性能。該模型可能不適合需要實時處理非常短的文本的任務,在這些任務中,低延遲的專用模型可能更合適。
提及此模型的博客
四月 29, 2024 • 7 分鐘的讀取量
Jina Embeddings 和 Reranker 在 Azure 上的應用:可擴展的企業級 AI 解決方案
Jina Embeddings 和 Rerankers 現已在 Azure Marketplace 上架。重視隱私和安全的企業現在可以輕鬆地將 Jina AI 的最先進模型整合到其現有的 Azure 生態系統中。
Susana Guzmán
Futuristic black background with a purple 3D grid, featuring the "Embeddings" and "Reranker" logos with a stylized "A".
二月 28, 2024 • 3 分鐘的讀取量
運用多任務對比學習革新雙語文本嵌入
我們的新論文探討了我們的西班牙語-英語和德語-英語模型如何運用多任務對比學習和複雜的數據管線,來掌握長達 8192 個 tokens 的文本的語言理解和跨語言效率
Jina AI
Composite image of four colorful, stylized landmarks: Brandenburg Gate, St. Peter's Basilica, Tiananmen, and Golden Gate Brid
一月 31, 2024 • 16 分鐘的讀取量
深入探討 Tokenization
在 LLM 中,Tokenization 意味著將輸入文字切分成較小的部分進行處理。那麼為什麼 embeddings 要按照 token 來計費呢?
Scott Martens
Colorful speckled grid pattern with a mix of small multicolored dots on a black background, creating a mosaic effect.
一月 26, 2024 • 13 分鐘的讀取量
Jina Embeddings v2 雙語模型現已在 Hugging Face 開源
Jina AI 的德英和中英雙語 embedding 模型現已在 Hugging Face 上開源。 我們將介紹如何安裝並進行跨語言檢索。
Scott Martens
Colorful "EMBEDDINGS" text above a pile of yellow smileys on a black background with decorative lines at the top.
一月 09, 2024 • 12 分鐘的讀取量
突破中英文語言壁壘的 8K Token 長度雙語嵌入向量
首個具備 8192 token 長度的中英雙語 embedding 模型
Jina AI
Colorful 3D text "OPEN" in green and blue on a black background creating a vibrant effect
辦公室
location_on
加利福尼亞州桑尼維爾
710 Lakeway Dr, Ste 200, 桑尼維爾, CA 94085, 美國
location_on
德國柏林(總部)
Prinzessinnenstraße 19-20,10969 柏林,德國
location_on
中國北京
中國北京市海淀區西大街48號6號樓5層
location_on
中國深圳
中國深圳市賦安科技大廈4樓402
搜索底座
深度搜索
讀取器
向量模型
重排器
分類器
切分器
API 文檔
獲取 Jina API 密鑰
速率限制
API 狀態
公司
關於我們
聯繫銷售
新聞
實習生計劃
加入我們
open_in_new
下載Logo
open_in_new
條款
安全
條款及條件
隱私
管理 Cookie
email
Jina AI © 2020-2025.