新聞
模型
產品
keyboard_arrow_down
深度搜索
搜索、讀取並推理直到找到最佳答案。
讀取器
讀取URL或搜索為大模型提供更好的依據。
向量模型
世界一流的多模態多語言向量模型。
重排器
世界一流的重排器,最大限度地提高搜索相關性。
更多的
keyboard_arrow_down
分類器
圖片和文本的零樣本和少樣本分類。
切分器
將長文本切分成塊或詞元。

API 文檔
為您的AI 編程助手 IDE 或大模型自動生成代碼
open_in_new


公司
keyboard_arrow_down
關於我們
聯繫銷售
實習生計劃
加入我們
open_in_new
下載Logo
open_in_new
條款及條件


登錄
login
warning
此模型已被較新的模型棄用。

jina-embeddings-v2-base-en

與 OpenAI 的 text-embedding-ada002旗鼓相當
發行説明arrow_forward
許可證
license
Apache-2.0
發佈日期
calendar_month
2023-10-28
輸入
abc
文本
arrow_forward
輸出
more_horiz
向量
模型詳細信息
參數: 137M
輸入詞元長度: 8K
輸出維度: 768
語言支持
🇺🇸 英語
相關模型
link
jina-embedding-b-en-v1
link
jina-embeddings-v3
標籤
text-embeddings
english
long-context
production-ready
multi-task-learning
semantic-search
document-retrieval
high-performance
bert-based
fine-tunable
rag-optimized
8k-context
可通過以下方式獲取
Jina API亞馬遜雲微軟雲抱抱臉
選擇要比較的模型
出版物 (3)
arXiv
九月 07, 2024
Late Chunking: Contextual Chunk Embeddings Using Long-Context Embedding Models
arXiv
二月 26, 2024
Multi-Task Contrastive Learning for 8192-Token Bilingual Text Embeddings
arXiv
十月 30, 2023
Jina Embeddings 2: 8192-Token General-Purpose Text Embeddings for Long Documents

概述

Jina Embeddings v2 Base English 是一種突破性的開源文本向量模型,它解決了處理長文檔同時保持高準確率的關鍵挑戰。那些難以分析大量法律文件、研究論文或財務報告的組織會發現這個模型特別有價值。它以處理長度高達 8,192 個詞元的文檔而脱穎而出——比傳統模型長 16 倍——同時性能與 OpenAI 的專有解決方案相匹配。它體積小巧,僅為 0.27GB,資源利用率高,為尋求實施高級文檔分析而無需過多計算開銷的團隊提供了一個可訪問的解決方案。

方法

該模型的架構將 BERT Small 主幹與創新的對稱雙向 ALiBi(具有線性偏差的注意力機制)機制相結合,消除了對傳統位置向量的需求。這種架構選擇使模型能夠推斷出遠遠超出其 512 個詞元的訓練長度,處理多達 8,192 個詞元的序列而不會降低性能。訓練過程涉及兩個關鍵階段:在 C4 數據集上進行初始預訓練,然後在 Jina AI 精選的 40 多個專業數據集上進行細化。這些多樣化的訓練數據(包括具有挑戰性的負面示例和不同的句子對)確保了在不同領域和用例中的穩健性能。該模型生成 768 維密集向量,可捕捉細微的語義關係,使用相對適中的 137M 個參數實現。

性能

在實際測試中,Jina Embeddings v2 Base English 在多個基準測試中展現出卓越的能力。它在幾個關鍵指標上都優於 OpenAI 的 text-embedding-ada-002:分類(73.45% vs 70.93%)、重排(85.38% vs 84.89%)、檢索(56.98% vs 56.32%)和摘要(31.6% vs 30.8%)。這些數字在文檔分類等任務中轉化為實際優勢,其中模型顯示出對複雜文本進行分類的卓越能力,並在搜索應用中,它更好地理解用户查詢並找到相關文檔。但是,用户應注意,在處理訓練數據中未表示的高度專業化領域特定內容時,性能可能會有所不同。

最佳實踐

為了有效部署 Jina Embeddings v2 Base English,團隊應考慮幾個實際方面。該模型需要支持 CUDA 的硬件才能獲得最佳性能,但其高效的架構意味着它可以在消費級 GPU 上運行。它可通過多種渠道獲得:直接從 Hugging Face 下載、AWS Marketplace 部署或帶有 1000 萬個免費詞元的 Jina AI API。對於生產部署,us-east-1 區域中的 AWS SageMaker 提供了最具可擴展性的解決方案。該模型擅長通用文本分析,但對於未經微調的高度專業化的科學術語或領域特定術語,可能不是最佳選擇。處理長文檔時,請考慮將它們分解為有意義的語義塊,而不是任意拆分以保持上下文完整性。為獲得最佳結果,請實施適當的文本預處理並確保輸入數據乾淨、格式良好。
提及此模型的博客
十二月 17, 2024 • 12 分鐘的讀取量
文字嵌入無法捕捉詞序以及如何解決這個問題
文字嵌入模型在捕捉微妙的語言細微差別時仍有困難,例如詞序、方向性關係、時序、因果關係、比較以及否定等。了解這些挑戰對於提升模型效能至關重要。
Bo Wang
Alex C-G
Three abstract figures in white, gray, and pink on matching cubes placed on a colorful checkered surface against a green back
十月 25, 2024 • 19 分鐘的讀取量
使用小型語言模型在長文件中尋找最佳斷點
我們訓練了三個小型語言模型來更好地將長文件分割成區塊,以下是我們學到的重要經驗。
Andrei Ungureanu
Alex C-G
A pattern of yellow file icons on a blue background with one icon displaying a smiley face creating an emotive contrast.
十月 15, 2024 • 9 分鐘的讀取量
使用 Jina Reader 新的 Grounding API 進行事實查核
使用全新的 g.jina.ai,您可以輕鬆地執行陳述依據驗證,以減少 LLM 產生的幻覺或改善人工撰寫內容的完整性。
Jina AI
Jina developer interface showing "Jina AI was founded in 2020" with controls labeled true and false, and web address on top.
九月 27, 2024 • 15 分鐘的讀取量
從 Jina Embeddings v2 遷移到 v3
我們收集了一些建議,幫助您從 Jina Embeddings v2 遷移到 v3。
Alex C-G
Scott Martens
A digital upgrade theme with "V3" and a white "2", set against a green and black binary code background, with "Upgrade" centr
九月 18, 2024 • 10 分鐘的讀取量
Jina Embeddings v3:前沿多語言嵌入式模型
jina-embeddings-v3 是一個具有突破性的多語言文本嵌入模型,擁有 570M 參數和 8192 個 token 長度,在 MTEB 基準測試中的表現超越了 OpenAI 和 Cohere 最新的專有嵌入模型。
Jina AI
Dynamic image showing the characters "V3" formed by bright green dots varying in size on a black background.
辦公室
location_on
加利福尼亞州桑尼維爾
710 Lakeway Dr, Ste 200, 桑尼維爾, CA 94085, 美國
location_on
德國柏林(總部)
Prinzessinnenstraße 19-20,10969 柏林,德國
location_on
中國北京
中國北京市海淀區西大街48號6號樓5層
location_on
中國深圳
中國深圳市賦安科技大廈4樓402
搜索底座
深度搜索
讀取器
向量模型
重排器
分類器
切分器
API 文檔
獲取 Jina API 密鑰
速率限制
API 狀態
公司
關於我們
聯繫銷售
新聞
實習生計劃
加入我們
open_in_new
下載Logo
open_in_new
條款
安全
條款及條件
隱私
管理 Cookie
email
Jina AI © 2020-2025.