新聞
模型
API
keyboard_arrow_down
讀取器
讀取URL或搜索為大模型提供更好的依據。
向量模型
世界一流的多模態多語言向量模型。
重排器
世界一流的重排器,最大限度地提高搜索相關性。
Elastic Inference Service
在 Elasticsearch 中原生運行 Jina 模型。
MCP terminal命令行articlellms.txtsmart_toy代理人data_object模式menu_book文檔



登錄
login
warning
此模型已被較新的模型棄用。
向量模型
Apache 2.0 許可證

jina-embedding-b-en-v1

Jina 向量模型的第一個版本,傳説中的OG。
許可證
Apache-2.0
發佈日期
calendar_month
2023-06-17
輸入
abc
文本
arrow_forward
輸出
more_horiz
向量
遲分技術 help_outline
cancel
No
模型詳細信息
參數: 110M
輸入詞元長度: 512
輸出維度: 768
底座模型 help_outline
open_in_new
T5-Base Encoder
訓練過的語言 help_outline
1 語言
相關模型
link
jina-embeddings-v2-base-en
link
jina-embeddings-v3
標籤
text-embedding
english
base-model
legacy
bert-based
production
可通過以下方式獲取
抱抱臉
I/O 圖

文本

jina-embedding-b-en-v1

向量

選擇要比較的模型
論文 (1)
EMNLP 2023
七月 20, 2023
Jina Embeddings: A Novel Set of High-Performance Sentence Embedding Models

概述

Jina Embedding B v1 是一種專門的文本向量模型,旨在將英文文本轉換為高維數字表示,同時保持語義含義。該模型滿足了生產環境中對高效、準確的文本向量的關鍵需求,對於需要在計算效率和向量質量之間取得平衡的組織尤其有價值。憑藉其 1.1 億個參數生成 768 維向量,它可作為團隊實施語義搜索、文檔聚類或內容推薦系統的實用解決方案,而無需大量計算資源。

方法

該模型採用基於 T5 編碼器的架構,並通過均值池化增強來生成固定長度的表示。該模型在精心策劃的 Linnaeus-Clean 數據集上進行訓練,該數據集包含從最初的 16 億對句子中篩選出的 3.85 億對高質量句子對,該模型經歷了兩個階段的訓練過程。第一階段利用對比學習對文本對進行 InfoNCE 損失,而第二階段則採用三重訓練來提高模型區分相似和不同內容的能力。這種創新的訓練方法與嚴格的數據過濾(包括語言檢測和一致性檢查)相結合,使模型能夠有效捕捉細微的語義關係。

性能

在實際評估中,Jina Embedding B v1 展現出令人印象深刻的功能,尤其是在語義文本相似性任務中。該模型在 STS12 上以 0.751 的得分實現了最佳性能,超越了 all-mpnet-base-v2 和 all-minilm-l6-v2 等成熟模型。它在各種基準測試中都表現出色,同時保持了高效的推理時間。但是,用户應注意,該模型專門針對英語內容進行了優化,在多語言或特定於代碼的任務上可能無法達到最佳性能。該模型已被 jina-embeddings-v2-base-en 和 jina-embeddings-v3 取代,它們在更廣泛的用例中提供了增強的性能。

最佳實踐

為了實現最佳部署,該模型需要具有 CUDA 功能的 GPU,儘管其適中的大小允許在標準硬件上進行高效推理。該模型接受長度最多為 512 個詞元的輸入序列,特別適合一致、可靠的向量生成至關重要的生產環境。它在英語內容上表現最佳,是語義搜索、文檔相似性比較和內容推薦系統等應用的理想選擇。團隊應考慮在新項目中使用較新的 v2 或 v3 版本,因為它們提供了更好的性能和更廣泛的語言支持。不建議將該模型用於需要多語言理解或一般英語文本之外的專門領域知識的任務。
搜索底座
讀取器
向量模型
重排器
Elastic Inference Service
open_in_new
獲取 Jina API 密鑰
速率限制
API 狀態
公司
關於我們
聯繫銷售
新聞
實習生項目
下載 Jina 標誌
open_in_new
下載 Elastic 徽標
open_in_new
條款
安全
條款及條件
隱私
管理 Cookie
Elastic © 2020-2026.