jina-embedding-b-en-v1

Jina 向量模型的第一個版本，傳説中的OG。

許可證

Apache-2.0

發佈日期

2023-06-17

輸入

文本

輸出

向量

遲分技術

模型詳細信息

參數: 110M

輸入詞元長度: 512

輸出維度: 768

底座模型

T5-Base Encoder

訓練過的語言

1 語言

相關模型

jina-embeddings-v2-base-en

jina-embeddings-v3

標籤

text-embedding

english

base-model

legacy

bert-based

production

可通過以下方式獲取

抱抱臉

I/O 圖

選擇要比較的模型

jina-embedding-b-en-v1

jina-embeddings-v2-base-en

jina-embeddings-v3

論文 (1)

EMNLP 2023

七月 20, 2023

Jina Embeddings: A Novel Set of High-Performance Sentence Embedding Models

概述

Jina Embedding B v1 是一種專門的文本向量模型，旨在將英文文本轉換為高維數字表示，同時保持語義含義。該模型滿足了生產環境中對高效、準確的文本向量的關鍵需求，對於需要在計算效率和向量質量之間取得平衡的組織尤其有價值。憑藉其 1.1 億個參數生成 768 維向量，它可作為團隊實施語義搜索、文檔聚類或內容推薦系統的實用解決方案，而無需大量計算資源。

方法

該模型採用基於 T5 編碼器的架構，並通過均值池化增強來生成固定長度的表示。該模型在精心策劃的 Linnaeus-Clean 數據集上進行訓練，該數據集包含從最初的 16 億對句子中篩選出的 3.85 億對高質量句子對，該模型經歷了兩個階段的訓練過程。第一階段利用對比學習對文本對進行 InfoNCE 損失，而第二階段則採用三重訓練來提高模型區分相似和不同內容的能力。這種創新的訓練方法與嚴格的數據過濾（包括語言檢測和一致性檢查）相結合，使模型能夠有效捕捉細微的語義關係。

性能

在實際評估中，Jina Embedding B v1 展現出令人印象深刻的功能，尤其是在語義文本相似性任務中。該模型在 STS12 上以 0.751 的得分實現了最佳性能，超越了 all-mpnet-base-v2 和 all-minilm-l6-v2 等成熟模型。它在各種基準測試中都表現出色，同時保持了高效的推理時間。但是，用户應注意，該模型專門針對英語內容進行了優化，在多語言或特定於代碼的任務上可能無法達到最佳性能。該模型已被 jina-embeddings-v2-base-en 和 jina-embeddings-v3 取代，它們在更廣泛的用例中提供了增強的性能。

最佳實踐

為了實現最佳部署，該模型需要具有 CUDA 功能的 GPU，儘管其適中的大小允許在標準硬件上進行高效推理。該模型接受長度最多為 512 個詞元的輸入序列，特別適合一致、可靠的向量生成至關重要的生產環境。它在英語內容上表現最佳，是語義搜索、文檔相似性比較和內容推薦系統等應用的理想選擇。團隊應考慮在新項目中使用較新的 v2 或 v3 版本，因為它們提供了更好的性能和更廣泛的語言支持。不建議將該模型用於需要多語言理解或一般英語文本之外的專門領域知識的任務。