ニュース
モデル
製品
keyboard_arrow_down
読者
URL を読み取ったり検索したりすると、大規模なモデルのサポートが向上します。
ベクトルモデル
世界クラスのマルチモーダル、多言語埋め込み。
並べ替え者
検索の関連性を最大化する世界クラスのニューラルレトリーバー。
ディープサーチ
最善の答えが見つかるまで、検索し、読み、推論してください。
もっと
keyboard_arrow_down
分類子
画像とテキストのゼロショットおよび少数ショットの分類。
スライサー
長いテキストをチャンクまたはトークンに分割します。

APIドキュメント
AIプログラミングアシスタントIDEまたは大規模モデル用のコードを自動生成
open_in_new


会社
keyboard_arrow_down
私たちについて
営業担当者に問い合わせる
インターンプログラム
参加しませんか
open_in_new
ロゴをダウンロード
open_in_new
利用規約


ログイン
login
warning
このモデルは、新しいモデルでは非推奨になりました。

jina-embedding-b-en-v1

伝説の OG、Jina ベクター モデルの最初のバージョン。
ライセンス
license
Apache-2.0
発売日
calendar_month
2023-06-17
入力
abc
文章
arrow_forward
出力
more_horiz
ベクター
モデル詳細
パラメータ: 110M
単語の長さを入力してください: 512
出力寸法: 768
言語サポート
🇺🇸 英語
関連機種
link
jina-embeddings-v2-base-en
link
jina-embeddings-v3
ラベル
text-embedding
english
base-model
legacy
bert-based
production
以下の方法で入手できます
顔を抱きしめる
比較するモデルを選択してください
出版物 (1)
EMNLP 2023
7月 20, 2023
Jina Embeddings: A Novel Set of High-Performance Sentence Embedding Models

概要

Jina Embedding B v1 は、意味論的な意味を維持しながら英語テキストを高次元の数値表現に変換するように設計された特殊なテキスト ベクトル モデルです。このモデルは、運用環境における効率的で正確なテキスト ベクトルに対する重要なニーズに対応しており、計算効率とベクトル品質のバランスをとる必要がある組織にとって特に価値があります。 768 次元のベクトルを生成する 1 億 1,000 万個のパラメータにより、大規模なコンピューティング リソースを必要とせずに、セマンティック検索、ドキュメント クラスタリング、またはコンテンツ推奨システムを実装するチームにとって実用的なソリューションとして機能します。

方法

このモデルは、平均プーリングで強化された T5 エンコーダベースのアーキテクチャを使用して、固定長表現を生成します。このモデルは、元の 16 億の文ペアから選別された 3 億 8,500 万の高品質な文ペアを含む厳選された Linnaeus-Clean データセットでトレーニングされ、2 段階のトレーニング プロセスを経ます。第 1 段階では、対照学習を利用してテキスト ペアに対して InfoNCE 損失を実行します。一方、第 2 段階ではトリプル トレーニングを使用して、類似コンテンツと類似コンテンツを区別するモデルの能力を向上させます。この革新的なトレーニング方法と厳密なデータ フィルタリング (言語検出や一貫性チェックを含む) を組み合わせることで、モデルが微妙な意味関係を効果的にキャプチャできるようになります。

パフォーマンス

実際の評価では、Jina Embedding B v1 は、特に意味論的なテキストの類似性タスクにおいて優れた機能を実証します。このモデルは、STS12 で 0.751 のスコアで最高のパフォーマンスを達成し、all-mpnet-base-v2 や all-minilm-l6-v2 などの成熟したモデルを上回ります。効率的な推論時間を維持しながら、さまざまなベンチマークで良好なパフォーマンスを発揮します。ただし、このモデルは英語コンテンツに特化して最適化されており、多言語タスクやコード固有のタスクでは最適なパフォーマンスが得られない可能性があることに注意してください。このモデルは、jina-embeddings-v2-base-en および jina-embeddings-v3 に置き換えられ、より幅広いユースケースにわたってパフォーマンスが向上しました。

ガイド

最適な展開のためには、モデルには CUDA 対応 GPU が必要ですが、その適度なサイズにより標準ハードウェアで効率的な推論が可能になります。このモデルは最大 512 トークンの長さの入力シーケンスを受け入れるため、一貫性のある信頼性の高いベクトル生成が重要な運用環境に最適です。英語コンテンツで最高のパフォーマンスを発揮し、意味検索、文書類似性比較、コンテンツ推奨システムなどのアプリケーションに最適です。チームは、より優れたパフォーマンスとより広範な言語サポートを提供するため、新しいプロジェクトには新しい v2 または v3 バージョンの使用を検討する必要があります。このモデルは、多言語の理解や一般的な英語のテキストを超えた専門分野の知識を必要とするタスクにはお勧めできません。
オフィス
location_on
カリフォルニア州サニーベール
710 Lakeway Dr、Ste 200、サニーベール、CA 94085、アメリカ合衆国
location_on
ドイツ、ベルリン(本社)
Prinzessinnenstraße 19-20、10969 ベルリン、ドイツ
location_on
中国、北京
中国北京市海淀区西街48号ビル6号5階
location_on
深セン、中国
ルーム 402、4 階、福安テクノロジービル、深セン、中国
検索ベース
読者
ベクトルモデル
並べ替え者
ディープサーチ
分類子
スライサー
APIドキュメント
Jina APIキーを取得する
レート制限
APIステータス
会社
私たちについて
営業担当者に問い合わせる
ニュース
インターンプログラム
参加しませんか
open_in_new
ロゴをダウンロード
open_in_new
条項
安全性
利用規約
プライバシー
Cookieを管理する
email
Jina AI © 2020-2025.