ニュース
モデル
製品
keyboard_arrow_down
読者
URL を読み取ったり検索したりすると、大規模なモデルのサポートが向上します。
ベクトルモデル
世界クラスのマルチモーダル、多言語埋め込み。
並べ替え者
検索の関連性を最大化する世界クラスのニューラルレトリーバー。
ディープサーチ
最善の答えが見つかるまで、検索し、読み、推論してください。
もっと
keyboard_arrow_down
分類子
画像とテキストのゼロショットおよび少数ショットの分類。
スライサー
長いテキストをチャンクまたはトークンに分割します。

APIドキュメント
AIプログラミングアシスタントIDEまたは大規模モデル用のコードを自動生成
open_in_new


会社
keyboard_arrow_down
私たちについて
営業担当者に問い合わせる
インターンプログラム
参加しませんか
open_in_new
ロゴをダウンロード
open_in_new
利用規約


ログイン
login
warning
このモデルは、新しいモデルでは非推奨になりました。
copyright

jina-embeddings-v3

テキストとコードの両方で最適なパフォーマンスを備えた最新かつ最高のベクトル化モデル
リリースノートarrow_forward
ライセンス
copyright
CC-BY-NC-4.0
発売日
calendar_month
2024-09-18
入力
abc
文章
arrow_forward
出力
more_horiz
ベクター
モデル詳細
パラメータ: 570M
単語の長さを入力してください: 8K
出力寸法: 1024
言語サポート
🌍 多言語サポート
関連機種
link
jina-embeddings-v2-base-en
link
jina-embeddings-v2-base-zh
link
jina-embeddings-v2-base-de
link
jina-embeddings-v2-base-es
link
jina-embeddings-v2-base-code
ラベル
text-embedding
multilingual
high-dimension
long-context
production
base-model
matryoshka
lora-adapters
以下の方法で入手できます
API商用ライセンスアマゾンクラウドマイクロソフトクラウドグーグルクラウド顔を抱きしめる
I/O 図
比較するモデルを選択してください
出版物 (3)
ACL 2025
12月 17, 2024
AIR-Bench: Automated Heterogeneous Information Retrieval Benchmark
ECIR 2025
9月 18, 2024
jina-embeddings-v3: Multilingual Embeddings With Task LoRA
SIGIR 2025
9月 07, 2024
Late Chunking: Contextual Chunk Embeddings Using Long-Context Embedding Models

概要

Jina Embeddings v3 は、組織が言語を超えたテキストの理解と取得に取り組む方法を変える、画期的な多言語テキスト ベクトル モデルです。基本的に、計算要件を制御しながら、複数の言語およびタスクにわたって高いパフォーマンスを維持するという重要な課題を解決します。このモデルは、効率が重要な実稼働環境で特に優れています。わずか 5 億 7,000 万のパラメータで最先端のパフォーマンスを実現し、大規模なモデルの計算オーバーヘッドに余裕がないチームでも利用できるようになります。スケーラブルな多言語検索システムを構築したり、言語の壁を越えてコンテンツを分析したりする必要がある組織は、このモデルが特に価値があると考えられます。

方法

このモデルのアーキテクチャは、ベクトル テクノロジーにおける主要な革新を表しており、24 層の jina-XLM-RoBERTa に基づいて構築され、タスク固有の低ランク アダプティブ (LoRA) アダプターで強化されています。 LoRA アダプターは、パラメーターの数を大幅に増やすことなく、検索、分類、クラスタリングなどのさまざまなタスクに合わせてモデルを最適化する特殊なニューラル ネットワーク コンポーネントです。合計パラメーターの増加は 3% 未満です。このモデルには Matryoshka Representation Learning (MRL) が組み込まれており、パフォーマンスを維持しながらベクトルを 1024 次元から 32 次元に柔軟に削減できます。トレーニングには 3 つの段階が含まれます。89 言語の多言語テキストに関する最初の事前トレーニング、ベクトル品質を向上させるためのペアのテキストの微調整、タスクに合わせて最適化するための特殊なアダプター トレーニングです。このモデルは、回転位置ベクトル (RoPE) を介して最大 8,192 トークンのコンテキスト長をサポートし、革新的な基本周波数調整技術を使用して、短いテキストと長いテキストの両方のパフォーマンスを向上させます。

パフォーマンス

このモデルは、実世界のテストで優れた効率対パフォーマンス比を実証し、英語タスクではオープンソースの代替案や OpenAI や Cohere の独自ソリューションを上回っていると同時に、多言語シナリオでも良好なパフォーマンスを示しています。最も驚くべきことに、12 倍のパラメータを使用する e5-mistral-7b-instruct よりも優れた結果が得られ、その優れた効率性が強調されます。 MTEB ベンチマーク評価では、すべてのタスクで平均スコア 65.52 を達成し、特に分類精度 (82.58) と文の類似性 (85.80) で優れたパフォーマンスを示しました。このモデルは言語間で一貫したパフォーマンスを維持し、多言語タスクで 64.44 のスコアを獲得しました。次元削減に MRL を使用すると、より低い次元でも強力なパフォーマンスが維持されます。たとえば、64 次元では、完全な 1024 次元と比較して 92% の検索パフォーマンスが維持されます。

ガイド

Jina Embeddings v3 を効果的に導入するには、チームは特定のユースケースを考慮して適切なタスクアダプタを選択する必要があります。検索アプリケーションでは retrieval.query と retrieval.passage を、クラスタリングタスクでは Separation を、分類では classification を、セマンティック類似性では textmatching を使用します。このモデルでは、最高のパフォーマンスを得るために CUDA 対応ハードウェアが必要ですが、効率的なアーキテクチャのため、大規模な代替手段に比べて GPU メモリの必要量が大幅に少なくて済みます。本番環境での導入では、AWS SageMaker との統合により、スケーラビリティへのシンプルなパスが提供されます。このモデルは多言語アプリケーションで良好なパフォーマンスを発揮しますが、リソースの少ない言語では追加の評価が必要になる場合があります。最大 8,192 トークンの長いドキュメントをサポートしていますが、非常に長いテキストには遅延セグメンテーション機能を使用すると最高のパフォーマンスが得られます。このモデルはベクトル化と検索用に設計されており、テキスト生成や直接的な質問への回答には使用しないでください。
このモデルについて言及しているブログ
9月 18, 2024 • 10 読む時間
Jina Embeddings v3:最先端の多言語埋め込みモデル
jina-embeddings-v3 は、570M パラメータと 8192 トークン長を持つ最先端の多言語テキスト埋め込みモデルで、MTEB において OpenAI や Cohere の最新の商用埋め込みモデルを上回る性能を発揮します。
Jina AI
Dynamic image showing the characters "V3" formed by bright green dots varying in size on a black background.
7月 14, 2025 • 11 読む時間
テキスト選択、パッセージの重排器(Reranker)、およびコンテキストエンジニアリングのための劣モジュラ最適化
他の人がプロンプトチューニングに頼って運を天に任せる中、あなたはより良いコンテキストエンジニアリングのための理論的な保証を備えた、原則に基づいたフレームワークを提供する劣モジュラ最適化を学ぶべきです。
Han Xiao
Network illustration of interconnected hexagons, some solid and some hollow blue, connected by red lines indicating paths or
7月 04, 2025 • 13 読む時間
DeepResearchにおける多様なクエリ生成のための劣モジュラ最適化
DeepResearchにおいてクエリの多様性が重要であることは広く知られていますが、劣モジュラ最適化を通じてそれを厳密に解決する方法を知っている人はほとんどいません。
Han Xiao
Black and white typographic design of "1993" with a 3D effect, minimalistic black border, and a sense of depth on a white bac
6月 25, 2025 • 12 読む時間
Jina Embeddings v4:マルチモーダル多言語検索のためのユニバーサルなベクトルモデル (Embeddings)
Jina 向量模型 (Embeddings) v4 は、38 億のパラメータを持つユニバーサルな 向量模型 (Embedding) モデルであり、マルチモーダルおよび多言語の検索に対応し、シングルベクトルとマルチベクトルの 向量模型 (Embedding) 出力をサポートします。
Jina AI
Word "Embeddings" followed by a numeric or symbol representation, displayed in multiple colors on a technology-themed, colorf
5月 28, 2025 • 4 読む時間
相関関係:GUI でのベクトルモデル (Embeddings) のバイブテスト
MTEBを真剣に考えているのと同じくらい、雰囲気テストも大好きです。Correlationsは、DeepSearchでの引用の検証、遅延チャンクのデバッグ、および埋め込み (Embeddings) の雰囲気テストに使用するシンプルなGUIです。今回、オープンソース化されました。
Jina AI
Technical screen showing green and yellow visual data, including charts in the lower half and a heat-map-like visualization a
オフィス
location_on
カリフォルニア州サニーベール
710 Lakeway Dr、Ste 200、サニーベール、CA 94085、アメリカ合衆国
location_on
ドイツ、ベルリン(本社)
Prinzessinnenstraße 19-20、10969 ベルリン、ドイツ
location_on
中国、北京
中国北京市海淀区西街48号ビル6号5階
location_on
深セン、中国
ルーム 402、4 階、福安テクノロジービル、深セン、中国
検索ベース
読者
ベクトルモデル
並べ替え者
ディープサーチ
分類子
スライサー
APIドキュメント
Jina APIキーを取得する
レート制限
APIステータス
会社
私たちについて
営業担当者に問い合わせる
ニュース
インターンプログラム
参加しませんか
open_in_new
ロゴをダウンロード
open_in_new
条項
安全性
利用規約
プライバシー
Cookieを管理する
email
Jina AI © 2020-2025.