ニュース
モデル
API
keyboard_arrow_down
読者
URL を読み取ったり検索したりすると、大規模なモデルのサポートが向上します。
ベクトルモデル
世界クラスのマルチモーダル、多言語埋め込み。
並べ替え者
検索の関連性を最大化する世界クラスのニューラルレトリーバー。
エラスティック推論サービス
Elasticsearch内でJinaモデルをネイティブに実行する。
MCP terminalコマンドラインarticlellms.txtsmart_toyエージェントdata_objectモデルmenu_book書類



ログイン
login
ベクトルモデル
copyright CC BY-NC 4.0
open_in_new リリースノート

jina-embeddings-v5-text-nano

エッジデプロイメント向け SOTA 多言語埋め込み
ライセンス
copyright CC-BY-NC-4.0
発売日
calendar_month
2026-02-18
入力
abc
文章
arrow_forward
出力
more_horiz
ベクター
サポートされているロシア人形の寸法 help_outline
32
64
128
256
512
768
後期分割法 help_outline
cancel
No
モデル詳細
パラメータ: 239M
単語の長さを入力してください: 8K
出力寸法: 768
ベースモデル help_outline
open_in_new
EuroBERT-210M
訓練された言語 help_outline
32 言語
サポートされている言語 help_outline
108 言語
定量版 help_outline
GGUF
Appleチップの最適化 help_outline
MLX
関連機種
link
jina-embeddings-v3
link
jina-embeddings-v5-text-small
サポートされているタスク
search 検索
compare_arrows テキストマッチング
bubble_chart クラスタリング
label 分類
ラベル
text-embedding
multilingual
long-context
production
matryoshka
last-token-pooling
以下の方法で入手できます
弾性推論サービスAPI顔を抱きしめる
I/O 図

文章

jina-embeddings-v5-text-nano

タスク

ベクター

比較するモデルを選択してください
紙 (1)
arXiv
2月 17, 2026
jina-embeddings-v5-text: Task-Targeted Embedding Distillation

概要

jina-embeddings-v5-text-nanoは、EuroBERT-210Mバックボーン上に構築され、2億3,900万のパラメータを誇ります。EuroBERT-210Mは、15の主要なヨーロッパ言語と世界言語で事前学習済みの双方向エンコーダです。このモデルは、最終端末プーリングを通じて768次元の埋め込みを生成し、最大32,000語彙単位の長さのコンテキストをサポートします。このモデルには、検索、意味的類似性、クラスタリング、分類のための4つのタスク固有のLoRAアダプタ(それぞれ670万パラメータ)が含まれています。Matryoshka表現学習技術は、埋め込みを32次元まで切り捨てることをサポートします。Qwen3-Embedding-4B埋め込み蒸留とタスク固有のアダプタトレーニングを組み合わせてトレーニングされたこのモデルは、サイズの2倍以上のモデルに匹敵するパフォーマンスを実現し、レイテンシに敏感なエッジデプロイアプリケーションに最適です。

方法

トレーニング プロセスは jina-embeddings-v5-text-small と同じで、2 段階の手順を採用していますが、EuroBERT-210M バックボーン ネットワークに適用されます。最初の段階は埋め込み蒸留です。これは、コサイン距離損失関数を使用して、線形投影層を介して学生モデルの 768 次元埋め込みを教師モデルの空間にマッピングすることで、Qwen3-Embedding-4B からの知識を転送します。トレーニングでは、複数言語の 300 を超えるデータセットのテキスト ペアを使用しました。第 2 段階では、4 つの特定タスク (各アダプターには 670 万のパラメーターが含まれます) の LoRA アダプターが、凍結されたバックボーン ネットワークの重みを使用してトレーニングされました。これらのタスクには、検索 (InfoNCE + 知識蒸留 + GOR)、テキスト マッチング (CoSENT + 知識蒸留)、クラスタリング (タスク固有の教師モデル指示を使用した再蒸留)、分類 (双方向 InfoNCE + リレーショナル知識蒸留) があります。 EuroBERT バックボーン ネットワークは、英語、フランス語、ドイツ語、スペイン語、中国語、日本語、アラビア語、ヒンディー語を含む 15 の主要ヨーロッパ言語と世界各国の言語を網羅した強力な多言語カバレッジを提供します。

パフォーマンス

MMTEB(多言語)データセットにおいて、jina-embeddings-v5-text-nanoモデルは、わずか2億3,900万パラメータしか使用せず、タスクレベル平均スコア65.5、タイプレベル平均スコア57.7を達成し、KaLM-mini-v2.5(60.1ポイント、4億9,400万パラメータ)、voyage-4-nano(58.9ポイント、4億8,000万パラメータ)、Gemma-300M(61.1ポイント、3億800万パラメータ)など、5億パラメータ未満のすべてのモデルを上回りました。分類スコアは69.2、クラスタリングスコアは52.7、ペア分類スコアは81.9、再ランキングスコアは64.6、検索スコアは63.3、STSスコアは78.2でした。英語MTEBデータセットでは、平均スコア71.0を達成し、よりパラメータ化されたjina-embeddings-v5-text-smallモデル(71.7)とほぼ同等のスコアを示しました。検索ベンチマークでは、この手法はMTEB-Mで63.26、RTEBで64.08、BEIRで56.06、LongEmbedで63.65というスコアを示しました。埋め込みはバイナリ量子化下でも堅牢性を維持し、GOR正則化によりMTEB検索におけるパフォーマンスの低下は2ポイント以内に抑えられています。

ガイド

タスクに基づいて適切な LoRA アダプターを選択します。非対称クエリ ドキュメント検索の場合は「検索」(クエリの前に「Query:」、段落の前に「Document:」を追加)、対称類似性タスクの場合は「テキスト マッチング」(両方の入力に「Document:」をプレフィックスとして追加)、関連ドキュメントをグループ化する場合は「クラスタリング」、分類の場合は「分類」を選択します。このナノモデルは、レイテンシの影響を受けやすくリソースが制限されるデプロイメントに最適化されている一方で、そのサイズの 2 倍以上のモデルに匹敵する精度を維持しています。Matryoshka 切り捨てにより、埋め込み次元を 768 から 32 まで削減できます。最良の結果を得るには、次元を 256 以上に維持してください。バイナリ量子化がサポートされています。EuroBERT バックボーンは、英語、フランス語、ドイツ語、スペイン語、中国語、日本語、アラビア語、ヒンディー語を含む 15 の主要言語を堅牢にカバーしています。埋め込みの比較は、コサイン類似度を使用して実行されます。これは、Jina AI API、Hugging Face (Sentence Transformers および vLLM)、および llama.cpp の量子化バリアントを通じて取得できます。
このモデルについて言及しているブログ
3月 06, 2026 • 6 読む時間
生の数値から埋め込みモデルを特定する
生の数値を読み取ることで埋め込みモデルをフィンガープリント化する、小さな Transformer。特徴量エンジニアリングは不要。
Han Xiao
Fingerprint illustration made from numbers, showcasing digital and high-tech design on a light background.
2月 19, 2026 • 7 読む時間
jina-embeddings-v5-text: 新しい SOTA 小型多言語ベクトルモデル
<input> 1B 未満の最高の性能を誇る 2 つの多言語対応ベクトルモデル(Embeddings)が、Elastic Inference Service、Llama.cpp、および MLX で利用可能になりました。 </input>
Han Xiao
Abstract digital artwork in black and white, featuring scattered dots forming letters in a halftone effect. The central lette
オフィス
location_on
カリフォルニア州サニーベール
710 Lakeway Dr, Ste 200, サニーベール, カリフォルニア州 94085, アメリカ合衆国
location_on
ベルリン、ドイツ
Prinzessinnenstraße 19-20、10969 ベルリン、ドイツ
検索ベース
読者
ベクトルモデル
並べ替え者
エラスティック推論サービス
open_in_new
Jina APIキーを取得する
レート制限
APIステータス
会社
私たちについて
営業担当者に問い合わせる
ニュース
インターンシッププログラム
Jinaロゴをダウンロード
open_in_new
Elasticロゴをダウンロード
open_in_new
条項
安全性
利用規約
プライバシー
Cookieを管理する
email
エラスティックジナAI © 2020-2026.