

jina-clip-v2 API は「Embeddings」タブで利用可能です。
マルチモーダル embeddings は、一貫した表現を通じて異なるモダリティ間でのデータの検索と理解を可能にします。これらはニューラル情報検索とマルチモーダル GenAI アプリケーションの基盤となります。本日、jina-clip-v1 と最近リリースした jina-embeddings-3
をベースに構築された新しい汎用多言語マルチモーダル embeddings である jina-clip-v2 のリリースを発表できることを嬉しく思います。主な改善点は以下の通りです:
- パフォーマンスの向上:v2 はテキスト-画像およびテキスト-テキスト検索タスクの両方で v1 から 3% のパフォーマンス向上を示しています。v1 と同様に、v2 のテキストエンコーダーは効果的な多言語長文コンテキスト密ベクトル検索器として機能します。現在 MTEB において 1B パラメータ未満で最高の多言語 embeddings である我々のフロンティアモデル jina-embeddings-v3 と同等のパフォーマンスを発揮します。
- 多言語サポート:テキストタワーに jina-embeddings-v3 を採用することで、jina-clip-v2 は 89 言語での多言語-画像検索をサポートし、多言語画像検索タスクにおいて
nllb-clip-large-siglip
と比較して最大 4% の改善を示しています。 - より高い画像解像度:v2 は 512x512 の入力画像解像度をサポートし、v1 の 224x224 から大幅に向上しました。この高解像度により、詳細な画像のより良い処理、特徴抽出の改善、細かい視覚要素のより正確な認識が可能になります。
- マトリョーシカ表現:v2 ではテキストと画像の両方の embeddings の出力次元を 1024 から 64 まで切り詰めることができ、強力なパフォーマンスを維持しながらストレージと処理のオーバーヘッドを削減できます。
tagモデルアーキテクチャ
jina-clip-v2 は 2 つの強力なエンコーダーを組み合わせた 0.9B の CLIP スタイルモデルです:テキストエンコーダー Jina XLM-RoBERTa
(jina-embeddings-v3 のバックボーン)と、ビジョンエンコーダー EVA02-L14
(BAAI が開発した効率的なビジョン Transformer)です。これらのエンコーダーは画像とテキストの aligned な表現を作成するために共同で訓練されています。
Feature | Text Encoder | Image Encoder |
---|---|---|
Base Model | Jina XLM-RoBERTa | EVA02-L |
Parameters | 561M | 304M |
Input Specification | 8,192 tokens (max) | 512×512 pixels |
Min Output Dimensions | 64 | 64 |
Max Output Dimensions | 1,024 | 1,024 |
Layers | 24 | 24 |
Attention Mechanism | FlashAttention2 | xFormers |
Pooling Strategy | Mean pooling | CLS pooling |
Additional Features | 89 languages supported | Patch size 14x14 |
tagクロスモーダル検索性能
Jina CLIP v2 は 89 言語をサポートし、アラビア語、中国語、英語、フランス語、ドイツ語、日本語、ロシア語、スペイン語を含む主要言語で優れた性能を発揮します。多言語画像検索ベンチマークでは、わずかに大きな(1.3B、jina-clip-v2 より 44% 大きい)最先端の CLIP スタイルモデルで NLLB モデルから事前訓練されたテキストエンコーダーを使用する NLLB-CLIP-SigLIP と同等かそれ以上の性能を示しています。
tag英語のみのテキストと画像
標準的なクロスモーダル検索ベンチマーク(Flickr30k と COCO)において、jina-clip-v2 は全体的に大きな改善を示しています。Flickr30k の画像からテキストへの検索で 98.0% という最先端の性能を達成し、前身モデルと NLLB-CLIP-SigLIP の両方を上回りました。このモデルは、COCO の画像からテキストへの検索で v1 から最大 3.3% の改善を示すなど、すべての検索シナリオで一貫した向上を見せており、さまざまなベンチマークとモダリティの方向性において NLLB-CLIP-SigLIP と競争力のある性能を維持しています。
Flickr30k Recall@5 性能:
Task | Model | Score | Relative to v1 | Relative to NLLB |
---|---|---|---|---|
Image-to-text | jina-clip-v2 | 98.0 | +1.7% | +0.9% |
jina-clip-v1 | 96.4 | - | -0.7% | |
nllb-siglip-large | 97.1 | - | - | |
Text-to-image | jina-clip-v2 | 89.8 | +0.9% | -2.6% |
jina-clip-v1 | 89.0 | - | -3.5% | |
nllb-siglip-large | 92.2 | - | - |
COCO Recall@5 性能:
Task | Model | Score | Relative to v1 | Relative to NLLB |
---|---|---|---|---|
Image-to-text | jina-clip-v2 | 81.5 | +3.3% | +2.9% |
jina-clip-v1 | 78.9 | - | -0.4% | |
nllb-siglip-large | 79.2 | - | - | |
Text-to-image | jina-clip-v2 | 68.4 | +2.9% | -3.4% |
jina-clip-v1 | 66.5 | - | -6.1% | |
nllb-siglip-large | 70.8 | - | - |
tag多言語テキストと画像
多言語クロスモーダルベンチマークにおいて、jina-clip-v2 は堅固な性能を示し、特に画像からテキストへの検索で優れており、すべてのデータセットで NLLB-SigLIP を上回り、Crossmodal 3600 で最大 +3.8% の改善を達成しています。NLLB-SigLIP はテキストから画像への検索でわずかに強い性能を示していますが、性能差は通常 3% 以内と小さいものにとどまっています。
画像からテキストへの Recall@5 パフォーマンス:
Benchmark | Model | Score | Relative to NLLB |
---|---|---|---|
Crossmodal 3600 | jina-clip-v2 | 83.23 | +3.8% |
nllb-siglip-large | 80.16 | - | |
Multilingual MS Coco | jina-clip-v2 | 86.03 | +0.8% |
nllb-siglip-large | 85.37 | - | |
XTD10 | jina-clip-v2 | 85.98 | +0.7% |
nllb-siglip-large | 85.41 | - |
テキストから画像への Recall@5 パフォーマンス:
Benchmark | Model | Score | Relative to NLLB |
---|---|---|---|
Crossmodal 3600 | jina-clip-v2 | 81.43 | -0.8% |
nllb-siglip-large | 82.07 | - | |
Multilingual MS Coco | jina-clip-v2 | 84.87 | -3.1% |
nllb-siglip-large | 87.60 | - | |
XTD10 | jina-clip-v2 | 85.03 | -3.0% |
nllb-siglip-large | 87.63 | - |
tagテキストのみの Dense Retriever パフォーマンス
前バージョンと同様に、jina-clip-v2 のテキストエンコーダーは効果的な多言語 Dense Retriever として機能します。包括的な Multilingual MTEB ベンチマークにおいて、検索で 69.86%、意味的類似性タスクで 67.77% という強力なパフォーマンスを達成しています。これらの結果は、専用のテキスト埋め込みモデル jina-embeddings-v3 と競争力のある汎用性を示しています:
Task | Model | Score | Relative to v3 |
---|---|---|---|
Retrieval | jina-clip-v2 | 69.86 | -3.8% |
jina-embeddings-v3 | 72.59 | - | |
Semantic Similarity | jina-clip-v2 | 67.77 | -2.9% |
jina-embeddings-v3 | 69.81 | - |
英語タスクにおいて、jina-clip-v2 は前バージョンと NLLB-SigLIP の両方に対して一貫した改善を示しており、特に検索パフォーマンスでは NLLB-SigLIP のスコアのほぼ 2 倍という大きな優位性を示しています。
Task | Model | Score | Relative to v1 |
---|---|---|---|
STS | jina-clip-v2 | 81.29 | +0.5% |
jina-clip-v1 | 80.92 | - | |
nllb-siglip-large | 74.65 | - | |
Retrieval | jina-clip-v2 | 49.33 | +2.1% |
jina-clip-v1 | 48.33 | - | |
nllb-siglip-large | 24.92 | - |
tagマトリョーシカ表現のパフォーマンス
テキストと画像のエンコーダーはともに MRL をサポートしており、強力なパフォーマンスを維持しながら出力次元を 64 まで切り詰めることができます。埋め込みの切り詰め評価では、顕著な圧縮の可能性が明らかになりました。75% という積極的な次元削減を行っても、テキスト、画像、クロスモーダルタスクにわたって 99% 以上のパフォーマンスを維持しました。
tag画像分類
37 の多様な画像分類ベンチマークにおいて、画像エンコーダーは次元の切り詰めに対して強い耐性を示しています。1024 から 64 次元への圧縮(94% の削減)でも、top-5 精度で 8%、top-1 で 12.5% の低下に留まり、パフォーマンスの損失を最小限に抑えた効率的な展開の可能性を示しています。
tagクロスモーダル検索
次元数を 94% 削減して 64 次元にしたにもかかわらず、切り詰められた画像とテキストの埋め込みを使用したクロスモーダル検索は非常に堅牢で、画像からテキストへの性能の 93%、テキストから画像への性能の 90% を維持しました。
tagテキストのみの検索
**英語のみの MTEB ベンチマーク**において、1024 次元から圧縮された 64 次元のテキスト埋め込みは、意味的類似性を極めて良好に保持し、わずか 2.1% の低下にとどまり、検索性能は 17.5% の適度な低下を示しました。
tagはじめ方
tagAPI 経由
このコードは Python の requests
を使用して埋め込みを生成する方法を示しています。base64 画像または URL を含むテキスト文字列と、希望する次元サイズ(デフォルトは 1024、以下では 768 として表示)を渡します。
import requests
import numpy as np
from numpy.linalg import norm
cos_sim = lambda a,b: (a @ b.T) / (norm(a)*norm(b))
url = 'https://api.jina.ai/v1/embeddings'
headers = {
'Content-Type': 'application/json',
'Authorization': 'Bearer <YOUR_JINA_AI_API_KEY>'
}
data = {
'input': [
{"text": "Bridge close-shot"},
{"url": "https://fastly.picsum.photos/id/84/1280/848.jpg?hmac=YFRYDI4UsfbeTzI8ZakNOR98wVU7a-9a2tGF542539s"}],
'model': 'jina-clip-v2',
'encoding_type': 'float',
'dimensions': '768'
}
response = requests.post(url, headers=headers, json=data)
sim = cos_sim(np.array(response.json()['data'][0]['embedding']), np.array(response.json()['data'][1]['embedding']))
print(f"Cosine text<->image: {sim}")
<YOUR_JINA_AI_API_KEY> を有効な Jina API キーに置き換えることを忘れないでください。ここから 100 万の無料トークンを含む無料の API キーを取得できます。
tag画像トークンの価格設定
当社の API はテキストと画像の両方のトークンをカウントします。画像の場合、トークンの消費は画像全体をカバーするために必要な 512x512 ピクセルのタイル数に基づいています。各タイルの処理には 4,000 トークンが必要で、部分的に埋まったタイルも含みます。**コスト効率を最適化するために、API ユーザーはリクエストを送信する前に画像を 512x512 にリサイズすることをお勧めします。**
画像解像度 | 必要なタイル数 | トークンコスト |
---|---|---|
512x512 | 1 | 4,000 |
720x720 | 4 | 16,000 |
1080x1080 | 9 | 36,000 |
tagCSP マーケットプレイス経由
Jina CLIP v2 は AWS、Azure、GCP で直接利用可能で、それぞれのプラットフォームに記載された価格で提供されています。

tagVectorDB 経由



tag結論
6 月にリリースした jina-clip-v1(OpenAI の CLIP モデルを拡張して最大 8,192 トークンのテキスト入力に対応)と最先端の多言語モデル jina-embeddings-v3 を基に、jina-clip-v2 は 3 つの主要な進歩をもたらします:89 言語の多言語サポート、512x512 の高解像度画像対応、そして切り詰められた埋め込みのためのマトリョーシカ表現学習です。
CLIP のようなモデルは、汎用的なマルチモーダルアプリケーションのバックボーンとして確立されています。jina-clip-v2 では、これらの機能を次のレベルに引き上げ、言語の壁を取り払い、より正確なクロスモーダルな理解と検索を実現します。このリリースは、マルチモーダル検索と検索を世界中の開発者にとってより強力でアクセスしやすいものにするという約束を果たすものだと私たちは信じています。