Jina CLIP v2：テキストと画像のための多言語マルチモーダル埋め込み

jina-clip-v2 API は「Embeddings」タブで利用可能です。

マルチモーダル embeddings は、一貫した表現を通じて異なるモダリティ間でのデータの検索と理解を可能にします。これらはニューラル情報検索とマルチモーダル GenAI アプリケーションの基盤となります。本日、jina-clip-v1 と最近リリースした jina-embeddings-3 をベースに構築された新しい汎用多言語マルチモーダル embeddings である jina-clip-v2 のリリースを発表できることを嬉しく思います。主な改善点は以下の通りです：

パフォーマンスの向上：v2 はテキスト-画像およびテキスト-テキスト検索タスクの両方で v1 から 3% のパフォーマンス向上を示しています。v1 と同様に、v2 のテキストエンコーダーは効果的な多言語長文コンテキスト密ベクトル検索器として機能します。現在 MTEB において 1B パラメータ未満で最高の多言語 embeddings である我々のフロンティアモデル jina-embeddings-v3 と同等のパフォーマンスを発揮します。
多言語サポート：テキストタワーに jina-embeddings-v3 を採用することで、jina-clip-v2 は 89 言語での多言語-画像検索をサポートし、多言語画像検索タスクにおいて nllb-clip-large-siglip と比較して最大 4% の改善を示しています。
より高い画像解像度：v2 は 512x512 の入力画像解像度をサポートし、v1 の 224x224 から大幅に向上しました。この高解像度により、詳細な画像のより良い処理、特徴抽出の改善、細かい視覚要素のより正確な認識が可能になります。
マトリョーシカ表現：v2 ではテキストと画像の両方の embeddings の出力次元を 1024 から 64 まで切り詰めることができ、強力なパフォーマンスを維持しながらストレージと処理のオーバーヘッドを削減できます。

tagモデルアーキテクチャ

jina-clip-v2 は 2 つの強力なエンコーダーを組み合わせた 0.9B の CLIP スタイルモデルです：テキストエンコーダー Jina XLM-RoBERTa（jina-embeddings-v3 のバックボーン）と、ビジョンエンコーダー EVA02-L14（BAAI が開発した効率的なビジョン Transformer）です。これらのエンコーダーは画像とテキストの aligned な表現を作成するために共同で訓練されています。

Feature	Text Encoder	Image Encoder
Base Model	Jina XLM-RoBERTa	EVA02-L
Parameters	561M	304M
Input Specification	8,192 tokens (max)	512×512 pixels
Min Output Dimensions	64	64
Max Output Dimensions	1,024	1,024
Layers	24	24
Attention Mechanism	FlashAttention2	xFormers
Pooling Strategy	Mean pooling	CLS pooling
Additional Features	89 languages supported	Patch size 14x14

Jina CLIP v2 は 89 言語をサポートし、アラビア語、中国語、英語、フランス語、ドイツ語、日本語、ロシア語、スペイン語を含む主要言語で優れた性能を発揮します。多言語画像検索ベンチマークでは、わずかに大きな（1.3B、jina-clip-v2 より 44% 大きい）最先端の CLIP スタイルモデルで NLLB モデルから事前訓練されたテキストエンコーダーを使用する NLLB-CLIP-SigLIP と同等かそれ以上の性能を示しています。

tag英語のみのテキストと画像

標準的なクロスモーダル検索ベンチマーク（Flickr30k と COCO）において、jina-clip-v2 は全体的に大きな改善を示しています。Flickr30k の画像からテキストへの検索で 98.0% という最先端の性能を達成し、前身モデルと NLLB-CLIP-SigLIP の両方を上回りました。このモデルは、COCO の画像からテキストへの検索で v1 から最大 3.3% の改善を示すなど、すべての検索シナリオで一貫した向上を見せており、さまざまなベンチマークとモダリティの方向性において NLLB-CLIP-SigLIP と競争力のある性能を維持しています。

Flickr30k Recall@5 性能：

Task	Model	Score	Relative to v1	Relative to NLLB
Image-to-text	jina-clip-v2	98.0	+1.7%	+0.9%
	jina-clip-v1	96.4	-	-0.7%
	nllb-siglip-large	97.1	-	-
Text-to-image	jina-clip-v2	89.8	+0.9%	-2.6%
	jina-clip-v1	89.0	-	-3.5%
	nllb-siglip-large	92.2	-	-

COCO Recall@5 性能：

Task	Model	Score	Relative to v1	Relative to NLLB
Image-to-text	jina-clip-v2	81.5	+3.3%	+2.9%
	jina-clip-v1	78.9	-	-0.4%
	nllb-siglip-large	79.2	-	-
Text-to-image	jina-clip-v2	68.4	+2.9%	-3.4%
	jina-clip-v1	66.5	-	-6.1%
	nllb-siglip-large	70.8	-	-

tag多言語テキストと画像

多言語クロスモーダルベンチマークにおいて、jina-clip-v2 は堅固な性能を示し、特に画像からテキストへの検索で優れており、すべてのデータセットで NLLB-SigLIP を上回り、Crossmodal 3600 で最大 +3.8% の改善を達成しています。NLLB-SigLIP はテキストから画像への検索でわずかに強い性能を示していますが、性能差は通常 3% 以内と小さいものにとどまっています。

画像からテキストへの Recall@5 パフォーマンス：

Benchmark	Model	Score	Relative to NLLB
Crossmodal 3600	jina-clip-v2	83.23	+3.8%
	nllb-siglip-large	80.16	-
Multilingual MS Coco	jina-clip-v2	86.03	+0.8%
	nllb-siglip-large	85.37	-
XTD10	jina-clip-v2	85.98	+0.7%
	nllb-siglip-large	85.41	-

テキストから画像への Recall@5 パフォーマンス：

Benchmark	Model	Score	Relative to NLLB
Crossmodal 3600	jina-clip-v2	81.43	-0.8%
	nllb-siglip-large	82.07	-
Multilingual MS Coco	jina-clip-v2	84.87	-3.1%
	nllb-siglip-large	87.60	-
XTD10	jina-clip-v2	85.03	-3.0%
	nllb-siglip-large	87.63	-

tagテキストのみの Dense Retriever パフォーマンス

前バージョンと同様に、jina-clip-v2 のテキストエンコーダーは効果的な多言語 Dense Retriever として機能します。包括的な Multilingual MTEB ベンチマークにおいて、検索で 69.86%、意味的類似性タスクで 67.77% という強力なパフォーマンスを達成しています。これらの結果は、専用のテキスト埋め込みモデル jina-embeddings-v3 と競争力のある汎用性を示しています：

Task	Model	Score	Relative to v3
Retrieval	jina-clip-v2	69.86	-3.8%
	jina-embeddings-v3	72.59	-
Semantic Similarity	jina-clip-v2	67.77	-2.9%
	jina-embeddings-v3	69.81	-

英語タスクにおいて、jina-clip-v2 は前バージョンと NLLB-SigLIP の両方に対して一貫した改善を示しており、特に検索パフォーマンスでは NLLB-SigLIP のスコアのほぼ 2 倍という大きな優位性を示しています。

Task	Model	Score	Relative to v1
STS	jina-clip-v2	81.29	+0.5%
	jina-clip-v1	80.92	-
	nllb-siglip-large	74.65	-
Retrieval	jina-clip-v2	49.33	+2.1%
	jina-clip-v1	48.33	-
	nllb-siglip-large	24.92	-

tagマトリョーシカ表現のパフォーマンス

テキストと画像のエンコーダーはともに MRL をサポートしており、強力なパフォーマンスを維持しながら出力次元を 64 まで切り詰めることができます。埋め込みの切り詰め評価では、顕著な圧縮の可能性が明らかになりました。75% という積極的な次元削減を行っても、テキスト、画像、クロスモーダルタスクにわたって 99% 以上のパフォーマンスを維持しました。

tag画像分類

37 の多様な画像分類ベンチマークにおいて、画像エンコーダーは次元の切り詰めに対して強い耐性を示しています。1024 から 64 次元への圧縮（94% の削減）でも、top-5 精度で 8%、top-1 で 12.5% の低下に留まり、パフォーマンスの損失を最小限に抑えた効率的な展開の可能性を示しています。

**画像分類**については、VTAB データセットの19のベンチマーク、VOC 2007、SUN397、STL10、Rendered SST2、ObjectNet、MNIST、ドイツ交通標識認識ベンチマーク（GTSRB）、航空機の細粒度視覚分類（FGVC-Aircraft）、FER 2013、Country211、Cars196、ImageNet-A、ImageNet-O、ImageNet1k、ImageNet Sketch、およびImageNet v2を使用しました。

次元数を 94% 削減して 64 次元にしたにもかかわらず、切り詰められた画像とテキストの埋め込みを使用したクロスモーダル検索は非常に堅牢で、画像からテキストへの性能の 93%、テキストから画像への性能の 90% を維持しました。

6つのベンチマークを使用し、そのうち3つは多言語対応です：Crossmodal-3600（36言語）、flickr30k（英語のみ）、flickr8k（英語のみ）、MS COCO Captions（英語のみ）、Multilingual MS COCO Captions（10言語）、XTD 200（27言語）

tagテキストのみの検索

**英語のみの MTEB ベンチマーク**において、1024 次元から圧縮された 64 次元のテキスト埋め込みは、意味的類似性を極めて良好に保持し、わずか 2.1% の低下にとどまり、検索性能は 17.5% の適度な低下を示しました。

tagはじめ方

tagAPI 経由

このコードは Python の requests を使用して埋め込みを生成する方法を示しています。base64 画像または URL を含むテキスト文字列と、希望する次元サイズ（デフォルトは 1024、以下では 768 として表示）を渡します。

import requests
import numpy as np
from numpy.linalg import norm

cos_sim = lambda a,b: (a @ b.T) / (norm(a)*norm(b))

url = 'https://api.jina.ai/v1/embeddings'

headers = {
  'Content-Type': 'application/json',
  'Authorization': 'Bearer <YOUR_JINA_AI_API_KEY>'
}

data = {
  'input': [
     {"text": "Bridge close-shot"},
     {"url": "https://fastly.picsum.photos/id/84/1280/848.jpg?hmac=YFRYDI4UsfbeTzI8ZakNOR98wVU7a-9a2tGF542539s"}],
  'model': 'jina-clip-v2',
  'encoding_type': 'float',
  'dimensions': '768' 
}

response = requests.post(url, headers=headers, json=data)
sim = cos_sim(np.array(response.json()['data'][0]['embedding']), np.array(response.json()['data'][1]['embedding']))
print(f"Cosine text<->image: {sim}")

<YOUR_JINA_AI_API_KEY> を有効な Jina API キーに置き換えることを忘れないでください。ここから 100 万の無料トークンを含む無料の API キーを取得できます。

tag画像トークンの価格設定

当社の API はテキストと画像の両方のトークンをカウントします。画像の場合、トークンの消費は画像全体をカバーするために必要な 512x512 ピクセルのタイル数に基づいています。各タイルの処理には 4,000 トークンが必要で、部分的に埋まったタイルも含みます。**コスト効率を最適化するために、API ユーザーはリクエストを送信する前に画像を 512x512 にリサイズすることをお勧めします。**

画像解像度	必要なタイル数	トークンコスト
512x512	1	4,000
720x720	4	16,000
1080x1080	9	36,000

正方形の画像の場合、コスト効率を最適化するために 512x512 にリサイズしてください。アスペクト比が重要なタスクの場合、最長辺を 512 にスケーリングし、画像を中央に配置して黒で埋めてください。一般的な用途では、直接 512x512 にリサイズすることで十分です。

tagCSP マーケットプレイス経由

Jina CLIP v2 は AWS、Azure、GCP で直接利用可能で、それぞれのプラットフォームに記載された価格で提供されています。

Microsoft Azure Marketplace

Google Cloud console

Google Cloud Marketplace で賢明な支出、迅速な調達、Google Cloud の支出を管理できます。Google Cloud で実行するように最適化された 2000 以上の SaaS、VM、開発スタック、Kubernetes アプリのカタログを閲覧できます。

tagVectorDB 経由

tag結論

6 月にリリースした jina-clip-v1（OpenAI の CLIP モデルを拡張して最大 8,192 トークンのテキスト入力に対応）と最先端の多言語モデル jina-embeddings-v3 を基に、jina-clip-v2 は 3 つの主要な進歩をもたらします：89 言語の多言語サポート、512x512 の高解像度画像対応、そして切り詰められた埋め込みのためのマトリョーシカ表現学習です。

CLIP のようなモデルは、汎用的なマルチモーダルアプリケーションのバックボーンとして確立されています。jina-clip-v2 では、これらの機能を次のレベルに引き上げ、言語の壁を取り払い、より正確なクロスモーダルな理解と検索を実現します。このリリースは、マルチモーダル検索と検索を世界中の開発者にとってより強力でアクセスしやすいものにするという約束を果たすものだと私たちは信じています。