ニュース
モデル
製品
keyboard_arrow_down
ディープサーチ
最善の答えが見つかるまで、検索し、読み、推論してください。
読者
URL を読み取ったり検索したりすると、大規模なモデルのサポートが向上します。
ベクトルモデル
世界クラスのマルチモーダル、多言語埋め込み。
並べ替え者
検索の関連性を最大化する世界クラスのニューラルレトリーバー。
もっと
keyboard_arrow_down
分類子
画像とテキストのゼロショットおよび少数ショットの分類。
スライサー
長いテキストをチャンクまたはトークンに分割します。

APIドキュメント
AIプログラミングアシスタントIDEまたは大規模モデル用のコードを自動生成
open_in_new


会社
keyboard_arrow_down
私たちについて
営業担当者に問い合わせる
インターンプログラム
参加しませんか
open_in_new
ロゴをダウンロード
open_in_new
利用規約


ログイン
login
モデルアーキテクチャ
クロスモーダル検索性能
テキストのみの Dense Retriever パフォーマンス
マトリョーシカ表現のパフォーマンス
はじめ方
結論
star
選択
プレスリリース
11月 21, 2024

Jina CLIP v2:テキストと画像のための多言語マルチモーダル埋め込み

89言語のマルチリンガルサポート、512x512 の高解像度画像対応、および Matryoshka 表現を備えた 0.9B のマルチモーダル埋め込みモデル、Jina-CLIP v2。
Jina AI
Jina AI • 8 読む時間
jinaai/jina-clip-v2 · Hugging Face
オープンソースとオープンサイエンスを通じて、人工知能を進歩させ、民主化する journey を進めています。
Jina AI - Your Search Foundation, Supercharged.
最高クラスの embeddings、rerankers、LLM-reader、web scraper、classifiers。多言語およびマルチモーダルデータに最適な検索 AI。
Your Search Foundation, Supercharged.

jina-clip-v2 API は「Embeddings」タブで利用可能です。

マルチモーダル embeddings は、一貫した表現を通じて異なるモダリティ間でのデータの検索と理解を可能にします。これらはニューラル情報検索とマルチモーダル GenAI アプリケーションの基盤となります。本日、jina-clip-v1 と最近リリースした jina-embeddings-3 をベースに構築された新しい汎用多言語マルチモーダル embeddings である jina-clip-v2 のリリースを発表できることを嬉しく思います。主な改善点は以下の通りです:

  • パフォーマンスの向上:v2 はテキスト-画像およびテキスト-テキスト検索タスクの両方で v1 から 3% のパフォーマンス向上を示しています。v1 と同様に、v2 のテキストエンコーダーは効果的な多言語長文コンテキスト密ベクトル検索器として機能します。現在 MTEB において 1B パラメータ未満で最高の多言語 embeddings である我々のフロンティアモデル jina-embeddings-v3 と同等のパフォーマンスを発揮します。
  • 多言語サポート:テキストタワーに jina-embeddings-v3 を採用することで、jina-clip-v2 は 89 言語での多言語-画像検索をサポートし、多言語画像検索タスクにおいて nllb-clip-large-siglip と比較して最大 4% の改善を示しています。
  • より高い画像解像度:v2 は 512x512 の入力画像解像度をサポートし、v1 の 224x224 から大幅に向上しました。この高解像度により、詳細な画像のより良い処理、特徴抽出の改善、細かい視覚要素のより正確な認識が可能になります。
  • マトリョーシカ表現:v2 ではテキストと画像の両方の embeddings の出力次元を 1024 から 64 まで切り詰めることができ、強力なパフォーマンスを維持しながらストレージと処理のオーバーヘッドを削減できます。

tagモデルアーキテクチャ

jina-clip-v2 は 2 つの強力なエンコーダーを組み合わせた 0.9B の CLIP スタイルモデルです:テキストエンコーダー Jina XLM-RoBERTa(jina-embeddings-v3 のバックボーン)と、ビジョンエンコーダー EVA02-L14(BAAI が開発した効率的なビジョン Transformer)です。これらのエンコーダーは画像とテキストの aligned な表現を作成するために共同で訓練されています。

Feature Text Encoder Image Encoder
Base Model Jina XLM-RoBERTa EVA02-L
Parameters 561M 304M
Input Specification 8,192 tokens (max) 512×512 pixels
Min Output Dimensions 64 64
Max Output Dimensions 1,024 1,024
Layers 24 24
Attention Mechanism FlashAttention2 xFormers
Pooling Strategy Mean pooling CLS pooling
Additional Features 89 languages supported Patch size 14x14

tagクロスモーダル検索性能

Jina CLIP v2 は 89 言語をサポートし、アラビア語、中国語、英語、フランス語、ドイツ語、日本語、ロシア語、スペイン語を含む主要言語で優れた性能を発揮します。多言語画像検索ベンチマークでは、わずかに大きな(1.3B、jina-clip-v2 より 44% 大きい)最先端の CLIP スタイルモデルで NLLB モデルから事前訓練されたテキストエンコーダーを使用する NLLB-CLIP-SigLIP と同等かそれ以上の性能を示しています。

tag英語のみのテキストと画像

標準的なクロスモーダル検索ベンチマーク(Flickr30k と COCO)において、jina-clip-v2 は全体的に大きな改善を示しています。Flickr30k の画像からテキストへの検索で 98.0% という最先端の性能を達成し、前身モデルと NLLB-CLIP-SigLIP の両方を上回りました。このモデルは、COCO の画像からテキストへの検索で v1 から最大 3.3% の改善を示すなど、すべての検索シナリオで一貫した向上を見せており、さまざまなベンチマークとモダリティの方向性において NLLB-CLIP-SigLIP と競争力のある性能を維持しています。

Flickr30k Recall@5 性能:

Task Model Score Relative to v1 Relative to NLLB
Image-to-text jina-clip-v2 98.0 +1.7% +0.9%
jina-clip-v1 96.4 - -0.7%
nllb-siglip-large 97.1 - -
Text-to-image jina-clip-v2 89.8 +0.9% -2.6%
jina-clip-v1 89.0 - -3.5%
nllb-siglip-large 92.2 - -

COCO Recall@5 性能:

Task Model Score Relative to v1 Relative to NLLB
Image-to-text jina-clip-v2 81.5 +3.3% +2.9%
jina-clip-v1 78.9 - -0.4%
nllb-siglip-large 79.2 - -
Text-to-image jina-clip-v2 68.4 +2.9% -3.4%
jina-clip-v1 66.5 - -6.1%
nllb-siglip-large 70.8 - -

tag多言語テキストと画像

多言語クロスモーダルベンチマークにおいて、jina-clip-v2 は堅固な性能を示し、特に画像からテキストへの検索で優れており、すべてのデータセットで NLLB-SigLIP を上回り、Crossmodal 3600 で最大 +3.8% の改善を達成しています。NLLB-SigLIP はテキストから画像への検索でわずかに強い性能を示していますが、性能差は通常 3% 以内と小さいものにとどまっています。

画像からテキストへの Recall@5 パフォーマンス:

Benchmark Model Score Relative to NLLB
Crossmodal 3600 jina-clip-v2 83.23 +3.8%
nllb-siglip-large 80.16 -
Multilingual MS Coco jina-clip-v2 86.03 +0.8%
nllb-siglip-large 85.37 -
XTD10 jina-clip-v2 85.98 +0.7%
nllb-siglip-large 85.41 -

テキストから画像への Recall@5 パフォーマンス:

Benchmark Model Score Relative to NLLB
Crossmodal 3600 jina-clip-v2 81.43 -0.8%
nllb-siglip-large 82.07 -
Multilingual MS Coco jina-clip-v2 84.87 -3.1%
nllb-siglip-large 87.60 -
XTD10 jina-clip-v2 85.03 -3.0%
nllb-siglip-large 87.63 -

tagテキストのみの Dense Retriever パフォーマンス

前バージョンと同様に、jina-clip-v2 のテキストエンコーダーは効果的な多言語 Dense Retriever として機能します。包括的な Multilingual MTEB ベンチマークにおいて、検索で 69.86%、意味的類似性タスクで 67.77% という強力なパフォーマンスを達成しています。これらの結果は、専用のテキスト埋め込みモデル jina-embeddings-v3 と競争力のある汎用性を示しています:

Task Model Score Relative to v3
Retrieval jina-clip-v2 69.86 -3.8%
jina-embeddings-v3 72.59 -
Semantic Similarity jina-clip-v2 67.77 -2.9%
jina-embeddings-v3 69.81 -

英語タスクにおいて、jina-clip-v2 は前バージョンと NLLB-SigLIP の両方に対して一貫した改善を示しており、特に検索パフォーマンスでは NLLB-SigLIP のスコアのほぼ 2 倍という大きな優位性を示しています。

Task Model Score Relative to v1
STS jina-clip-v2 81.29 +0.5%
jina-clip-v1 80.92 -
nllb-siglip-large 74.65 -
Retrieval jina-clip-v2 49.33 +2.1%
jina-clip-v1 48.33 -
nllb-siglip-large 24.92 -

tagマトリョーシカ表現のパフォーマンス

テキストと画像のエンコーダーはともに MRL をサポートしており、強力なパフォーマンスを維持しながら出力次元を 64 まで切り詰めることができます。埋め込みの切り詰め評価では、顕著な圧縮の可能性が明らかになりました。75% という積極的な次元削減を行っても、テキスト、画像、クロスモーダルタスクにわたって 99% 以上のパフォーマンスを維持しました。

tag画像分類

37 の多様な画像分類ベンチマークにおいて、画像エンコーダーは次元の切り詰めに対して強い耐性を示しています。1024 から 64 次元への圧縮(94% の削減)でも、top-5 精度で 8%、top-1 で 12.5% の低下に留まり、パフォーマンスの損失を最小限に抑えた効率的な展開の可能性を示しています。

**画像分類**については、VTAB データセットの19のベンチマーク、VOC 2007、SUN397、STL10、Rendered SST2、ObjectNet、MNIST、ドイツ交通標識認識ベンチマーク(GTSRB)、航空機の細粒度視覚分類(FGVC-Aircraft)、FER 2013、Country211、Cars196、ImageNet-A、ImageNet-O、ImageNet1k、ImageNet Sketch、およびImageNet v2を使用しました。

tagクロスモーダル検索

次元数を 94% 削減して 64 次元にしたにもかかわらず、切り詰められた画像とテキストの埋め込みを使用したクロスモーダル検索は非常に堅牢で、画像からテキストへの性能の 93%、テキストから画像への性能の 90% を維持しました。

6つのベンチマークを使用し、そのうち3つは多言語対応です:Crossmodal-3600(36言語)、flickr30k(英語のみ)、flickr8k(英語のみ)、MS COCO Captions(英語のみ)、Multilingual MS COCO Captions(10言語)、XTD 200(27言語)

tagテキストのみの検索

**英語のみの MTEB ベンチマーク**において、1024 次元から圧縮された 64 次元のテキスト埋め込みは、意味的類似性を極めて良好に保持し、わずか 2.1% の低下にとどまり、検索性能は 17.5% の適度な低下を示しました。

tagはじめ方

tagAPI 経由

このコードは Python の requests を使用して埋め込みを生成する方法を示しています。base64 画像または URL を含むテキスト文字列と、希望する次元サイズ(デフォルトは 1024、以下では 768 として表示)を渡します。

import requests
import numpy as np
from numpy.linalg import norm

cos_sim = lambda a,b: (a @ b.T) / (norm(a)*norm(b))

url = 'https://api.jina.ai/v1/embeddings'

headers = {
  'Content-Type': 'application/json',
  'Authorization': 'Bearer <YOUR_JINA_AI_API_KEY>'
}

data = {
  'input': [
     {"text": "Bridge close-shot"},
     {"url": "https://fastly.picsum.photos/id/84/1280/848.jpg?hmac=YFRYDI4UsfbeTzI8ZakNOR98wVU7a-9a2tGF542539s"}],
  'model': 'jina-clip-v2',
  'encoding_type': 'float',
  'dimensions': '768' 
}

response = requests.post(url, headers=headers, json=data)
sim = cos_sim(np.array(response.json()['data'][0]['embedding']), np.array(response.json()['data'][1]['embedding']))
print(f"Cosine text<->image: {sim}")

<YOUR_JINA_AI_API_KEY> を有効な Jina API キーに置き換えることを忘れないでください。ここから 100 万の無料トークンを含む無料の API キーを取得できます。

tag画像トークンの価格設定

当社の API はテキストと画像の両方のトークンをカウントします。画像の場合、トークンの消費は画像全体をカバーするために必要な 512x512 ピクセルのタイル数に基づいています。各タイルの処理には 4,000 トークンが必要で、部分的に埋まったタイルも含みます。**コスト効率を最適化するために、API ユーザーはリクエストを送信する前に画像を 512x512 にリサイズすることをお勧めします。**

画像解像度 必要なタイル数 トークンコスト
512x512 1 4,000
720x720 4 16,000
1080x1080 9 36,000
正方形の画像の場合、コスト効率を最適化するために 512x512 にリサイズしてください。アスペクト比が重要なタスクの場合、最長辺を 512 にスケーリングし、画像を中央に配置して黒で埋めてください。一般的な用途では、直接 512x512 にリサイズすることで十分です。

tagCSP マーケットプレイス経由

Jina CLIP v2 は AWS、Azure、GCP で直接利用可能で、それぞれのプラットフォームに記載された価格で提供されています。

AWS Marketplace: Jina CLIP v2
Microsoft Azure Marketplace
Google Cloud console
Google Cloud Marketplace で賢明な支出、迅速な調達、Google Cloud の支出を管理できます。Google Cloud で実行するように最適化された 2000 以上の SaaS、VM、開発スタック、Kubernetes アプリのカタログを閲覧できます。

tagVectorDB 経由

知識豊富な AI を構築するためのベクトルデータベース | Pinecone
数十億のアイテムから、任意のオブジェクトに類似する一致を数ミリ秒で検索できます。次世代の検索が API 呼び出し一つで実現できます。
Pinecone Docs
マルチモーダル埋め込み | Weaviate
Weaviate と Jina AI の API の統合により、Weaviate から直接モデルの機能にアクセスできます。
Weaviate
Jina Embeddings - Qdrant
Qdrant は Rust で書かれたオープンソースのベクトルデータベースとベクトル検索エンジンです。使いやすい API を備えた、高速でスケーラブルなベクトル類似性検索サービスを提供します。
editQdrant

tag結論

6 月にリリースした jina-clip-v1(OpenAI の CLIP モデルを拡張して最大 8,192 トークンのテキスト入力に対応)と最先端の多言語モデル jina-embeddings-v3 を基に、jina-clip-v2 は 3 つの主要な進歩をもたらします:89 言語の多言語サポート、512x512 の高解像度画像対応、そして切り詰められた埋め込みのためのマトリョーシカ表現学習です。

CLIP のようなモデルは、汎用的なマルチモーダルアプリケーションのバックボーンとして確立されています。jina-clip-v2 では、これらの機能を次のレベルに引き上げ、言語の壁を取り払い、より正確なクロスモーダルな理解と検索を実現します。このリリースは、マルチモーダル検索と検索を世界中の開発者にとってより強力でアクセスしやすいものにするという約束を果たすものだと私たちは信じています。

カテゴリー:
star
選択
プレスリリース
rss_feed
オフィス
location_on
カリフォルニア州サニーベール
710 Lakeway Dr、Ste 200、サニーベール、CA 94085、アメリカ合衆国
location_on
ドイツ、ベルリン(本社)
Prinzessinnenstraße 19-20、10969 ベルリン、ドイツ
location_on
中国、北京
中国北京市海淀区西街48号ビル6号5階
location_on
深セン、中国
ルーム 402、4 階、福安テクノロジービル、深セン、中国
検索ベース
ディープサーチ
読者
ベクトルモデル
並べ替え者
分類子
スライサー
APIドキュメント
Jina APIキーを取得する
レート制限
APIステータス
会社
私たちについて
営業担当者に問い合わせる
ニュース
インターンプログラム
参加しませんか
open_in_new
ロゴをダウンロード
open_in_new
条項
安全性
利用規約
プライバシー
Cookieを管理する
email
Jina AI © 2020-2025.