jina-clip-v2

テキストと画像のための多言語およびマルチモーダルベクターモデル

ライセンス

CC-BY-NC-4.0

発売日

2024-11-05

入力

写真

文章

出力

ベクター

サポートされているロシア人形の寸法

128

256

512

768

1024

モデル詳細

パラメータ: 865M

単語の長さを入力してください: 8K

画像サイズを入力してください: 512×512

出力寸法: 1024

ベースモデル

XLM-RoBERTa Large

訓練された言語

32 言語

サポートされている言語

108 言語

概要

Jina CLIP v2 は、89 の言語で視覚とテキストの理解のギャップを埋めることで、マルチモーダル AI に革命をもたらします。このモデルは、言語の壁に関係なく、正確な画像とテキストのマッチングを実現することで、グローバルな電子商取引、コンテンツ管理、異文化コミュニケーションにおける主要な課題に対処します。国際的に事業を拡大したり、多言語コンテンツを管理したりする企業にとって、言語ごとに個別のモデルや複雑な翻訳プロセスが不要になります。このモデルは、世界市場での製品発見や多言語デジタル資産管理など、言語の境界を越えた正確な視覚検索を必要とするシナリオで特に優れています。

方法

Jina CLIP v2 の中核となるのは、Jina XLM-RoBERTa テキストエンコーダー (561M パラメータ) と EVA02-L14 ビジュアルエンコーダー (304M パラメータ) を組み合わせた高度なデュアルエンコーダーアーキテクチャです。テキストエンコーダーは、696,320 トークンの大規模なコンテキストウィンドウを使用して 89 の言語のコンテンツを処理し、ビジュアルエンコーダーは最大 512 x 512 ピクセルの高解像度画像を処理します。このモデルは、パフォーマンスを維持しながら 1024 次元から 64 次元への動的なベクトル次元調整を可能にする革新的なマトリョーシカ表現学習を導入しています。このアーキテクチャは、独自のエンコーダーを介してテキストと画像を処理し、元のモダリティや言語に関係なく、同様の概念を調整できる共有セマンティック空間に投影します。

パフォーマンス

このモデルは、Flickr30k の画像からテキストへの検索タスクで 98.0% の精度を達成し、前モデルおよび NLLB-CLIP-SigLIP を上回り、最先端のパフォーマンスを実現しました。多言語シナリオでは、最も近い競合モデルよりもパラメータが少ないにもかかわらず、このモデルは、言語間画像検索タスクで NLLB-CLIP-SigLIP よりも 4% の改善を達成しています。モデルは、ベクトルが圧縮されても強力なパフォーマンスを維持します。サイズを 75% 削減しても、テキスト、画像、クロスモーダルタスクで 99% を超えるパフォーマンスが維持されます。包括的な多言語 MTEB ベンチマークでは、検索タスクで 69.86%、意味的類似性タスクで 67.77% を達成し、特殊なテキスト埋め込みモデルと競合します。

ガイド

最適な展開のために、ユーザーはいくつかの重要な要素を考慮する必要があります。このモデルでは、効率的な処理のために CUDA 対応のハードウェアが必要であり、メモリ要件はバッチサイズと画像解像度に応じて変化します。 API のコストとパフォーマンスを最適化するには、処理前に画像を 512 x 512 ピクセルにサイズ変更します。大きい画像は自動的にタイル化されるため、トークンの使用量と処理時間が増加します。このモデルは、言語間で画像と説明文を一致させることに優れていますが、抽象的な概念や高度に専門化されたドメイン固有のコンテンツの処理が難しい場合があります。これは、電子商取引の製品検索、コンテンツ推奨システム、およびビジュアル検索アプリケーションには特に効果的ですが、きめ細かい視覚的詳細の分析や高度に専門化されたドメインの専門知識を必要とするタスクには適さない可能性があります。 Matryoshka を使用して特徴を表現する場合は、次元削減とパフォーマンスのトレードオフを考慮してください。64 次元のベクトルは強力なパフォーマンスを維持しますが、重要なアプリケーションではより高い次元のメリットが得られる可能性があります。

このモデルについて言及しているブログ

7月 31, 2025 • 12 読む時間

画像解像度がビジュアルドキュメント検索に与える影響

画像の解像度は、視覚的に豊富なドキュメントの向量模型を作成する上で非常に重要です。解像度が小さすぎると、モデルは重要な詳細を見逃し、大きすぎると、パーツを関連付けることができません。