I/O 図 1
I/O 図 2
比較するモデルを選択してください
出版物 (1)
概要
Jina CLIP v2 は、89 の言語で視覚とテキストの理解のギャップを埋めることで、マルチモーダル AI に革命をもたらします。このモデルは、言語の壁に関係なく、正確な画像とテキストのマッチングを実現することで、グローバルな電子商取引、コンテンツ管理、異文化コミュニケーションにおける主要な課題に対処します。国際的に事業を拡大したり、多言語コンテンツを管理したりする企業にとって、言語ごとに個別のモデルや複雑な翻訳プロセスが不要になります。このモデルは、世界市場での製品発見や多言語デジタル資産管理など、言語の境界を越えた正確な視覚検索を必要とするシナリオで特に優れています。
方法
Jina CLIP v2 の中核となるのは、Jina XLM-RoBERTa テキスト エンコーダー (561M パラメータ) と EVA02-L14 ビジュアル エンコーダー (304M パラメータ) を組み合わせた高度なデュアル エンコーダー アーキテクチャです。テキスト エンコーダーは、696,320 トークンの大規模なコンテキスト ウィンドウを使用して 89 の言語のコンテンツを処理し、ビジュアル エンコーダーは最大 512 x 512 ピクセルの高解像度画像を処理します。このモデルは、パフォーマンスを維持しながら 1024 次元から 64 次元への動的なベクトル次元調整を可能にする革新的なマトリョーシカ表現学習を導入しています。このアーキテクチャは、独自のエンコーダーを介してテキストと画像を処理し、元のモダリティや言語に関係なく、同様の概念を調整できる共有セマンティック空間に投影します。
パフォーマンス
このモデルは、Flickr30k の画像からテキストへの検索タスクで 98.0% の精度を達成し、前モデルおよび NLLB-CLIP-SigLIP を上回り、最先端のパフォーマンスを実現しました。多言語シナリオでは、最も近い競合モデルよりもパラメータが少ないにもかかわらず、このモデルは、言語間画像検索タスクで NLLB-CLIP-SigLIP よりも 4% の改善を達成しています。モデルは、ベクトルが圧縮されても強力なパフォーマンスを維持します。サイズを 75% 削減しても、テキスト、画像、クロスモーダル タスクで 99% を超えるパフォーマンスが維持されます。包括的な多言語 MTEB ベンチマークでは、検索タスクで 69.86%、意味的類似性タスクで 67.77% を達成し、特殊なテキスト埋め込みモデルと競合します。
ガイド
最適な展開のために、ユーザーはいくつかの重要な要素を考慮する必要があります。このモデルでは、効率的な処理のために CUDA 対応のハードウェアが必要であり、メモリ要件はバッチ サイズと画像解像度に応じて変化します。 API のコストとパフォーマンスを最適化するには、処理前に画像を 512 x 512 ピクセルにサイズ変更します。大きい画像は自動的にタイル化されるため、トークンの使用量と処理時間が増加します。このモデルは、言語間で画像と説明文を一致させることに優れていますが、抽象的な概念や高度に専門化されたドメイン固有のコンテンツの処理が難しい場合があります。これは、電子商取引の製品検索、コンテンツ推奨システム、およびビジュアル検索アプリケーションには特に効果的ですが、きめ細かい視覚的詳細の分析や高度に専門化されたドメインの専門知識を必要とするタスクには適さない可能性があります。 Matryoshka を使用して特徴を表現する場合は、次元削減とパフォーマンスのトレードオフを考慮してください。64 次元のベクトルは強力なパフォーマンスを維持しますが、重要なアプリケーションではより高い次元のメリットが得られる可能性があります。
このモデルについて言及しているブログ