以下の方法で入手できます
I/O 図 1
I/O 図 2
比較するモデルを選択してください
紙 (1)
概要
Jina CLIP v1 は、テキストからテキスト、テキストから画像への検索タスクに優れた最初のモデルであり、マルチモーダル AI に革命をもたらしました。テキストのみのシナリオではパフォーマンスが低い従来の CLIP モデルとは異なり、私たちが提案するモデルは、223M のパラメータという非常にコンパクトなサイズを維持しながら、すべての検索の組み合わせで最先端のパフォーマンスを実現します。このモデルは、テキストと画像処理用の個別のモデルの必要性を排除し、システムの複雑さと計算オーバーヘッドを削減することで、業界の主要な課題に対処します。検索システム、推奨エンジン、またはコンテンツ分析ツールを構築するチームにとって、Jina CLIP v1 は、テキストとビジュアル コンテンツを非常に高い精度で処理するための単一の効率的なソリューションを提供します。
方法
このモデルのアーキテクチャは、調整された Jina BERT v2 テキスト エンコーダーと北京人工知能アカデミーの最先端の EVA-02 画像エンコーダーを組み合わせたもので、マルチモーダル AI 設計における大きな革新を表しています。テキスト エンコーダーは最大 12,288 トークンのシーケンスをサポートします。これは、元の CLIP の 77 トークンの制限の 100 倍以上です。一方、イメージ エンコーダーは 16 個のパッチ トークンを効率的に処理できます。トレーニング プロセスは、新しい 3 段階のアプローチに従います。まず、テキスト理解を維持しながら、インターリーブされたテキスト ペアを使用してトレーニングすることで、画像とキャプションのペアを揃えます。次に、AI が生成した画像のより長いテキスト説明を組み込みます。最後に、ハード否定テキスト トリプレットを使用して、意味識別機能を強化します。この独自のトレーニング アプローチにより、モデルは強力な視覚的理解を維持しながら、短いタイトルと詳細なテキスト説明の両方で高いパフォーマンスを維持できます。
パフォーマンス
Jina CLIP v1 は、すべてのベンチマークにおいて OpenAI のオリジナル CLIP よりも大幅な改善を実現しています。プレーンテキスト検索では、CLIP の 0.162 と比較して 165% 優れたスコア 0.429 を獲得しました。画像関連のタスクでは、一貫した改善が見られ、テキストから画像への検索は 2% (0.899) 向上し、画像からテキストへの検索は 6% (0.803) 向上し、画像から画像への検索は 12% (0.916) 向上しました。このモデルは、ゼロショット視覚分類タスクで特に優れたパフォーマンスを発揮し、特定のドメインで事前のトレーニングを行わずに画像を分類することに成功しました。テキスト検索用の MTEB、画像タスク用の CIFAR-100、クロスモーダル パフォーマンス用の Flickr8k/30k および MSCOCO Captions などの標準ベンチマークで評価すると、クロスモーダル タスクで競争力のあるパフォーマンスを維持しながら、専門的なユニモーダル モデルを一貫して上回ります。
ガイド
Jina CLIP v1 を効果的に導入するには、チームはその機能とリソース要件の両方を考慮する必要があります。このモデルは 224 x 224 ピクセルのタイルで画像を処理し、各タイルは 1,000 トークンの処理能力を消費します。最高のパフォーマンスを得るには、これらの寸法に合わせて効果的な画像前処理を実装します。このモデルは短いテキストと長いテキストの両方の処理で優れたパフォーマンスを発揮しますが、現在は英語の入力のみをサポートしています。チームはトークンの使用を慎重に検討する必要があります。テキストは 1 単語あたり約 1.1 トークンを必要としますが、画像はタイルで処理されます (たとえば、750 x 500 ピクセルの画像には 12 個のタイルが必要で、12,000 トークンを消費します)。このモデルは、Jina Embeddings API 経由で、また Apache 2.0 ライセンスの下で Hugging Face のオープンソースとして利用可能であり、柔軟な展開オプションを提供します。実稼働環境では、最適化されたインフラストラクチャ設定を提供する AWS Marketplace または Azure デプロイメント オプションの使用を検討してください。
このモデルについて言及しているブログ









