ニュース
モデル
製品
keyboard_arrow_down
読者
URL を読み取ったり検索したりすると、大規模なモデルのサポートが向上します。
ベクトルモデル
世界クラスのマルチモーダル、多言語埋め込み。
並べ替え者
検索の関連性を最大化する世界クラスのニューラルレトリーバー。
ディープサーチ
最善の答えが見つかるまで、検索し、読み、推論してください。
もっと
keyboard_arrow_down
分類子
画像とテキストのゼロショットおよび少数ショットの分類。
スライサー
長いテキストをチャンクまたはトークンに分割します。

APIドキュメント
AIプログラミングアシスタントIDEまたは大規模モデル用のコードを自動生成
open_in_new


会社
keyboard_arrow_down
私たちについて
営業担当者に問い合わせる
インターンプログラム
参加しませんか
open_in_new
ロゴをダウンロード
open_in_new
利用規約


ログイン
login
warning
このモデルは、新しいモデルでは非推奨になりました。
copyright

jina-clip-v2

テキストと画像のための多言語およびマルチモーダルベクターモデル
リリースノートarrow_forward
ライセンス
copyright
CC-BY-NC-4.0
発売日
calendar_month
2024-11-05
入力
image
写真
abc
文章
arrow_forward
出力
more_horiz
ベクター
モデル詳細
パラメータ: 865M
単語の長さを入力してください: 8K
画像サイズを入力してください: 512×512
出力寸法: 1024
言語サポート
🌍 多言語サポート
関連機種
link
jina-clip-v1
ラベル
multimodal-embedding
image-text-alignment
multilingual
large-context
instruction-tuned
masked-region-learning
production
cross-lingual-retrieval
zero-shot-classification
modality-gap-aware
以下の方法で入手できます
API商用ライセンスアマゾンクラウドマイクロソフトクラウドグーグルクラウド顔を抱きしめる
I/O 図 1
I/O 図 2
比較するモデルを選択してください
出版物 (1)
ICLR 2025
12月 12, 2024
jina-clip-v2: Multilingual Multimodal Embeddings for Text and Images

概要

Jina CLIP v2 は、89 の言語で視覚とテキストの理解のギャップを埋めることで、マルチモーダル AI に革命をもたらします。このモデルは、言語の壁に関係なく、正確な画像とテキストのマッチングを実現することで、グローバルな電子商取引、コンテンツ管理、異文化コミュニケーションにおける主要な課題に対処します。国際的に事業を拡大したり、多言語コンテンツを管理したりする企業にとって、言語ごとに個別のモデルや複雑な翻訳プロセスが不要になります。このモデルは、世界市場での製品発見や多言語デジタル資産管理など、言語の境界を越えた正確な視覚検索を必要とするシナリオで特に優れています。

方法

Jina CLIP v2 の中核となるのは、Jina XLM-RoBERTa テキスト エンコーダー (561M パラメータ) と EVA02-L14 ビジュアル エンコーダー (304M パラメータ) を組み合わせた高度なデュアル エンコーダー アーキテクチャです。テキスト エンコーダーは、696,320 トークンの大規模なコンテキスト ウィンドウを使用して 89 の言語のコンテンツを処理し、ビジュアル エンコーダーは最大 512 x 512 ピクセルの高解像度画像を処理します。このモデルは、パフォーマンスを維持しながら 1024 次元から 64 次元への動的なベクトル次元調整を可能にする革新的なマトリョーシカ表現学習を導入しています。このアーキテクチャは、独自のエンコーダーを介してテキストと画像を処理し、元のモダリティや言語に関係なく、同様の概念を調整できる共有セマンティック空間に投影します。

パフォーマンス

このモデルは、Flickr30k の画像からテキストへの検索タスクで 98.0% の精度を達成し、前モデルおよび NLLB-CLIP-SigLIP を上回り、最先端のパフォーマンスを実現しました。多言語シナリオでは、最も近い競合モデルよりもパラメータが少ないにもかかわらず、このモデルは、言語間画像検索タスクで NLLB-CLIP-SigLIP よりも 4% の改善を達成しています。モデルは、ベクトルが圧縮されても強力なパフォーマンスを維持します。サイズを 75% 削減しても、テキスト、画像、クロスモーダル タスクで 99% を超えるパフォーマンスが維持されます。包括的な多言語 MTEB ベンチマークでは、検索タスクで 69.86%、意味的類似性タスクで 67.77% を達成し、特殊なテキスト埋め込みモデルと競合します。

ガイド

最適な展開のために、ユーザーはいくつかの重要な要素を考慮する必要があります。このモデルでは、効率的な処理のために CUDA 対応のハードウェアが必要であり、メモリ要件はバッチ サイズと画像解像度に応じて変化します。 API のコストとパフォーマンスを最適化するには、処理前に画像を 512 x 512 ピクセルにサイズ変更します。大きい画像は自動的にタイル化されるため、トークンの使用量と処理時間が増加します。このモデルは、言語間で画像と説明文を一致させることに優れていますが、抽象的な概念や高度に専門化されたドメイン固有のコンテンツの処理が難しい場合があります。これは、電子商取引の製品検索、コンテンツ推奨システム、およびビジュアル検索アプリケーションには特に効果的ですが、きめ細かい視覚的詳細の分析や高度に専門化されたドメインの専門知識を必要とするタスクには適さない可能性があります。 Matryoshka を使用して特徴を表現する場合は、次元削減とパフォーマンスのトレードオフを考慮してください。64 次元のベクトルは強力なパフォーマンスを維持しますが、重要なアプリケーションではより高い次元のメリットが得られる可能性があります。
このモデルについて言及しているブログ
6月 25, 2025 • 12 読む時間
Jina Embeddings v4:マルチモーダル多言語検索のためのユニバーサルなベクトルモデル (Embeddings)
Jina 向量模型 (Embeddings) v4 は、38 億のパラメータを持つユニバーサルな 向量模型 (Embedding) モデルであり、マルチモーダルおよび多言語の検索に対応し、シングルベクトルとマルチベクトルの 向量模型 (Embedding) 出力をサポートします。
Jina AI
Word "Embeddings" followed by a numeric or symbol representation, displayed in multiple colors on a technology-themed, colorf
5月 28, 2025 • 4 読む時間
相関関係:GUI でのベクトルモデル (Embeddings) のバイブテスト
MTEBを真剣に考えているのと同じくらい、雰囲気テストも大好きです。Correlationsは、DeepSearchでの引用の検証、遅延チャンクのデバッグ、および埋め込み (Embeddings) の雰囲気テストに使用するシンプルなGUIです。今回、オープンソース化されました。
Jina AI
Technical screen showing green and yellow visual data, including charts in the lower half and a heat-map-like visualization a
5月 25, 2025 • 21 読む時間
ICLR2025で学んだこと
ICLR 2025で最も興味深い論文をいくつか集めました。TIPS、FlexPrefill、ゼロショット重排器 (Zero-Shot Rerankers)、SVD-LLM、Hymbaなどが含まれています。
Jina AI
Three people smiling on a stage at a conference with an ICLR banner visible, suggesting a warm and lively event atmosphere.
5月 25, 2025 • 8 読む時間
jina-reranker-m0 を使用したマルチモーダルドキュメントのフェアなスコアリング
テキスト類似度:0.7。画像類似度:0.5。どちらのドキュメントがより関連性が高いでしょうか?文字通り判断できません。それが、マルチモーダル検索を阻害している根本的な問題です。私たちは、統一された重排器 (Reranker) によってそれを解決します。
Nan Wang
Alex C-G
Stacked glowing green ovals on a background transitioning from black to green, with the top oval having an unusual, split sha
4月 08, 2025 • 21 読む時間
jina-reranker-m0:多言語マルチモーダルドキュメントリランカー
視覚的なドキュメントを検索するための新しい多言語・マルチモーダルリランカー jina-reranker-m0 を紹介します。多言語の長文ドキュメントやコード検索タスクにおいて、最先端(SOTA)の性能を実現しています。
Jina AI
Modern dot matrix text display on a dark blue background, conveying a digital feel.
オフィス
location_on
カリフォルニア州サニーベール
710 Lakeway Dr、Ste 200、サニーベール、CA 94085、アメリカ合衆国
location_on
ドイツ、ベルリン(本社)
Prinzessinnenstraße 19-20、10969 ベルリン、ドイツ
location_on
中国、北京
中国北京市海淀区西街48号ビル6号5階
location_on
深セン、中国
ルーム 402、4 階、福安テクノロジービル、深セン、中国
検索ベース
読者
ベクトルモデル
並べ替え者
ディープサーチ
分類子
スライサー
APIドキュメント
Jina APIキーを取得する
レート制限
APIステータス
会社
私たちについて
営業担当者に問い合わせる
ニュース
インターンプログラム
参加しませんか
open_in_new
ロゴをダウンロード
open_in_new
条項
安全性
利用規約
プライバシー
Cookieを管理する
email
Jina AI © 2020-2025.