ニュース
モデル
API
keyboard_arrow_down
読者
URL を読み取ったり検索したりすると、大規模なモデルのサポートが向上します。
ベクトルモデル
世界クラスのマルチモーダル、多言語埋め込み。
並べ替え者
検索の関連性を最大化する世界クラスのニューラルレトリーバー。
Elastic Inference Service
Elasticsearch内でJinaモデルをネイティブに実行する。
MCP terminalコマンドラインarticlellms.txtsmart_toyエージェントdata_objectモデルmenu_book書類



ログイン
login
ベクトルモデル
copyright CC BY-NC 4.0
open_in_new リリースノート

jina-clip-v2

テキストと画像のための多言語およびマルチモーダルベクターモデル
ライセンス
copyright CC-BY-NC-4.0
発売日
calendar_month
2024-11-05
入力
image
写真
abc
文章
arrow_forward
出力
more_horiz
ベクター
サポートされているロシア人形の寸法 help_outline
64
128
256
512
768
1024
モデル詳細
パラメータ: 865M
単語の長さを入力してください: 8K
画像サイズを入力してください: 512×512
出力寸法: 1024
ベースモデル help_outline
open_in_new
XLM-RoBERTa Large
訓練された言語 help_outline
32 言語
サポートされている言語 help_outline
108 言語
関連機種
link
jina-clip-v1
ラベル
multimodal-embedding
image-text-alignment
multilingual
large-context
instruction-tuned
masked-region-learning
production
cross-lingual-retrieval
zero-shot-classification
modality-gap-aware
以下の方法で入手できます
Elastic Inference ServiceAPIアマゾンクラウドマイクロソフトクラウドグーグルクラウド顔を抱きしめる
I/O 図 1

文章

jina-clip-v2

ベクター

I/O 図 2

画像

jina-clip-v2

ベクター

比較するモデルを選択してください
紙 (1)
ICLR 2025
12月 12, 2024
jina-clip-v2: Multilingual Multimodal Embeddings for Text and Images

概要

Jina CLIP v2 は、89 の言語で視覚とテキストの理解のギャップを埋めることで、マルチモーダル AI に革命をもたらします。このモデルは、言語の壁に関係なく、正確な画像とテキストのマッチングを実現することで、グローバルな電子商取引、コンテンツ管理、異文化コミュニケーションにおける主要な課題に対処します。国際的に事業を拡大したり、多言語コンテンツを管理したりする企業にとって、言語ごとに個別のモデルや複雑な翻訳プロセスが不要になります。このモデルは、世界市場での製品発見や多言語デジタル資産管理など、言語の境界を越えた正確な視覚検索を必要とするシナリオで特に優れています。

方法

Jina CLIP v2 の中核となるのは、Jina XLM-RoBERTa テキスト エンコーダー (561M パラメータ) と EVA02-L14 ビジュアル エンコーダー (304M パラメータ) を組み合わせた高度なデュアル エンコーダー アーキテクチャです。テキスト エンコーダーは、696,320 トークンの大規模なコンテキスト ウィンドウを使用して 89 の言語のコンテンツを処理し、ビジュアル エンコーダーは最大 512 x 512 ピクセルの高解像度画像を処理します。このモデルは、パフォーマンスを維持しながら 1024 次元から 64 次元への動的なベクトル次元調整を可能にする革新的なマトリョーシカ表現学習を導入しています。このアーキテクチャは、独自のエンコーダーを介してテキストと画像を処理し、元のモダリティや言語に関係なく、同様の概念を調整できる共有セマンティック空間に投影します。

パフォーマンス

このモデルは、Flickr30k の画像からテキストへの検索タスクで 98.0% の精度を達成し、前モデルおよび NLLB-CLIP-SigLIP を上回り、最先端のパフォーマンスを実現しました。多言語シナリオでは、最も近い競合モデルよりもパラメータが少ないにもかかわらず、このモデルは、言語間画像検索タスクで NLLB-CLIP-SigLIP よりも 4% の改善を達成しています。モデルは、ベクトルが圧縮されても強力なパフォーマンスを維持します。サイズを 75% 削減しても、テキスト、画像、クロスモーダル タスクで 99% を超えるパフォーマンスが維持されます。包括的な多言語 MTEB ベンチマークでは、検索タスクで 69.86%、意味的類似性タスクで 67.77% を達成し、特殊なテキスト埋め込みモデルと競合します。

ガイド

最適な展開のために、ユーザーはいくつかの重要な要素を考慮する必要があります。このモデルでは、効率的な処理のために CUDA 対応のハードウェアが必要であり、メモリ要件はバッチ サイズと画像解像度に応じて変化します。 API のコストとパフォーマンスを最適化するには、処理前に画像を 512 x 512 ピクセルにサイズ変更します。大きい画像は自動的にタイル化されるため、トークンの使用量と処理時間が増加します。このモデルは、言語間で画像と説明文を一致させることに優れていますが、抽象的な概念や高度に専門化されたドメイン固有のコンテンツの処理が難しい場合があります。これは、電子商取引の製品検索、コンテンツ推奨システム、およびビジュアル検索アプリケーションには特に効果的ですが、きめ細かい視覚的詳細の分析や高度に専門化されたドメインの専門知識を必要とするタスクには適さない可能性があります。 Matryoshka を使用して特徴を表現する場合は、次元削減とパフォーマンスのトレードオフを考慮してください。64 次元のベクトルは強力なパフォーマンスを維持しますが、重要なアプリケーションではより高い次元のメリットが得られる可能性があります。
このモデルについて言及しているブログ
7月 31, 2025 • 12 読む時間
画像解像度がビジュアルドキュメント検索に与える影響
画像の解像度は、視覚的に豊富なドキュメントの 向量模型 を作成する上で非常に重要です。解像度が小さすぎると、モデルは重要な詳細を見逃し、大きすぎると、パーツを関連付けることができません。
Maximilian Werk
Michael Günther
Scott Martens
Abstract composition with a dark background featuring a flower-like design, radiant eye-like feature, rainbow-colored curved
7月 25, 2025 • 8 読む時間
JinaVDR:20言語で95のタスクを網羅した新しいVisual Document Retrievalベンチマーク
JinaVDRは、視覚的なドキュメント検索のための新しいベンチマークであり、20言語にわたる95のタスクを網羅しています。近日中にMTEBで公開予定です。
Maximilian Werk
Alex C-G
Black-and-white design for "Jinavor Benchmark" with bold text. Below, "Visual Docs: 95 Tasks: 20 Languages" appears; an abstr
6月 25, 2025 • 12 読む時間
Jina Embeddings v4:マルチモーダル多言語検索のためのユニバーサルなベクトルモデル (Embeddings)
Jina 向量模型 (Embeddings) v4 は、38 億のパラメータを持つユニバーサルな 向量模型 (Embedding) モデルであり、マルチモーダルおよび多言語の検索に対応し、シングルベクトルとマルチベクトルの 向量模型 (Embedding) 出力をサポートします。
Jina AI
Word "Embeddings" followed by a numeric or symbol representation, displayed in multiple colors on a technology-themed, colorf
5月 28, 2025 • 4 読む時間
相関関係:GUI でのベクトルモデル (Embeddings) のバイブテスト
MTEBを真剣に考えているのと同じくらい、雰囲気テストも大好きです。Correlationsは、DeepSearchでの引用の検証、遅延チャンクのデバッグ、および埋め込み (Embeddings) の雰囲気テストに使用するシンプルなGUIです。今回、オープンソース化されました。
Jina AI
Technical screen showing green and yellow visual data, including charts in the lower half and a heat-map-like visualization a
5月 25, 2025 • 21 読む時間
ICLR2025で学んだこと
ICLR 2025で最も興味深い論文をいくつか集めました。TIPS、FlexPrefill、ゼロショット重排器 (Zero-Shot Rerankers)、SVD-LLM、Hymbaなどが含まれています。
Jina AI
Three people smiling on a stage at a conference with an ICLR banner visible, suggesting a warm and lively event atmosphere.
検索ベース
読者
ベクトルモデル
並べ替え者
Elastic Inference Service
open_in_new
Jina APIキーを取得する
レート制限
APIステータス
会社
私たちについて
営業担当者に問い合わせる
ニュース
インターンシッププログラム
Jinaロゴをダウンロード
open_in_new
Elasticロゴをダウンロード
open_in_new
条項
安全性
利用規約
プライバシー
Cookieを管理する
email
Elastic © 2020-2026.