ニュース
モデル
API
keyboard_arrow_down
読者
URL を読み取ったり検索したりすると、大規模なモデルのサポートが向上します。
ベクトルモデル
世界クラスのマルチモーダル、多言語埋め込み。
並べ替え者
検索の関連性を最大化する世界クラスのニューラルレトリーバー。
MCP terminalコマンドラインarticlellms.txtsmart_toyエージェントdata_objectモデルmenu_book書類



ログイン
login
warning
このモデルは、新しいモデルでは非推奨になりました。
ベクトルモデル
Apache 2.0 ライセンス
open_in_new リリースノート

jina-clip-v1

画像と英語テキストのマルチモーダルベクトルモデル
ライセンス
Apache-2.0
発売日
calendar_month
2024-06-05
入力
image
写真
abc
文章
arrow_forward
出力
more_horiz
ベクター
モデル詳細
パラメータ: 223M
単語の長さを入力してください: 8K
画像サイズを入力してください: 224×224
出力寸法: 768
ベースモデル help_outline
open_in_new
EVA02-B-16
open_in_new
jina-embeddings-v2-base-en
訓練された言語 help_outline
1 言語
関連機種
link
jina-clip-v2
link
jina-embeddings-v3
link
jina-colbert-v2
ラベル
multimodal-embedding
image-text-alignment
english-only
zero-shot-classification
cross-modal-search
long-text-support
unified-embeddings
text-to-text
text-to-image
visual-semantic
以下の方法で入手できます
APIアマゾンクラウドマイクロソフトクラウド顔を抱きしめる
I/O 図 1

文章

jina-clip-v1

ベクター

I/O 図 2

画像

jina-clip-v1

ベクター

比較するモデルを選択してください
紙 (1)
ICML 2024
5月 30, 2024
Jina CLIP: Your CLIP Model Is Also Your Text Retriever

概要

Jina CLIP v1 は、テキストからテキスト、テキストから画像への検索タスクに優れた最初のモデルであり、マルチモーダル AI に革命をもたらしました。テキストのみのシナリオではパフォーマンスが低い従来の CLIP モデルとは異なり、私たちが提案するモデルは、223M のパラメータという非常にコンパクトなサイズを維持しながら、すべての検索の組み合わせで最先端のパフォーマンスを実現します。このモデルは、テキストと画像処理用の個別のモデルの必要性を排除し、システムの複雑さと計算オーバーヘッドを削減することで、業界の主要な課題に対処します。検索システム、推奨エンジン、またはコンテンツ分析ツールを構築するチームにとって、Jina CLIP v1 は、テキストとビジュアル コンテンツを非常に高い精度で処理するための単一の効率的なソリューションを提供します。

方法

このモデルのアーキテクチャは、調整された Jina BERT v2 テキスト エンコーダーと北京人工知能アカデミーの最先端の EVA-02 画像エンコーダーを組み合わせたもので、マルチモーダル AI 設計における大きな革新を表しています。テキスト エンコーダーは最大 12,288 トークンのシーケンスをサポートします。これは、元の CLIP の 77 トークンの制限の 100 倍以上です。一方、イメージ エンコーダーは 16 個のパッチ トークンを効率的に処理できます。トレーニング プロセスは、新しい 3 段階のアプローチに従います。まず、テキスト理解を維持しながら、インターリーブされたテキスト ペアを使用してトレーニングすることで、画像とキャプションのペアを揃えます。次に、AI が生成した画像のより長いテキスト説明を組み込みます。最後に、ハード否定テキスト トリプレットを使用して、意味識別機能を強化します。この独自のトレーニング アプローチにより、モデルは強力な視覚的理解を維持しながら、短いタイトルと詳細なテキスト説明の両方で高いパフォーマンスを維持できます。

パフォーマンス

Jina CLIP v1 は、すべてのベンチマークにおいて OpenAI のオリジナル CLIP よりも大幅な改善を実現しています。プレーンテキスト検索では、CLIP の 0.162 と比較して 165% 優れたスコア 0.429 を獲得しました。画像関連のタスクでは、一貫した改善が見られ、テキストから画像への検索は 2% (0.899) 向上し、画像からテキストへの検索は 6% (0.803) 向上し、画像から画像への検索は 12% (0.916) 向上しました。このモデルは、ゼロショット視覚分類タスクで特に優れたパフォーマンスを発揮し、特定のドメインで事前のトレーニングを行わずに画像を分類することに成功しました。テキスト検索用の MTEB、画像タスク用の CIFAR-100、クロスモーダル パフォーマンス用の Flickr8k/30k および MSCOCO Captions などの標準ベンチマークで評価すると、クロスモーダル タスクで競争力のあるパフォーマンスを維持しながら、専門的なユニモーダル モデルを一貫して上回ります。

ガイド

Jina CLIP v1 を効果的に導入するには、チームはその機能とリソース要件の両方を考慮する必要があります。このモデルは 224 x 224 ピクセルのタイルで画像を処理し、各タイルは 1,000 トークンの処理能力を消費します。最高のパフォーマンスを得るには、これらの寸法に合わせて効果的な画像前処理を実装します。このモデルは短いテキストと長いテキストの両方の処理で優れたパフォーマンスを発揮しますが、現在は英語の入力のみをサポートしています。チームはトークンの使用を慎重に検討する必要があります。テキストは 1 単語あたり約 1.1 トークンを必要としますが、画像はタイルで処理されます (たとえば、750 x 500 ピクセルの画像には 12 個のタイルが必要で、12,000 トークンを消費します)。このモデルは、Jina Embeddings API 経由で、また Apache 2.0 ライセンスの下で Hugging Face のオープンソースとして利用可能であり、柔軟な展開オプションを提供します。実稼働環境では、最適化されたインフラストラクチャ設定を提供する AWS Marketplace または Azure デプロイメント オプションの使用を検討してください。
このモデルについて言及しているブログ
6月 25, 2025 • 12 読む時間
Jina Embeddings v4:マルチモーダル多言語検索のためのユニバーサルなベクトルモデル (Embeddings)
Jina 向量模型 (Embeddings) v4 は、38 億のパラメータを持つユニバーサルな 向量模型 (Embedding) モデルであり、マルチモーダルおよび多言語の検索に対応し、シングルベクトルとマルチベクトルの 向量模型 (Embedding) 出力をサポートします。
Jina AI
Word "Embeddings" followed by a numeric or symbol representation, displayed in multiple colors on a technology-themed, colorf
4月 08, 2025 • 21 読む時間
jina-reranker-m0:多言語マルチモーダルドキュメントリランカー
視覚的なドキュメントを検索するための新しい多言語・マルチモーダルリランカー jina-reranker-m0 を紹介します。多言語の長文ドキュメントやコード検索タスクにおいて、最先端(SOTA)の性能を実現しています。
Jina AI
Modern dot matrix text display on a dark blue background, conveying a digital feel.
12月 12, 2024 • 12 読む時間
埋め込みモデルにおけるテスト時の計算リソースのスケーリング
より良い結果はコンピュート量に比例して向上します—より多くの学習、より多くの探索に。優れた事前学習モデルは大きな成果をもたらしますが、テスト時のコンピュート量を増やすことでさらなる向上が得られます。埋め込みモデルであっても、テスト時のコンピュート量をスケールさせるという新しいパラダイムを認識することが重要です。
Han Xiao
David Hockney artwork of a hand holding a rod with three colored spheres on a blue-toned background.
12月 04, 2024 • 13 読む時間
長文脈モデルが全部処理できるのに、チャンキングはまだ必要なのか?
長いコンテキストの埋め込みモデルにおける異なるチャンク分割戦略のパフォーマンスを比較し、目的に最適なアプローチを見つける方法
Michael Günther
Alex C-G
Artistic pixel art of two seagulls on colored pipes with speech bubbles; one reads "Too long?" and the other shows math equat
11月 21, 2024 • 9 読む時間
Jina CLIP v2:テキストと画像のための多言語マルチモーダル埋め込み
89言語のマルチリンガルサポート、512x512 の高解像度画像対応、および Matryoshka 表現を備えた 0.9B のマルチモーダル埋め込みモデル、Jina-CLIP v2。
Jina AI
Digital number "2" displayed in a mosaic of colorful squares against a dark background, creating a futuristic vibe.
オフィス
location_on
カリフォルニア州サニーベール
710 Lakeway Dr, Ste 200, サニーベール, カリフォルニア州 94085, アメリカ合衆国
location_on
ベルリン、ドイツ
Prinzessinnenstraße 19-20、10969 ベルリン、ドイツ
検索ベース
読者
ベクトルモデル
並べ替え者
Jina APIキーを取得する
レート制限
APIステータス
会社
私たちについて
営業担当者に問い合わせる
ニュース
インターンシッププログラム
Jinaロゴをダウンロード
open_in_new
Elasticロゴをダウンロード
open_in_new
条項
安全性
利用規約
プライバシー
Cookieを管理する
email
エラスティックジナAI © 2020-2026.