ニュース
モデル
製品
keyboard_arrow_down
読者
URL を読み取ったり検索したりすると、大規模なモデルのサポートが向上します。
ベクトルモデル
世界クラスのマルチモーダル、多言語埋め込み。
並べ替え者
検索の関連性を最大化する世界クラスのニューラルレトリーバー。
ディープサーチ
最善の答えが見つかるまで、検索し、読み、推論してください。
もっと
keyboard_arrow_down
分類子
画像とテキストのゼロショットおよび少数ショットの分類。
スライサー
長いテキストをチャンクまたはトークンに分割します。

APIドキュメント
AIプログラミングアシスタントIDEまたは大規模モデル用のコードを自動生成
open_in_new


会社
keyboard_arrow_down
私たちについて
営業担当者に問い合わせる
インターンプログラム
参加しませんか
open_in_new
ロゴをダウンロード
open_in_new
利用規約


ログイン
login
新しいアーキテクチャ
はじめに
評価
結論
star
選択
プレスリリース
4月 08, 2025

jina-reranker-m0:多言語マルチモーダルドキュメントリランカー

視覚的なドキュメントを検索するための新しい多言語・マルチモーダルリランカー jina-reranker-m0 を紹介します。多言語の長文ドキュメントやコード検索タスクにおいて、最先端(SOTA)の性能を実現しています。
Jina AI
Jina AI • 20 読む時間
jinaai/jina-reranker-m0 · Hugging Face
オープンソースとオープンサイエンスを通じて、人工知能を進歩させ、民主化する旅を続けています。

本日、jina-reranker-m0をリリースします。これは、**複数の言語にわたる視覚的文書のランキング**のための新しいマルチリンガル・マルチモーダルリランカーモデルです。テキスト、図表、表、インフォグラフィックス、さまざまなレイアウトを含む視覚的に豊かな文書画像のコレクションとともにクエリを受け付け、29言語以上の複数のドメインにわたって処理します。入力クエリに対する関連性順に文書のランク付けリストを出力します。jina-reranker-v2-base-multilingualと比較して、jina-reranker-m0は多言語コンテンツ、長文書、コード検索タスクにおけるテキストリランキングも改善しています。

ViDoRe、MBEIR、Winoground の視覚的検索ベンチマークにおけるjina-reranker-m0のパフォーマンスは、複数のドメインと言語にわたる多様なマルチモーダル検索タスクにおける能力を示しています。各ドットは、異なるタイプ/タスクの視覚的文書のパフォーマンススコアを表しています。箱ひげ図はこれらのスコアの分布を示し、ハイライトされた数字は平均(平均)パフォーマンスを示しています。完全なベンチマーク結果については、この投稿の付録を参照してください。
この箱ひげ図は、4つのテキストのみのリランキングベンチマークにおけるjina-reranker-m0のパフォーマンスを示しています。各ベンチマークには、箱ひげ図内の個々のドットで表される複数のデータセット、言語、またはタスクが含まれる場合があります。箱ひげ図はこれらのスコアの分布を示し、ハイライトされた数字は平均(平均)パフォーマンスを示しています。ほとんどのベンチマークはNDCG@10をパフォーマンス指標として使用していますが、MKQAはrecall@10を使用しています。これは、MKQAのアノテーションデータがNDCGの計算をサポートしていないためです(公式評価ではヒューリスティックを通じて文書の関連性を判断するrecallを使用)。完全なベンチマーク結果は、この投稿の付録で確認できます。

tag新しいアーキテクチャ

jina-reranker-m0のアーキテクチャは Qwen2-VL-2B をベースに構築され、21億のパラメータで構成されています。このモデルは、ペアワイズ比較を使用してクエリに関連する視覚的要素とテキスト要素の両方を評価することで、効率的に文書をランク付けします。

jina-reranker-v2-base-multilingualとは異なり、jina-reranker-m0は従来のクロスエンコーダーアーキテクチャからデコーダーのみのビジョン言語モデルに移行しました。事前学習済みの Qwen2-VL のビジョンエンコーダーとプロジェクターを活用し、LoRA で LLM を微調整し、クエリと文書の関連性を測定するランキングロジットを生成する MLP を後学習しました。これにより、ランキングタスクに最適化された判別モデルが実現しました。

jina-reranker-m0 jina-reranker-v2
アーキテクチャ Vision Language Model Cross-Encoder
ベースモデル Qwen2-VL-2B Jina-XLM-RoBERTa
パラメータ数 2.4 B 278 M
最大コンテキスト長(クエリ + 文書) 10,240 8,192
最大画像パッチ数(動的解像度) 768 × 28 × 28 ❌
多言語サポート ✅ ✅
サポートされるタスク Text2Text, Text2Image, Image2Text, Text2Mixed Text2Text

この新しいアーキテクチャにより、jina-reranker-m0は最大32Kトークンを処理でき、視覚的入力とテキスト入力をシームレスに組み合わせることができます。モデルは、最小56×56ピクセルから4K解像度までの画像をサポートしています。画像を処理する際、ViTとプロジェクターは隣接する2×2トークンを単一の視覚トークンにまとめてLLM入力とします。<|vision_start|>や<|vision_end|>などの特殊トークンが視覚トークンの境界を明確にマークし、言語モデルが視覚情報を適切に処理し、視覚的要素とテキスト要素の両方を統合した高度なマルチモーダル推論を実行できるようにします。

このアーキテクチャはまた、jina-clip-v1やjina-clip-v2のような以前のモデルを悩ませていたモダリティギャップの問題も効果的に解決します。以前は、表現空間において画像は他の画像の近くに、テキストは他のテキストの近くにクラスター化され、断絶が生じていました。これは、候補文書に画像とテキストの両方が含まれている場合、テキストクエリを使用して画像を検索することが問題になることを意味していました。jina-reranker-m0では、このギャップを気にすることなく画像と文書を一緒にランク付けでき、真に統合されたマルチモーダル検索体験を実現できます。

マルチモーダル検索システムにおいて、「モダリティギャップ」とは、モデルがテキスト間の類似性とテキストと画像の類似性をスコア化する方法の違いを指します。左の画像(jina-clip-v2)を見ると、2つの分布に明確な分離が見られます:テキスト間の類似性分布(赤)は0.35付近でピークを示し、テキストと画像の類似性(青)は0.65-0.7付近でピークを示します。この大きな分離は、大きなモダリティギャップを示しています - モデルはテキスト間とテキストと画像のペアを根本的に異なる範囲でスコア化しています。これにより、モダリティ間でスコアを直接比較することが難しくなります。モダリティギャップのないシステムでは、分布が大きく重なり合い、モデルがモダリティの種類ではなく、純粋に関連性に基づいて両方のタイプのペアを同様の範囲でスコア化することが期待されます。

私たちのトレーニングは最大10Kの入力トークンに制限され、画像あたり最大768トークン(<|vision_start|>と<|vision_end|>マーカーの間)までとなっていることに注意する必要があります。さらに、image-to-image、image-to-multimodal、またはtext-to-multimodalリランキングタスクについては特別なトレーニングを行っていません。ここでの「マルチモーダル」とは、入力に画像とテキストのトークンの両方を含む単一の文書を指します。クエリと文書の両方における画像とテキストトークンのすべての可能な組み合わせを見ると、jina-reranker-m0がサポートするタスクの全範囲を以下の表にまとめることができます。

jina-reranker-m0 は、リランキングのために幅広いクエリとドキュメントの入力の組み合わせをサポートしています。広範な訓練により、テキストからテキスト、テキストから画像、画像からテキスト、そしてテキストから混合単一モーダルタスクにおいて最先端の性能を達成しています。このモデルは、特に訓練していない他の入力の組み合わせもゼロショット方式で処理できます - アーキテクチャはこれらのトークンの組み合わせに対応していますが、これらのタスクに対して特別な訓練は行っていません。

テストにおいて、モデルが未訓練のランキングタスクにも対応できることを示唆する証拠が見つかりましたが、これらの分野での有効性は、モデルのゼロショット転移能力や意図しない訓練の副次的効果の結果として見なすべきです。これらのタスクに対するモデルの性能について本格的な評価は行っておらず、今後の研究でこれらの能力をより詳しく探究する予定です。

tagはじめに

tagAPI 経由

以下のコードは、クエリ "small language model data extraction" と画像およびテキストドキュメントのコレクションとの間の関連性スコアを計算する方法を示しています。テキスト文字列、base64 エンコードされた画像、または画像 URL を渡すことができます。新規ユーザーは 100 万トークンの無料枠付きの Jina API キーを取得できます。API では画像をクエリとして使用することはできませんが、Hugging Face Transformers ライブラリを通じてモデルにアクセスする場合は、画像をクエリとして使用できます。

curl -X POST \
  https://api.jina.ai/v1/rerank \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer JINA_API_KEY" \
  -d '{
  "model": "jina-reranker-m0",
  "query": "small language model data extraction",
  "documents": [
    {
      "image": "https://raw.githubusercontent.com/jina-ai/multimodal-reranker-test/main/handelsblatt-preview.png"
    },
    {
      "image": "https://raw.githubusercontent.com/jina-ai/multimodal-reranker-test/main/paper-11.png"
    },
    {
      "image": "https://raw.githubusercontent.com/jina-ai/multimodal-reranker-test/main/wired-preview.png"
    },
    {
      "text": "We present ReaderLM-v2, a compact 1.5 billion parameter language model designed for efficient web content extraction. Our model processes documents up to 512K tokens, transforming messy HTML into clean Markdown or JSON formats with high accuracy -- making it an ideal tool for grounding large language models. The models effectiveness results from two key innovations: (1) a three-stage data synthesis pipeline that generates high quality, diverse training data by iteratively drafting, refining, and critiquing web content extraction; and (2) a unified training framework combining continuous pre-training with multi-objective optimization. Intensive evaluation demonstrates that ReaderLM-v2 outperforms GPT-4o-2024-08-06 and other larger models by 15-20% on carefully curated benchmarks, particularly excelling at documents exceeding 100K tokens, while maintaining significantly lower computational requirements."
    },
    {
      "image": "https://jina.ai/blog-banner/using-deepseek-r1-reasoning-model-in-deepsearch.webp"
    },
    {
      "text": "数据提取么?为什么不用正则啊,你用正则不就全解决了么?"
    },
    {
      "text": "During the California Gold Rush, some merchants made more money selling supplies to miners than the miners made finding gold."
    },
    {
      "text": "Die wichtigsten Beiträge unserer Arbeit sind zweifach: Erstens führen wir eine neuartige dreistufige Datensynthese-Pipeline namens Draft-Refine-Critique ein, die durch iterative Verfeinerung hochwertige Trainingsdaten generiert; und zweitens schlagen wir eine umfassende Trainingsstrategie vor, die kontinuierliches Vortraining zur Längenerweiterung, überwachtes Feintuning mit spezialisierten Kontrollpunkten, direkte Präferenzoptimierung (DPO) und iteratives Self-Play-Tuning kombiniert. Um die weitere Forschung und Anwendung der strukturierten Inhaltsextraktion zu erleichtern, ist das Modell auf Hugging Face öffentlich verfügbar."
    }
  ],
  "return_documents": false
}'

以下が応答です。最初の結果 index=1 は、ReaderLM-v2 の論文のスクリーンショットに対応しています。

{"model":"jina-reranker-m0","usage":{"total_tokens":2829},"results":[{"index":1,"relevance_score":0.9587112551898949},{"index":3,"relevance_score":0.9337408271911014},{"index":7,"relevance_score":0.8922925217195924},{"index":2,"relevance_score":0.8891905997562045},{"index":0,"relevance_score":0.8827516945848907},{"index":4,"relevance_score":0.8701035914834407},{"index":6,"relevance_score":0.8676828987527296},{"index":5,"relevance_score":0.8455347349164652}]}

tagCSP マーケットプレイス経由

jina-reranker-m0 は間もなく AWS、Azure、GCP で直接利用可能になり、それぞれのプラットフォームで表示される価格で提供されます。

tagHuggingFace 経由

当社の Hugging Face ページからローカルでモデルを使用することもできます。その使用方法を示す Google Colab ノートブックを用意しています。Web API と比較して、ローカルでモデルを使用する場合、画像をクエリとして使用したりマルチモーダルドキュメントを扱ったりするなど、より高い柔軟性が得られます。

Google Colab

tag評価

[public]-jina-reranker-m0-evaluation-results
Google Docs

完全な評価結果はこの Google スプレッドシートで確認できます。

tagBEIR(テキストからテキスト、英語のみ)

BEIR: A Heterogenous Benchmark for Zero-shot Evaluation of Information Retrieval Models
Existing neural information retrieval (IR) models have often been studied in homogeneous and narrow settings, which has considerably limited insights into their out-of-distribution (OOD) generalization capabilities. To address this, and to facilitate researchers to broadly evaluate the effectiveness of their models, we introduce Benchmarking-IR (BEIR), a robust and heterogeneous evaluation benchmark for information retrieval. We leverage a careful selection of 18 publicly available datasets from diverse text retrieval tasks and domains and evaluate 10 state-of-the-art retrieval systems including lexical, sparse, dense, late-interaction and re-ranking architectures on the BEIR benchmark. Our results show BM25 is a robust baseline and re-ranking and late-interaction-based models on average achieve the best zero-shot performances, however, at high computational costs. In contrast, dense and sparse-retrieval models are computationally more efficient but often underperform other approaches, highlighting the considerable room for improvement in their generalization capabilities. We hope this framework allows us to better evaluate and understand existing retrieval systems, and contributes to accelerating progress towards better robust and generalizable systems in the future. BEIR is publicly available at https://github.com/UKPLab/beir.
arXiv.orgNandan Thakur

BEIR は、IR モデルの汎用性と堅牢性を評価するために設計された、異種の情報検索ベンチマークです。さまざまなドメインからの多様なデータセットを含み、ゼロショット評価に焦点を当てています。NDCG、Recall@K、MRR などの標準化された評価指標が使用されています。

Model AVG (NDCG@10) TREC-COVID NFCorpus NQ HotpotQA FiQA ArguAna Touche-2020 DBPedia SCIDOCS FEVER Climate-FEVER SciFact Quora
jina-reranker-m0 58.95 84.17 41.03 72.25 76.99 51.62 40.69 31.79 49.34 22.91 91.14 36.42 79.94 88.01
jina-embeddings-v3 (1024 tokens) 55.81 77.81 36.65 64.31 64.63 47.47 54.31 26.55 41.07 19.91 89.00 42.33 72.4 89.06
bge-reranker-v2-m3 56.51 82.19 34.33 69.52 77.89 45.45 36.21 33.12 46.72 17.79 91.03 38.69 72.64 89.10
jina-reranker-v2-multilingual 57.06 80.53 37.17 67.39 76.17 46.48 39.28 32.35 47.81 20.03 93.02 37.17 76.50 87.83

tagMIRACL(Text2Text、多言語、18 言語)

Making a MIRACL: 言語の連続体にわたる多言語情報検索
MIRACL(言語の連続体にわたる多言語情報検索)は、WSDM 2023 Cup チャレンジのために構築した多言語データセットで、世界中で 30 億人以上のネイティブスピーカーを包含する 18 の異なる言語にわたるアドホック検索に焦点を当てています。これらの言語は多様な類型を持ち、多くの異なる言語族に由来し、研究者が通常ハイリソースおよびローリソース言語と特徴付ける、様々なリソース量に関連付けられています。このデータセットは、クエリとコーパスが同じ言語である単一言語検索のためのモデルの作成と評価をサポートするように設計されています。合計で、これら 18 言語の Wikipedia 上の約 77,000 のクエリに対して 700,000 以上の高品質な関連性判断を収集しており、すべての評価は私たちのチームが雇用したネイティブスピーカーによって実施されています。私たちの目標は、言語の連続体にわたる検索を改善する研究を促進し、特に従来十分なサービスを受けていなかった世界中の多様な人々の情報アクセス能力を向上させることです。この概要論文では、コミュニティと共有するデータセットとベースラインについて説明しています。MIRACL のウェブサイトは http://miracl.ai/ で公開されています。
arXiv.orgXinyu Zhang

MIRACL は、18 の言語に対応した大規模な多言語 ad hoc 情報検索データセットです。30 億人以上のネイティブスピーカーをカバーし、人手による詳細なアノテーションを特徴としています。主に単一言語での検索タスクに焦点を当てています。

Model AVG (NDCG@10) ar bn en es fa fi fr hi id ja ko ru sw te th zh de yo
jina-reranker-m0 66.75 79.78 78.01 59.21 53.56 58.80 78.00 56.66 62.83 54.92 66.51 72.86 67.26 59.04 70.19 80.37 64.51 58.50 80.44
jina-embeddings-v3 (8192 tokens) 58.90 71.53 69.86 48.37 46.91 54.13 71.15 50.90 55.05 47.83 56.46 64.76 55.63 54.07 70.48 73.56 55.29 49.18 65.01
bge-reranker-v2-m3 69.32 80.51 81.85 57.67 57.64 61.92 80.38 59.60 67.66 58.86 67.37 75.14 67.61 68.92 76.69 82.29 64.46 58.32 80.85
jina-reranker-v2-multilingual 63.65 72.50 79.42 46.66 51.54 57.81 73.05 50.90 60.94 56.66 59.15 72.60 53.43 66.47 74.62 77.75 62.49 53.06 76.69

tagMLDR(Text2Text、多言語長文ドキュメント、13 言語)

BGE M3-Embedding:自己知識蒸留を通じた多言語・多機能・多粒度テキスト埋め込み
本論文では、多言語性、多機能性、多粒度性を特徴とする新しい埋め込みモデル M3-Embedding を提案します。100 以上の言語に対応し、多言語および言語横断検索タスクにおいて最先端の性能を実現します。密ベクトル検索、マルチベクトル検索、スパース検索という 3 つの一般的な検索機能を同時に実行でき、実世界の IR アプリケーションのための統一モデル基盤を提供します。短文から最大 8192 トークンの長文まで、異なる粒度の入力を処理することができます。M3-Embedding の効果的な学習には、以下の技術的な貢献が含まれます。異なる検索機能からの関連性スコアを教師信号として統合し、学習の質を向上させる新しい自己知識蒸留アプローチを提案します。また、バッチ戦略を最適化し、大きなバッチサイズと高い学習スループットを実現することで、埋め込みの識別性を確保します。私たちの知る限り、M3-Embedding はこのような強力な汎用性を実現した最初の埋め込みモデルです。モデルとコードは https://github.com/FlagOpen/FlagEmbedding で公開される予定です。
arXiv.orgJianlv Chen

MLDR は長文検索用に特別に設計された多言語データセットで、13 の言語をカバーしています。GPT-3.5 を使用して文書に対する質問を生成しています。このデータセットは Wikipedia、Wudao、mC4 を基に構築されています。

Model AVG (NDCG@10) ar de en es fr hi it ja ko pt ru th zh
jina-reranker-m0 59.83 55.86 51.25 54.67 87.63 82.59 32.76 73.25 58.93 55.73 86.08 66.73 39.17 33.14
jina-embeddings-v3 (8192 tokens) 39.71 28.44 31.57 29.07 62.08 59.79 25.47 53.72 38.36 32.37 63.26 49.65 25.15 17.26
bge-reranker-v2-m3 53.53 49.19 45.39 43.92 74.57 68.67 44.75 62.79 49.27 48.24 76.45 62.84 38.82 31.02
jina-reranker-v2-multilingual 59.50 51.96 50.13 46.85 86.34 82.25 49.50 69.00 59.07 52.19 85.26 68.06 38.73 34.15

tagMKQA(Text2Text、多言語質問応答、24 言語、中国語は 3 つのバリアント)

MKQA: A Linguistically Diverse Benchmark for Multilingual Open Domain Question Answering
言語横断モデリングの進歩は、挑戦的で現実的かつ多様な評価セットに依存します。私たちは Multilingual Knowledge Questions and Answers(MKQA)を紹介します。これは 26 の類型学的に多様な言語にわたって整合された 1 万件の質問回答ペア(合計 26 万件の質問回答ペア)からなるオープンドメイン質問応答評価セットです。回答は厳密に管理された言語非依存のデータ表現に基づいており、言語間で結果を比較でき、特定の言語に依存する文章に左右されません。26 言語をカバーするこのデータセットは、質問応答の評価において現在最も広範な言語をサポートしています。Natural Questions で訓練された生成型および抽出型質問応答の最新手法とベースラインについて、ゼロショットと翻訳の設定でベンチマークを行いました。結果は、このデータセットが英語でも難しいものの、特に低リソース言語において課題があることを示しています。
arXiv.orgShayne Longpre

MKQA は、オープンドメインの質問応答評価セットで、26 の類型的に異なる言語にわたって整合された 10,000 組の質問と回答のペアで構成されています。質問と回答のペアは Google Natural Questions からサンプリングされています。

Model AVG (recall@10) ar da de es en fi fr he hu it ja km ko ms nl no pl pt ru sv th tr vi zh_cn zh_hk zh_tw
jina-reranker-m0 68.19 63.88 70.57 70.52 71.26 73.47 64.10 71.11 63.68 63.23 70.30 69.13 50.43 64.30 70.78 71.73 70.25 69.72 70.57 70.78 70.69 69.80 67.90 69.68 69.12 68.23 67.79
jina-embeddings-v3 (8192 tokens) 65.63 59.00 69.12 68.27 68.15 71.14 65.66 68.30 59.51 63.23 68.30 64.36 56.13 58.98 68.30 69.53 68.65 67.26 67.93 67.06 68.68 66.32 66.97 66.87 63.38 63.59 61.55
bge-reranker-v2-m3 67.88 63.09 70.15 68.91 68.92 73.00 68.71 68.71 70.27 64.00 68.15 68.47 60.43 63.95 68.80 70.77 69.10 67.44 67.40 69.77 70.03 69.68 66.04 68.29 67.84 66.70 66.34
jina-reranker-v2-multilingual 67.90 63.88 70.31 70.09 70.51 73.09 67.50 70.38 63.00 64.59 69.90 67.34 57.79 62.14 70.36 71.58 69.51 68.61 70.13 70.07 70.15 68.80 68.02 69.39 67.23 65.77 65.37

tagCoIR(Text2Text、コード情報検索)

CoIR: コード情報検索モデルのための包括的ベンチマーク
情報検索(IR)が様々な NLP タスクで大きな成功を収めているにもかかわらず、ほとんどの IR システムは主に自然言語でのクエリとコーパスを扱い、コード検索の領域を軽視しています。コード検索は極めて重要でありながら十分に探求されておらず、既存の手法やベンチマークは様々な領域やタスクにおけるコードの多様性を適切に表現できていません。この課題に対応するため、私たちはコード検索能力を評価するために特別に設計された堅牢で包括的なベンチマーク COIR(Code Information Retrieval Benchmark)を提案します。COIR は 7 つの異なる領域にわたる 8 つの特徴的な検索タスクを含む、10 の厳選されたコードデータセットで構成されています。私たちはまず、COIR の構築とその多様なデータセット構成について議論します。さらに、COIR を使用して 9 つの広く使用されている検索モデルを評価し、最先端のシステムでさえもコード検索タスクの実行に重大な困難を抱えていることを明らかにしました。既存の研究ワークフローへの容易な導入と統合を促進するため、COIR は pip を通じて簡単にインストールできるユーザーフレンドリーな Python フレームワークとして開発されています。MTEB や BEIR などの一般的なベンチマークと同じデータスキーマを共有し、ベンチマーク間のシームレスな相互評価を可能にします。COIR を通じて、私たちはコード検索領域の研究を活性化し、コード検索システムのさらなる開発と探求を促進する多目的なベンチマーキングツールを提供することを目指しています https://github.com/CoIR-team/coir
arXiv.orgXiangyang Li

CoIR は、コード検索におけるモデルの能力を評価するために設計された包括的なベンチマークです。7 つの多様なドメインにわたる 8 つの検索タスクをカバーする 10 のキュレーションされたコードデータセットが含まれています。このベンチマーク用の Python フレームワークが提供されています。

Model Name Avg (NDCG@10) Text-to-Code Code-to-Text Code-to-Code Hybrid Code
Apps CosQA SQL CSN CSN-CCR CodeTransOcean StackOver
Flow
CodeFeedBack
AVG python javascript go ruby java php AVG python javascript go ruby java php -Contest -DL -MT -ST
jina-reranker-m0 63.55 26.21 37.75 57.92 80.76 98.37 71.16 86.14 72.74 79.02 77.14 74.57 81.66 77.92 68.71 75.44 77.54 66.13 79.79 31.89 90.41 72.25 83.95
jina-embeddings-v2-base-code
(top 100)
56.90 16.34 41.72 49.79 83.95 94.71 76.35 87.39 78.23 82.69 84.35 59.65 68.23 62.31 49.15 65.40 63.89 48.92 79.20 30.35 89.42 49.62 68.93
bge-reranker-v2-m3 35.97 8.33 30.06 50.63 49.26 67.62 39.55 58.11 41.37 44.77 44.13 40.81 42.57 42.75 38.04 38.04 41.73 41.73 34.93 5.09 60.12 16.44 64.05
jina-reranker-v2-multilingual 56.14 21.90 37.26 53.56 78.88 97.83 67.43 84.64 68.93 75.73 78.71 63.59 72.62 67.80 55.07 67.25 64.25 54.54 73.67 25.74 91.24 42.03 73.59

tagViDoRe(Text2Image、ビジュアルドキュメント検索ベンチマーク)

ColPali:ビジョン言語モデルによる効率的なドキュメント検索
ドキュメントは、テキストだけでなく、図表、ページレイアウト、表、フォントなどを通じて情報を伝える視覚的に豊かな構造です。現代の検索システムは、主にドキュメントのインデックス作成のために、ドキュメントページから抽出したテキスト情報に依存しています(多くの場合、長くて脆弱なプロセスを経て)。そのため、重要な視覚的手がかりを効率的に活用することが困難です。これにより、Retrieval Augmented Generation(RAG)などの多くの実用的なドキュメント検索アプリケーションにおいて、その能力が制限されています。視覚的に豊かなドキュメント検索における現行システムのベンチマークとして、複数のドメイン、言語、実用的な設定にまたがる様々なページレベルの検索タスクで構成された ViDoRe ベンチマークを導入します。現代のシステムが持つ本質的な複雑さとパフォーマンスの欠点は、新しいコンセプトを動機付けています。それは、ドキュメントページの画像を直接埋め込むことによってドキュメント検索を行うことです。私たちは、ドキュメントページの画像から高品質なマルチベクトル埋め込みを生成するように訓練された Vision Language Model、ColPali をリリースします。後期インタラクション・マッチングメカニズムと組み合わせることで、ColPali は現代のドキュメント検索パイプラインを大きく上回るパフォーマンスを発揮し、かつ大幅にシンプルで高速、エンドツーエンドで訓練可能です。モデル、データ、コード、ベンチマークはオープンライセンスの下で https://hf.co/vidore にて公開されています。
arXiv.orgManuel Faysse

ViDoRe は、ビジュアル特徴を使用してクエリを関連文書にマッチングする能力を評価するためのベンチマークです。複数のドメインと言語にわたるページレベルの検索タスクをカバーしています。このベンチマークは文書のビジュアル要素に焦点を当てています。

Model Name AVG
(NDCG@5)
TAT-DQA Shift
Project
Artificial
Intelligence
Government
Reports
ArxivQA DocVQA Healthcare
Industry
InfoVQA Energy TabFQuad
jina-reranker-m0 91.02 81.83 93.22 99.63 97.59 89.82 62.58 99.26 92.88 96.06 97.32
MrLight/dse-qwen2-2b-mr1-v1 84.48 66.64 79.39 96.45 95.30 84.53 55.47 96.85 86.39 91.80 92.03
MonoQwen2-VL-v0.1 87.64 79.50 76.38 98.39 93.63 89.50 57.47 98.39 92.12 95.29 95.75

tagM-BEIR(Text2Image、Image2Text、教示型検索のマルチモーダルベンチマーク)

UniIR: Training and Benchmarking Universal Multimodal Information Retrievers
既存の情報検索(IR)モデルは、均一なフォーマットを前提としており、テキストによる画像検索、見出し画像のニュース記事検索、クエリ画像による類似写真の検索など、多様なユーザーニーズへの適用が制限されています。このような異なる情報検索の要求に対応するため、私たちはモダリティ間の8つの異なる検索タスクを処理できる統一的な指示型マルチモーダル検索システム UniIR を導入しました。10の多様なマルチモーダル IR データセットで共同訓練された単一の検索システムである UniIR は、ユーザーの指示を解釈して様々な検索タスクを実行し、既存のデータセットにおいて堅牢な性能を示し、新しいタスクへのゼロショット汎化を実現します。私たちの実験は、マルチタスク学習と指示チューニングが UniIR の汎化能力の鍵であることを示しています。さらに、ユニバーサルなマルチモーダル情報検索の評価を標準化するため、包括的な結果を含む M-BEIR というマルチモーダル検索ベンチマークを構築しました。
arXiv.orgCong Wei

M-BEIR は、マルチモーダル検索モデルのトレーニングと評価のために設計された包括的な大規模検索ベンチマークです。様々な分野とソースから8つのマルチモーダル検索タスクと10のデータセットで構成されています。このベンチマークは指示に従う検索に焦点を当てています。

Model MBEIR t2i VisualNews
Recall@5
MBEIR t2i MSCOCO
Recall@5
MBEIR t2i Fashion200K
Recall@10
MBEIR i2t VisualNews
Recall@5
MBEIR i2t MSCOCO
Recall@5
MBEIR i2t Fashion200K
Recall@10
jina-reranker-m0 23.89 72.19 9.79 17.61 41.21 11.56
jinaai/jina-clip-v2 15.42 52.28 7.03 11.63 28.80 8.78
MonoQwen2-VL-v0.1 22.74 71.29 10.00 15.08 42.24 11.25

tagWinoground(Text2Text、Text2Image)

Winoground: Probing Vision and Language Models for Visio-Linguistic Compositionality
ビジョンと言語モデルの視覚言語的な構成推論能力を評価するための新しいタスクとデータセット「Winoground」を提案します。2つの画像と2つのキャプションが与えられ、それらを正しくマッチングすることが目標ですが、重要なのは、両方のキャプションが完全に同じ単語セットを異なる順序で含んでいることです。このデータセットは専門家のアノテーターによって慎重に手作業で作成され、モデルのパフォーマンスを分析するための豊富な細かいタグが付けられています。私たちは、最先端のビジョンと言語モデルを幅広くテストしましたが、驚くべきことに、どのモデルもチャンスレベルをほとんど超えていませんでした。明らかに、これらのモデルは私たちが期待していたほど視覚言語的な構成推論が得意ではありません。将来の研究がこれらのモデルの欠点をどのように軽減できるかについての洞察を得るため、私たちは広範な分析を実施しました。Winoground が最先端技術を進歩させ、この分野のさらなる発展を促進するための有用な評価セットとして機能することを目指しています。データセットは https://huggingface.co/datasets/facebook/winoground で利用可能です。
arXiv.orgTristan Thrush

Winoground は、視覚言語モデルの視覚言語的な構成推論能力を評価するための新しいタスクとデータセットです。同一の単語内容を持つ双子のキャプションを使用し、対照的な画像とキャプションのペアを採用しています。焦点は構成的推論に当てられています。

Model Text Image Group Avg
jina-reranker-m0 57.00 40.75 34.00 43.92
MrLight/dse-qwen2-2b-mrl-v1 7.50 9.25 1.75 6.17
MonoQwen2-VL-v0.1 52.00 36.25 31.50 39.92

Winoground は、3つの主要な指標を使用して視覚言語モデルを評価します:Text Score、Image Score、Group Score です。Text Score はモデルがキャプションを画像に正しくマッチングできるかを測定し、Image Score はキャプションに対して正しい画像を選択できるかを評価します。最も厳密な指標である Group Score は、すべてのキャプションと画像の関係を正しく識別することを要求します。スコアは精度を示すパーセンテージで、高いほど推論能力が優れていることを示します。

tag結論

jina-reranker-m0 は、テキストと視覚のモダリティを単一のデコーダーオンリーモデルに統合する私たちの最初の試みです。この新しいアーキテクチャには、jina-clip-v2、jina-embeddings-v3、jina-reranker-v2-base-multilingual、jina-embeddings-v2-base-code などの以前のエンコーダーオンリー検索モデルから学んだ教訓が組み込まれています。

新しいモデルは、テキストから画像へのリランキングや視覚的文書のリランキングなどのマルチモーダル検索タスクの機能を解放するだけでなく、テキストからテキスト、テキストからコードへのリランキングタスクにおいて jina-reranker-v2-base-multilingual と比較して改善されたパフォーマンスを示しています。このマルチモーダルな性質を強調するため、この新しいモデルシリーズを「m シリーズ」と名付けました。

jina-reranker-m0 と jina-reranker-v2-base-multilingual を比較する際、m シリーズの目標は、専用のテキストオンリーモデルと同等のレベルでテキストオンリータスクのパフォーマンスを向上させながら、マルチモダリティを実現することです。テキストオンリータスクでのパフォーマンス向上が限定的に見える場合に、8倍大きいモデルを使用する価値について疑問に思う人もいるかもしれません。現時点では m0 がテキストオンリーのアプリケーションにおいて v2 に比べて大きな付加価値を提供しないかもしれませんが、デコーダーオンリーアーキテクチャは、エンコーダーオンリーアーキテクチャでは実現できなかった多くの新しい可能性を開きます:

  • 真のミックスモダリティリランキング
  • リストワイズリランキングと文書の重複排除
  • アテンションメカニズムによるランキングスコアの説明可能性

今後の取り組みでは、テキストオンリーリランカーのさらなるアップグレードと、このマルチモーダルアーキテクチャによって可能となった新機能を十分に活用して、より良い、そしてより広い検索を実現することに焦点を当てていきます。

カテゴリー:
star
選択
プレスリリース
rss_feed
オフィス
location_on
カリフォルニア州サニーベール
710 Lakeway Dr、Ste 200、サニーベール、CA 94085、アメリカ合衆国
location_on
ドイツ、ベルリン(本社)
Prinzessinnenstraße 19-20、10969 ベルリン、ドイツ
location_on
中国、北京
中国北京市海淀区西街48号ビル6号5階
location_on
深セン、中国
ルーム 402、4 階、福安テクノロジービル、深セン、中国
検索ベース
読者
ベクトルモデル
並べ替え者
ディープサーチ
分類子
スライサー
APIドキュメント
Jina APIキーを取得する
レート制限
APIステータス
会社
私たちについて
営業担当者に問い合わせる
ニュース
インターンプログラム
参加しませんか
open_in_new
ロゴをダウンロード
open_in_new
条項
安全性
利用規約
プライバシー
Cookieを管理する
email
Jina AI © 2020-2025.