
Сегодня мы выпускаем jina-reranker-m0, нашу новую мультиязычную мультимодальную модель переранжирования для ранжирования визуальных документов на разных языках: она принимает запрос вместе с коллекцией документов, богатых визуальным контентом, включая страницы с текстом, рисунками, таблицами, инфографикой и различными макетами в разных областях на более чем 29 языках. Она выдает ранжированный список документов, упорядоченных по их релевантности входному запросу. По сравнению с jina-reranker-v2-base-multilingual, jina-reranker-m0 также улучшает переранжирование текста для многоязычного контента, длинных документов и задач поиска кода.


tagНовая архитектура
В отличие от jina-reranker-v2-base-multilingual, jina-reranker-m0 переходит от классической архитектуры кросс-энкодера к декодер-only модели для работы с языком и зрением. Она использует предобученный энкодер и проектор изображений Qwen2-VL, дообучает его LLM с помощью LoRA и пост-тренирует MLP для генерации логитов ранжирования, измеряющих релевантность запроса документу. Это дает дискриминативную модель, оптимизированную для задач ранжирования.
jina-reranker-m0 | jina-reranker-v2 |
|
---|---|---|
Архитектура | Vision Language Model | Cross-Encoder |
Базовая модель | Qwen2-VL-2B | Jina-XLM-RoBERTa |
Параметры | 2.4 B | 278 M |
Макс. длина контекста (запрос + документ) | 10,240 | 8,192 |
Макс. патчей изображения (динамическое разрешение) | 768 × 28 × 28 | ❌ |
Многоязычная поддержка | ✅ | ✅ |
Поддерживаемые задачи | Text2Text, Text2Image, Image2Text, Text2Mixed | Text2Text |
Эта новая архитектура позволяет jina-reranker-m0 обрабатывать до 32K токенов, плавно объединяя как визуальные, так и текстовые входные данные. Модель поддерживает изображения от минимального размера 56×56 пикселей до разрешения 4K. При обработке изображений ViT и проектор сжимают соседние токены 2×2 в единые визуальные токены для входа LLM. Специальные токены, такие как <|vision_start|>
и <|vision_end|>
, четко обозначают границы визуальных токенов, позволяя языковой модели правильно обрабатывать визуальную информацию и выполнять сложные мультимодальные рассуждения, интегрирующие как визуальные, так и текстовые элементы.
Эта архитектура также эффективно решает проблему разрыва модальностей, которая преследовала более ранние модели, такие как jina-clip-v1 и jina-clip-v2. Ранее изображения группировались рядом с другими изображениями, а текст — рядом с другим текстом в пространстве представлений, создавая разрыв. Это означало, что когда ваши документы-кандидаты содержали и изображения, и текст, поиск изображений с помощью текстовых запросов был проблематичным. С jina-reranker-m0 теперь можно ранжировать изображения и документы вместе, не беспокоясь об этом разрыве, создавая по-настоящему унифицированный мультимодальный поисковый опыт.
Стоит отметить, что наше обучение было ограничено максимум 10K входными токенами, с максимум 768 токенами на изображение (между маркерами <|vision_start|>
и <|vision_end|>
). Кроме того, мы специально не обучали модель для задач переранжирования image-to-image
, image-to-multimodal
или text-to-multimodal
. В этом контексте "мультимодальный" относится к единому документу, содержащему и изображения, и текстовые токены во входных данных. Рассматривая все возможные комбинации токенов изображений и текста как в запросах, так и в документах, мы можем обобщить полный спектр задач, поддерживаемых jina-reranker-m0, в таблице ниже.

В ходе тестирования мы обнаружили некоторые свидетельства того, что модель может экстраполировать на эти необученные задачи ранжирования, но любую эффективность в этих областях следует рассматривать как результат zero-shot переносимости модели или непреднамеренных побочных эффектов обучения. Мы не проводили серьезных оценок производительности модели на этих задачах и планируем более тщательно изучить эти возможности в будущих исследованиях.
tagНачало работы
tagЧерез API
Код ниже показывает, как вычислить оценки релевантности между запросом "small language model data extraction"
и коллекцией изображений и текстовых документов. Вы можете передать текстовую строку, изображение в формате base64 или URL изображения. Новые пользователи могут получить API-ключ Jina с 1 миллионом бесплатных токенов. Хотя наш API не поддерживает использование изображений в качестве запросов, вы можете использовать изображения в качестве запросов при доступе к модели через библиотеку Hugging Face Transformers.
curl -X POST \
https://api.jina.ai/v1/rerank \
-H "Content-Type: application/json" \
-H "Authorization: Bearer JINA_API_KEY" \
-d '{
"model": "jina-reranker-m0",
"query": "small language model data extraction",
"documents": [
{
"image": "https://raw.githubusercontent.com/jina-ai/multimodal-reranker-test/main/handelsblatt-preview.png"
},
{
"image": "https://raw.githubusercontent.com/jina-ai/multimodal-reranker-test/main/paper-11.png"
},
{
"image": "https://raw.githubusercontent.com/jina-ai/multimodal-reranker-test/main/wired-preview.png"
},
{
"text": "We present ReaderLM-v2, a compact 1.5 billion parameter language model designed for efficient web content extraction. Our model processes documents up to 512K tokens, transforming messy HTML into clean Markdown or JSON formats with high accuracy -- making it an ideal tool for grounding large language models. The models effectiveness results from two key innovations: (1) a three-stage data synthesis pipeline that generates high quality, diverse training data by iteratively drafting, refining, and critiquing web content extraction; and (2) a unified training framework combining continuous pre-training with multi-objective optimization. Intensive evaluation demonstrates that ReaderLM-v2 outperforms GPT-4o-2024-08-06 and other larger models by 15-20% on carefully curated benchmarks, particularly excelling at documents exceeding 100K tokens, while maintaining significantly lower computational requirements."
},
{
"image": "https://jina.ai/blog-banner/using-deepseek-r1-reasoning-model-in-deepsearch.webp"
},
{
"text": "数据提取么?为什么不用正则啊,你用正则不就全解决了么?"
},
{
"text": "During the California Gold Rush, some merchants made more money selling supplies to miners than the miners made finding gold."
},
{
"text": "Die wichtigsten Beiträge unserer Arbeit sind zweifach: Erstens führen wir eine neuartige dreistufige Datensynthese-Pipeline namens Draft-Refine-Critique ein, die durch iterative Verfeinerung hochwertige Trainingsdaten generiert; und zweitens schlagen wir eine umfassende Trainingsstrategie vor, die kontinuierliches Vortraining zur Längenerweiterung, überwachtes Feintuning mit spezialisierten Kontrollpunkten, direkte Präferenzoptimierung (DPO) und iteratives Self-Play-Tuning kombiniert. Um die weitere Forschung und Anwendung der strukturierten Inhaltsextraktion zu erleichtern, ist das Modell auf Hugging Face öffentlich verfügbar."
}
],
"return_documents": false
}'
Ответ показан ниже, где первый результат index=1
соответствует скриншоту нашей статьи о ReaderLM-v2 paper screenshot.
{"model":"jina-reranker-m0","usage":{"total_tokens":2829},"results":[{"index":1,"relevance_score":0.9587112551898949},{"index":3,"relevance_score":0.9337408271911014},{"index":7,"relevance_score":0.8922925217195924},{"index":2,"relevance_score":0.8891905997562045},{"index":0,"relevance_score":0.8827516945848907},{"index":4,"relevance_score":0.8701035914834407},{"index":6,"relevance_score":0.8676828987527296},{"index":5,"relevance_score":0.8455347349164652}]}
tagЧерез CSP Marketplaces
jina-reranker-m0 скоро будет доступен напрямую на AWS, Azure и GCP по указанным там ценам.
tagЧерез HuggingFace
Вы также можете использовать модель локально с нашей страницы на Hugging Face. Мы подготовили блокнот Google Colab, который демонстрирует, как это работает. По сравнению с нашим веб-API, использование модели локально предоставляет большую гибкость, например, возможность использовать изображения в качестве запросов и работать с мультимодальными документами.

tagОценка
Полные результаты оценки можно найти в этой таблице Google Spreadsheet.
tagBEIR (Text2Text, только английский)

BEIR — это разнородный эталонный тест для информационного поиска, разработанный для оценки универсальности и надежности IR-моделей. Он содержит разнообразный набор датасетов из различных предметных областей и фокусируется на zero-shot оценке. Используются стандартизированные метрики оценки, такие как NDCG, Recall@K и MRR.
Model | AVG (NDCG@10) | TREC-COVID | NFCorpus | NQ | HotpotQA | FiQA | ArguAna | Touche-2020 | DBPedia | SCIDOCS | FEVER | Climate-FEVER | SciFact | Quora |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
jina-reranker-m0 | 58.95 | 84.17 | 41.03 | 72.25 | 76.99 | 51.62 | 40.69 | 31.79 | 49.34 | 22.91 | 91.14 | 36.42 | 79.94 | 88.01 |
jina-embeddings-v3 (1024 tokens) | 55.81 | 77.81 | 36.65 | 64.31 | 64.63 | 47.47 | 54.31 | 26.55 | 41.07 | 19.91 | 89.00 | 42.33 | 72.4 | 89.06 |
bge-reranker-v2-m3 | 56.51 | 82.19 | 34.33 | 69.52 | 77.89 | 45.45 | 36.21 | 33.12 | 46.72 | 17.79 | 91.03 | 38.69 | 72.64 | 89.10 |
jina-reranker-v2-multilingual | 57.06 | 80.53 | 37.17 | 67.39 | 76.17 | 46.48 | 39.28 | 32.35 | 47.81 | 20.03 | 93.02 | 37.17 | 76.50 | 87.83 |
tagMIRACL (Text2Text, многоязычный, 18 языков)

MIRACL - это крупномасштабный многоязычный набор данных для специального поиска информации на 18 языках. Он охватывает более трех миллиардов носителей языка и содержит тщательные аннотации от людей. Основное внимание уделяется задачам одноязычного поиска.
Model | AVG (NDCG@10) | ar | bn | en | es | fa | fi | fr | hi | id | ja | ko | ru | sw | te | th | zh | de | yo |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
jina-reranker-m0 | 66.75 | 79.78 | 78.01 | 59.21 | 53.56 | 58.80 | 78.00 | 56.66 | 62.83 | 54.92 | 66.51 | 72.86 | 67.26 | 59.04 | 70.19 | 80.37 | 64.51 | 58.50 | 80.44 |
jina-embeddings-v3 (8192 tokens) | 58.90 | 71.53 | 69.86 | 48.37 | 46.91 | 54.13 | 71.15 | 50.90 | 55.05 | 47.83 | 56.46 | 64.76 | 55.63 | 54.07 | 70.48 | 73.56 | 55.29 | 49.18 | 65.01 |
bge-reranker-v2-m3 | 69.32 | 80.51 | 81.85 | 57.67 | 57.64 | 61.92 | 80.38 | 59.60 | 67.66 | 58.86 | 67.37 | 75.14 | 67.61 | 68.92 | 76.69 | 82.29 | 64.46 | 58.32 | 80.85 |
jina-reranker-v2-multilingual | 63.65 | 72.50 | 79.42 | 46.66 | 51.54 | 57.81 | 73.05 | 50.90 | 60.94 | 56.66 | 59.15 | 72.60 | 53.43 | 66.47 | 74.62 | 77.75 | 62.49 | 53.06 | 76.69 |
tagMLDR (Text2Text, многоязычные длинные документы, 13 языков)

MLDR — это многоязычный набор данных, специально разработанный для поиска в длинных документах, охватывающий 13 языков. Он использует GPT-3.5 для генерации вопросов к документам. Набор данных создан на основе Wikipedia, Wudao и mC4.
Model | AVG (NDCG@10) | ar | de | en | es | fr | hi | it | ja | ko | pt | ru | th | zh |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
jina-reranker-m0 | 59.83 | 55.86 | 51.25 | 54.67 | 87.63 | 82.59 | 32.76 | 73.25 | 58.93 | 55.73 | 86.08 | 66.73 | 39.17 | 33.14 |
jina-embeddings-v3 (8192 tokens) | 39.71 | 28.44 | 31.57 | 29.07 | 62.08 | 59.79 | 25.47 | 53.72 | 38.36 | 32.37 | 63.26 | 49.65 | 25.15 | 17.26 |
bge-reranker-v2-m3 | 53.53 | 49.19 | 45.39 | 43.92 | 74.57 | 68.67 | 44.75 | 62.79 | 49.27 | 48.24 | 76.45 | 62.84 | 38.82 | 31.02 |
jina-reranker-v2-multilingual | 59.50 | 51.96 | 50.13 | 46.85 | 86.34 | 82.25 | 49.50 | 69.00 | 59.07 | 52.19 | 85.26 | 68.06 | 38.73 | 34.15 |
tagMKQA (Text2Text, многоязычная система вопросов и ответов, 24 языка, 3 варианта для китайского языка)

MKQA — это набор данных для оценки систем ответов на вопросы в открытом домене, состоящий из 10 тысяч пар вопросов-ответов, выровненных по 26 типологически различным языкам. Пары вопросов-ответов взяты из Google Natural Questions.
Model | AVG (recall@10) | ar | da | de | es | en | fi | fr | he | hu | it | ja | km | ko | ms | nl | no | pl | pt | ru | sv | th | tr | vi | zh_cn | zh_hk | zh_tw |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
jina-reranker-m0 | 68.19 | 63.88 | 70.57 | 70.52 | 71.26 | 73.47 | 64.10 | 71.11 | 63.68 | 63.23 | 70.30 | 69.13 | 50.43 | 64.30 | 70.78 | 71.73 | 70.25 | 69.72 | 70.57 | 70.78 | 70.69 | 69.80 | 67.90 | 69.68 | 69.12 | 68.23 | 67.79 |
jina-embeddings-v3 (8192 tokens) | 65.63 | 59.00 | 69.12 | 68.27 | 68.15 | 71.14 | 65.66 | 68.30 | 59.51 | 63.23 | 68.30 | 64.36 | 56.13 | 58.98 | 68.30 | 69.53 | 68.65 | 67.26 | 67.93 | 67.06 | 68.68 | 66.32 | 66.97 | 66.87 | 63.38 | 63.59 | 61.55 |
bge-reranker-v2-m3 | 67.88 | 63.09 | 70.15 | 68.91 | 68.92 | 73.00 | 68.71 | 68.71 | 70.27 | 64.00 | 68.15 | 68.47 | 60.43 | 63.95 | 68.80 | 70.77 | 69.10 | 67.44 | 67.40 | 69.77 | 70.03 | 69.68 | 66.04 | 68.29 | 67.84 | 66.70 | 66.34 |
jina-reranker-v2-multilingual | 67.90 | 63.88 | 70.31 | 70.09 | 70.51 | 73.09 | 67.50 | 70.38 | 63.00 | 64.59 | 69.90 | 67.34 | 57.79 | 62.14 | 70.36 | 71.58 | 69.51 | 68.61 | 70.13 | 70.07 | 70.15 | 68.80 | 68.02 | 69.39 | 67.23 | 65.77 | 65.37 |
tagCoIR (Text2Text, Code Information Retrieval)

CoIR - это комплексный бенчмарк, разработанный для оценки способностей моделей в поиске кода. Он включает 10 тщательно отобранных наборов данных кода, охватывающих 8 задач поиска в 7 различных доменах. Для этого бенчмарка предоставляется Python-фреймворк.
Model Name | Avg (NDCG@10) | Text-to-Code | Code-to-Text | Code-to-Code | Hybrid Code | ||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Apps | CosQA | SQL | CSN | CSN-CCR | CodeTransOcean | StackOver Flow |
CodeFeedBack | ||||||||||||||||
AVG | python | javascript | go | ruby | java | php | AVG | python | javascript | go | ruby | java | php | -Contest | -DL | -MT | -ST | ||||||
jina-reranker-m0 | 63.55 | 26.21 | 37.75 | 57.92 | 80.76 | 98.37 | 71.16 | 86.14 | 72.74 | 79.02 | 77.14 | 74.57 | 81.66 | 77.92 | 68.71 | 75.44 | 77.54 | 66.13 | 79.79 | 31.89 | 90.41 | 72.25 | 83.95 |
jina-embeddings-v2-base-code (top 100) |
56.90 | 16.34 | 41.72 | 49.79 | 83.95 | 94.71 | 76.35 | 87.39 | 78.23 | 82.69 | 84.35 | 59.65 | 68.23 | 62.31 | 49.15 | 65.40 | 63.89 | 48.92 | 79.20 | 30.35 | 89.42 | 49.62 | 68.93 |
bge-reranker-v2-m3 | 35.97 | 8.33 | 30.06 | 50.63 | 49.26 | 67.62 | 39.55 | 58.11 | 41.37 | 44.77 | 44.13 | 40.81 | 42.57 | 42.75 | 38.04 | 38.04 | 41.73 | 41.73 | 34.93 | 5.09 | 60.12 | 16.44 | 64.05 |
jina-reranker-v2-multilingual | 56.14 | 21.90 | 37.26 | 53.56 | 78.88 | 97.83 | 67.43 | 84.64 | 68.93 | 75.73 | 78.71 | 63.59 | 72.62 | 67.80 | 55.07 | 67.25 | 64.25 | 54.54 | 73.67 | 25.74 | 91.24 | 42.03 | 73.59 |
tagViDoRe (Бенчмарк поиска визуальных документов Text2Image)

ViDoRe - это тестовая выборка, предназначенная для оценки систем поиска и их способности сопоставлять запросы с релевантными документами, используя визуальные характеристики. Она охватывает различные задачи поиска на уровне страниц в нескольких доменах и языках. Тестовая выборка фокусируется на визуальных элементах документов.
Model Name | AVG (NDCG@5) |
TAT-DQA | Shift Project |
Artificial Intelligence |
Government Reports |
ArxivQA | DocVQA | Healthcare Industry |
InfoVQA | Energy | TabFQuad |
---|---|---|---|---|---|---|---|---|---|---|---|
jina-reranker-m0 | 91.02 | 81.83 | 93.22 | 99.63 | 97.59 | 89.82 | 62.58 | 99.26 | 92.88 | 96.06 | 97.32 |
MrLight/dse-qwen2-2b-mr1-v1 | 84.48 | 66.64 | 79.39 | 96.45 | 95.30 | 84.53 | 55.47 | 96.85 | 86.39 | 91.80 | 92.03 |
MonoQwen2-VL-v0.1 | 87.64 | 79.50 | 76.38 | 98.39 | 93.63 | 89.50 | 57.47 | 98.39 | 92.12 | 95.29 | 95.75 |
tagM-BEIR (Мультимодальный тестовый набор для инструктированного поиска Text2Image, Image2Text)

M-BEIR - это комплексный крупномасштабный тестовый набор, предназначенный для обучения и оценки мультимодальных поисковых моделей. Он включает восемь мультимодальных поисковых задач и десять наборов данных из различных доменов и источников. Тестовый набор фокусируется на поиске с учетом инструкций.
Model | MBEIR t2i VisualNews Recall@5 |
MBEIR t2i MSCOCO Recall@5 |
MBEIR t2i Fashion200K Recall@10 |
MBEIR i2t VisualNews Recall@5 |
MBEIR i2t MSCOCO Recall@5 |
MBEIR i2t Fashion200K Recall@10 |
---|---|---|---|---|---|---|
jina-reranker-m0 | 23.89 | 72.19 | 9.79 | 17.61 | 41.21 | 11.56 |
jinaai/jina-clip-v2 | 15.42 | 52.28 | 7.03 | 11.63 | 28.80 | 8.78 |
MonoQwen2-VL-v0.1 | 22.74 | 71.29 | 10.00 | 15.08 | 42.24 | 11.25 |
tagWinoground (Text2Text, Text2Image)

Winoground - это новая задача и набор данных для оценки способности моделей компьютерного зрения и обработки языка выполнять визуально-лингвистические композиционные рассуждения. Он использует парные подписи с идентичным словесным содержанием и применяет контрастные пары изображение-подпись. Основное внимание уделяется композиционным рассуждениям.
Model | Text | Image | Group | Avg |
---|---|---|---|---|
jina-reranker-m0 | 57.00 | 40.75 | 34.00 | 43.92 |
MrLight/dse-qwen2-2b-mrl-v1 | 7.50 | 9.25 | 1.75 | 6.17 |
MonoQwen2-VL-v0.1 | 52.00 | 36.25 | 31.50 | 39.92 |
Winoground оценивает модели визуально-языкового восприятия по трем ключевым метрикам: Text Score, Image Score и Group Score. Text Score измеряет, правильно ли модель сопоставляет подписи с изображениями, в то время как Image Score оценивает, выбирает ли она правильное изображение для подписи. Group Score, самая строгая метрика, требует правильного определения всех отношений подпись-изображение. Оценки представляют собой проценты, отражающие точность, где более высокие значения указывают на лучшие способности к рассуждению.
tagЗаключение
jina-reranker-m0 - это наша первая попытка объединить текстовые и визуальные модальности в единой модели только с декодером. Эта новая архитектура включает уроки, извлеченные из наших предыдущих моделей поиска только с кодировщиком, включая jina-clip-v2, jina-embeddings-v3, jina-reranker-v2-base-multilingual и jina-embeddings-v2-base-code.
Новая модель не только открывает возможности для мультимодальных задач поиска, таких как переранжирование текста в изображение и переранжирование визуальных документов, но также демонстрирует улучшенную производительность по сравнению с jina-reranker-v2-base-multilingual в задачах переранжирования текст-текст и текст-код. Мы обозначаем эту новую серию моделей как "m-series" для подчеркивания её мультимодальной природы.
При сравнении jina-reranker-m0 с jina-reranker-v2-base-multilingual, наша цель для m-series - достичь мультимодальности при одновременном улучшении производительности на текстовых задачах на уровне, сопоставимом со специализированными текстовыми моделями. Некоторые могут усомниться в ценности использования в 8 раз большей модели, если улучшение производительности на текстовых задачах кажется незначительным. Хотя на данный момент это правда, что m0
может не предоставлять существенной добавленной ценности по сравнению с v2
для текстовых приложений, архитектура только с декодером открывает множество новых возможностей, которые были недостижимы с архитектурами только с кодировщиком, включая:
- Истинное смешанно-модальное переранжирование
- Списочное переранжирование и дедупликация документов
- Объяснимость оценки ранжирования через механизм внимания
Наша будущая работа будет сосредоточена на дальнейшем улучшении текстового ранжировщика и полном использовании новых функций, обеспеченных этой мультимодальной архитектурой, для достижения лучшего и более широкого поиска.