Новости
Модели
Продукты
keyboard_arrow_down
Читатель
Читайте URL-адреса и ищите информацию в Интернете для получения более подходящей подготовки для получения степени магистра права.
Вложения
Мультимодальные многоязычные вложения мирового класса.
Реранкер
Нейронный ретривер мирового класса для максимального повышения релевантности поиска.
Глубокий поиск
Ищите, читайте и рассуждайте, пока не найдете лучший ответ.
Более
keyboard_arrow_down
Классификатор
Классификация изображений и текста по нулевому и небольшому количеству кадров.
Сегментатор
Разрежьте длинный текст на куски и выполните токенизацию.

API-документы
Автоматическая генерация кода для вашего второго пилота IDE или LLM
open_in_new


Компания
keyboard_arrow_down
О нас
Связаться с отделом продаж
Стажерская программа
Присоединяйтесь к нам
open_in_new
Скачать логотип
open_in_new
Условия использования


Авторизоваться
login
Новая архитектура
Начало работы
Оценка
Заключение
star
Избранное
пресс-релиз
апрель 08, 2025

jina-reranker-m0: Многоязычный мультимодальный ранжировщик документов

Представляем jina-reranker-m0, наш новый мультиязычный мультимодальный ранжировщик для поиска визуальных документов, демонстрирующий передовую производительность в задачах поиска многоязычных длинных документов и программного кода.
Jina AI
Jina AI • 20 минуты чтения
jinaai/jina-reranker-m0 · Hugging Face
Мы находимся на пути к развитию и демократизации искусственного интеллекта через открытый исходный код и открытую науку.

Сегодня мы выпускаем jina-reranker-m0, нашу новую мультиязычную мультимодальную модель переранжирования для ранжирования визуальных документов на разных языках: она принимает запрос вместе с коллекцией документов, богатых визуальным контентом, включая страницы с текстом, рисунками, таблицами, инфографикой и различными макетами в разных областях на более чем 29 языках. Она выдает ранжированный список документов, упорядоченных по их релевантности входному запросу. По сравнению с jina-reranker-v2-base-multilingual, jina-reranker-m0 также улучшает переранжирование текста для многоязычного контента, длинных документов и задач поиска кода.

Производительность jina-reranker-m0 на бенчмарках визуального поиска ViDoRe, MBEIR и Winoground демонстрирует ее возможности в различных мультимодальных задачах поиска, охватывающих множество доменов и языков. Каждая точка представляет показатели производительности для различных типов/задач визуальных документов. Диаграммы размаха иллюстрируют распределение этих показателей, с выделенными числами, указывающими среднюю производительность. Полные результаты тестирования приведены в приложении к этой публикации.
Эта диаграмма размаха показывает производительность jina-reranker-m0 на четырех бенчмарках для переранжирования только текста. Каждый бенчмарк может включать несколько наборов данных, языков или задач, представленных отдельными точками внутри диаграммы. Диаграмма показывает распределение этих показателей, с выделенным числом, показывающим среднюю производительность. В то время как большинство бенчмарков используют NDCG@10 в качестве метрики производительности, MKQA использует recall@10, поскольку аннотационные данные MKQA не поддерживают расчет NDCG (официальная оценка использует recall, который определяет релевантность документов через эвристики). Полные результаты тестирования доступны в приложении к этой публикации.

tagНовая архитектура

Архитектура jina-reranker-m0 построена на основе Qwen2-VL-2B и состоит из 2,1 миллиарда параметров. Эта модель эффективно ранжирует документы, оценивая как их визуальные, так и текстовые элементы в отношении запросов, используя попарное сравнение.

В отличие от jina-reranker-v2-base-multilingual, jina-reranker-m0 переходит от классической архитектуры кросс-энкодера к декодер-only модели для работы с языком и зрением. Она использует предобученный энкодер и проектор изображений Qwen2-VL, дообучает его LLM с помощью LoRA и пост-тренирует MLP для генерации логитов ранжирования, измеряющих релевантность запроса документу. Это дает дискриминативную модель, оптимизированную для задач ранжирования.

jina-reranker-m0 jina-reranker-v2
Архитектура Vision Language Model Cross-Encoder
Базовая модель Qwen2-VL-2B Jina-XLM-RoBERTa
Параметры 2.4 B 278 M
Макс. длина контекста (запрос + документ) 10,240 8,192
Макс. патчей изображения (динамическое разрешение) 768 × 28 × 28 ❌
Многоязычная поддержка ✅ ✅
Поддерживаемые задачи Text2Text, Text2Image, Image2Text, Text2Mixed Text2Text

Эта новая архитектура позволяет jina-reranker-m0 обрабатывать до 32K токенов, плавно объединяя как визуальные, так и текстовые входные данные. Модель поддерживает изображения от минимального размера 56×56 пикселей до разрешения 4K. При обработке изображений ViT и проектор сжимают соседние токены 2×2 в единые визуальные токены для входа LLM. Специальные токены, такие как <|vision_start|> и <|vision_end|>, четко обозначают границы визуальных токенов, позволяя языковой модели правильно обрабатывать визуальную информацию и выполнять сложные мультимодальные рассуждения, интегрирующие как визуальные, так и текстовые элементы.

Эта архитектура также эффективно решает проблему разрыва модальностей, которая преследовала более ранние модели, такие как jina-clip-v1 и jina-clip-v2. Ранее изображения группировались рядом с другими изображениями, а текст — рядом с другим текстом в пространстве представлений, создавая разрыв. Это означало, что когда ваши документы-кандидаты содержали и изображения, и текст, поиск изображений с помощью текстовых запросов был проблематичным. С jina-reranker-m0 теперь можно ранжировать изображения и документы вместе, не беспокоясь об этом разрыве, создавая по-настоящему унифицированный мультимодальный поисковый опыт.

В мультимодальных системах поиска "разрыв модальностей" относится к разнице в том, как модель оценивает схожесть текст-текст по сравнению со схожестью текст-изображение. Глядя на левое изображение (jina-clip-v2), видно четкое разделение между двумя распределениями: распределение схожести текст-текст (красное) достигает пика около 0.35. Схожесть текст-изображение (синее) достигает пика около 0.65-0.7. Это значительное разделение указывает на большой разрыв модальностей - модель оценивает пары текст-текст и текст-изображение в принципиально разных диапазонах. Это затрудняет прямое сравнение оценок между модальностями. В системе без разрыва модальностей мы ожидали бы, что распределения в значительной степени перекрываются, что означает, что модель оценивает оба типа пар в схожих диапазонах, основываясь исключительно на релевантности, а не на типе модальности.

Стоит отметить, что наше обучение было ограничено максимум 10K входными токенами, с максимум 768 токенами на изображение (между маркерами <|vision_start|> и <|vision_end|>). Кроме того, мы специально не обучали модель для задач переранжирования image-to-image, image-to-multimodal или text-to-multimodal. В этом контексте "мультимодальный" относится к единому документу, содержащему и изображения, и текстовые токены во входных данных. Рассматривая все возможные комбинации токенов изображений и текста как в запросах, так и в документах, мы можем обобщить полный спектр задач, поддерживаемых jina-reranker-m0, в таблице ниже.

jina-reranker-m0 поддерживает широкий спектр комбинаций запросов и документов для целей переранжирования. Благодаря обширному обучению, модель достигает передовых результатов в задачах текст-текст, текст-изображение, изображение-текст и текст-смешанный-унимодальный. Модель также обрабатывает другие комбинации входных данных в режиме zero-shot - архитектура поддерживает эти комбинации токенов, хотя мы специально не обучали модель для этих задач.

В ходе тестирования мы обнаружили некоторые свидетельства того, что модель может экстраполировать на эти необученные задачи ранжирования, но любую эффективность в этих областях следует рассматривать как результат zero-shot переносимости модели или непреднамеренных побочных эффектов обучения. Мы не проводили серьезных оценок производительности модели на этих задачах и планируем более тщательно изучить эти возможности в будущих исследованиях.

tagНачало работы

tagЧерез API

Код ниже показывает, как вычислить оценки релевантности между запросом "small language model data extraction" и коллекцией изображений и текстовых документов. Вы можете передать текстовую строку, изображение в формате base64 или URL изображения. Новые пользователи могут получить API-ключ Jina с 1 миллионом бесплатных токенов. Хотя наш API не поддерживает использование изображений в качестве запросов, вы можете использовать изображения в качестве запросов при доступе к модели через библиотеку Hugging Face Transformers.

curl -X POST \
  https://api.jina.ai/v1/rerank \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer JINA_API_KEY" \
  -d '{
  "model": "jina-reranker-m0",
  "query": "small language model data extraction",
  "documents": [
    {
      "image": "https://raw.githubusercontent.com/jina-ai/multimodal-reranker-test/main/handelsblatt-preview.png"
    },
    {
      "image": "https://raw.githubusercontent.com/jina-ai/multimodal-reranker-test/main/paper-11.png"
    },
    {
      "image": "https://raw.githubusercontent.com/jina-ai/multimodal-reranker-test/main/wired-preview.png"
    },
    {
      "text": "We present ReaderLM-v2, a compact 1.5 billion parameter language model designed for efficient web content extraction. Our model processes documents up to 512K tokens, transforming messy HTML into clean Markdown or JSON formats with high accuracy -- making it an ideal tool for grounding large language models. The models effectiveness results from two key innovations: (1) a three-stage data synthesis pipeline that generates high quality, diverse training data by iteratively drafting, refining, and critiquing web content extraction; and (2) a unified training framework combining continuous pre-training with multi-objective optimization. Intensive evaluation demonstrates that ReaderLM-v2 outperforms GPT-4o-2024-08-06 and other larger models by 15-20% on carefully curated benchmarks, particularly excelling at documents exceeding 100K tokens, while maintaining significantly lower computational requirements."
    },
    {
      "image": "https://jina.ai/blog-banner/using-deepseek-r1-reasoning-model-in-deepsearch.webp"
    },
    {
      "text": "数据提取么?为什么不用正则啊,你用正则不就全解决了么?"
    },
    {
      "text": "During the California Gold Rush, some merchants made more money selling supplies to miners than the miners made finding gold."
    },
    {
      "text": "Die wichtigsten Beiträge unserer Arbeit sind zweifach: Erstens führen wir eine neuartige dreistufige Datensynthese-Pipeline namens Draft-Refine-Critique ein, die durch iterative Verfeinerung hochwertige Trainingsdaten generiert; und zweitens schlagen wir eine umfassende Trainingsstrategie vor, die kontinuierliches Vortraining zur Längenerweiterung, überwachtes Feintuning mit spezialisierten Kontrollpunkten, direkte Präferenzoptimierung (DPO) und iteratives Self-Play-Tuning kombiniert. Um die weitere Forschung und Anwendung der strukturierten Inhaltsextraktion zu erleichtern, ist das Modell auf Hugging Face öffentlich verfügbar."
    }
  ],
  "return_documents": false
}'

Ответ показан ниже, где первый результат index=1 соответствует скриншоту нашей статьи о ReaderLM-v2 paper screenshot.

{"model":"jina-reranker-m0","usage":{"total_tokens":2829},"results":[{"index":1,"relevance_score":0.9587112551898949},{"index":3,"relevance_score":0.9337408271911014},{"index":7,"relevance_score":0.8922925217195924},{"index":2,"relevance_score":0.8891905997562045},{"index":0,"relevance_score":0.8827516945848907},{"index":4,"relevance_score":0.8701035914834407},{"index":6,"relevance_score":0.8676828987527296},{"index":5,"relevance_score":0.8455347349164652}]}

tagЧерез CSP Marketplaces

jina-reranker-m0 скоро будет доступен напрямую на AWS, Azure и GCP по указанным там ценам.

tagЧерез HuggingFace

Вы также можете использовать модель локально с нашей страницы на Hugging Face. Мы подготовили блокнот Google Colab, который демонстрирует, как это работает. По сравнению с нашим веб-API, использование модели локально предоставляет большую гибкость, например, возможность использовать изображения в качестве запросов и работать с мультимодальными документами.

Google Colab

tagОценка

[public]-jina-reranker-m0-evaluation-results
Google Docs

Полные результаты оценки можно найти в этой таблице Google Spreadsheet.

tagBEIR (Text2Text, только английский)

BEIR: A Heterogenous Benchmark for Zero-shot Evaluation of Information Retrieval Models
Existing neural information retrieval (IR) models have often been studied in homogeneous and narrow settings, which has considerably limited insights into their out-of-distribution (OOD) generalization capabilities. To address this, and to facilitate researchers to broadly evaluate the effectiveness of their models, we introduce Benchmarking-IR (BEIR), a robust and heterogeneous evaluation benchmark for information retrieval. We leverage a careful selection of 18 publicly available datasets from diverse text retrieval tasks and domains and evaluate 10 state-of-the-art retrieval systems including lexical, sparse, dense, late-interaction and re-ranking architectures on the BEIR benchmark. Our results show BM25 is a robust baseline and re-ranking and late-interaction-based models on average achieve the best zero-shot performances, however, at high computational costs. In contrast, dense and sparse-retrieval models are computationally more efficient but often underperform other approaches, highlighting the considerable room for improvement in their generalization capabilities. We hope this framework allows us to better evaluate and understand existing retrieval systems, and contributes to accelerating progress towards better robust and generalizable systems in the future. BEIR is publicly available at https://github.com/UKPLab/beir.
arXiv.orgNandan Thakur

BEIR — это разнородный эталонный тест для информационного поиска, разработанный для оценки универсальности и надежности IR-моделей. Он содержит разнообразный набор датасетов из различных предметных областей и фокусируется на zero-shot оценке. Используются стандартизированные метрики оценки, такие как NDCG, Recall@K и MRR.

Model AVG (NDCG@10) TREC-COVID NFCorpus NQ HotpotQA FiQA ArguAna Touche-2020 DBPedia SCIDOCS FEVER Climate-FEVER SciFact Quora
jina-reranker-m0 58.95 84.17 41.03 72.25 76.99 51.62 40.69 31.79 49.34 22.91 91.14 36.42 79.94 88.01
jina-embeddings-v3 (1024 tokens) 55.81 77.81 36.65 64.31 64.63 47.47 54.31 26.55 41.07 19.91 89.00 42.33 72.4 89.06
bge-reranker-v2-m3 56.51 82.19 34.33 69.52 77.89 45.45 36.21 33.12 46.72 17.79 91.03 38.69 72.64 89.10
jina-reranker-v2-multilingual 57.06 80.53 37.17 67.39 76.17 46.48 39.28 32.35 47.81 20.03 93.02 37.17 76.50 87.83

tagMIRACL (Text2Text, многоязычный, 18 языков)

Making a MIRACL: Multilingual Information Retrieval Across a Continuum of Languages
MIRACL (Multilingual Information Retrieval Across a Continuum of Languages) — это многоязычный датасет, который мы создали для соревнования WSDM 2023 Cup, фокусирующийся на специальном поиске на 18 различных языках, которые в совокупности охватывают более трех миллиардов носителей языка по всему миру. Эти языки имеют разную типологию, происходят из многих языковых семей и связаны с различным количеством доступных ресурсов — включая то, что исследователи обычно характеризуют как высокоресурсные и низкоресурсные языки. Наш датасет предназначен для создания и оценки моделей монолингвального поиска, где запросы и корпуса находятся на одном языке. В общей сложности мы собрали более 700 тысяч высококачественных оценок релевантности для около 77 тысяч запросов по Wikipedia на этих 18 языках, где все оценки были выполнены носителями языка, нанятыми нашей командой. Наша цель — стимулировать исследования, которые улучшат поиск на континууме языков, тем самым расширяя возможности доступа к информации для различных групп населения по всему миру, особенно тех, которые традиционно были недостаточно обслужены. Эта обзорная статья описывает датасет и базовые модели, которыми мы делимся с сообществом. Сайт MIRACL доступен по адресу http://miracl.ai/.
arXiv.orgXinyu Zhang

MIRACL - это крупномасштабный многоязычный набор данных для специального поиска информации на 18 языках. Он охватывает более трех миллиардов носителей языка и содержит тщательные аннотации от людей. Основное внимание уделяется задачам одноязычного поиска.

Model AVG (NDCG@10) ar bn en es fa fi fr hi id ja ko ru sw te th zh de yo
jina-reranker-m0 66.75 79.78 78.01 59.21 53.56 58.80 78.00 56.66 62.83 54.92 66.51 72.86 67.26 59.04 70.19 80.37 64.51 58.50 80.44
jina-embeddings-v3 (8192 tokens) 58.90 71.53 69.86 48.37 46.91 54.13 71.15 50.90 55.05 47.83 56.46 64.76 55.63 54.07 70.48 73.56 55.29 49.18 65.01
bge-reranker-v2-m3 69.32 80.51 81.85 57.67 57.64 61.92 80.38 59.60 67.66 58.86 67.37 75.14 67.61 68.92 76.69 82.29 64.46 58.32 80.85
jina-reranker-v2-multilingual 63.65 72.50 79.42 46.66 51.54 57.81 73.05 50.90 60.94 56.66 59.15 72.60 53.43 66.47 74.62 77.75 62.49 53.06 76.69

tagMLDR (Text2Text, многоязычные длинные документы, 13 языков)

BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation
В этой статье мы представляем новую модель эмбеддингов под названием M3-Embedding, которая отличается своей универсальностью в многоязычности, многофункциональности и многогранулярности. Она поддерживает более 100 рабочих языков, что приводит к новым передовым результатам в многоязычных и кросс-языковых задачах поиска. Она может одновременно выполнять три общие функции поиска модели эмбеддингов: плотный поиск, многовекторный поиск и разреженный поиск, что обеспечивает единую модельную основу для практических приложений информационного поиска. Она способна обрабатывать входные данные различной гранулярности, от коротких предложений до длинных документов объемом до 8192 токенов. Эффективное обучение M3-Embedding включает следующие технические достижения. Мы предлагаем новый подход к самодистилляции знаний, где оценки релевантности от различных функций поиска могут быть интегрированы в качестве учительского сигнала для повышения качества обучения. Мы также оптимизировали стратегию пакетной обработки, обеспечивая большой размер пакета и высокую пропускную способность обучения для обеспечения различимости эмбеддингов. Насколько нам известно, M3-Embedding является первой моделью эмбеддингов, которая реализует такую сильную универсальность. Модель и код будут общедоступны на https://github.com/FlagOpen/FlagEmbedding.
arXiv.orgJianlv Chen

MLDR — это многоязычный набор данных, специально разработанный для поиска в длинных документах, охватывающий 13 языков. Он использует GPT-3.5 для генерации вопросов к документам. Набор данных создан на основе Wikipedia, Wudao и mC4.

Model AVG (NDCG@10) ar de en es fr hi it ja ko pt ru th zh
jina-reranker-m0 59.83 55.86 51.25 54.67 87.63 82.59 32.76 73.25 58.93 55.73 86.08 66.73 39.17 33.14
jina-embeddings-v3 (8192 tokens) 39.71 28.44 31.57 29.07 62.08 59.79 25.47 53.72 38.36 32.37 63.26 49.65 25.15 17.26
bge-reranker-v2-m3 53.53 49.19 45.39 43.92 74.57 68.67 44.75 62.79 49.27 48.24 76.45 62.84 38.82 31.02
jina-reranker-v2-multilingual 59.50 51.96 50.13 46.85 86.34 82.25 49.50 69.00 59.07 52.19 85.26 68.06 38.73 34.15

tagMKQA (Text2Text, многоязычная система вопросов и ответов, 24 языка, 3 варианта для китайского языка)

MKQA: A Linguistically Diverse Benchmark for Multilingual Open Domain Question Answering
Прогресс в кросс-языковом моделировании зависит от сложных, реалистичных и разнообразных наборов для оценки. Мы представляем Multilingual Knowledge Questions and Answers (MKQA), набор данных для оценки ответов на вопросы в открытом домене, включающий 10 тыс. пар вопрос-ответ, согласованных между 26 типологически разнообразными языками (всего 260 тыс. пар вопрос-ответ). Ответы основаны на тщательно подготовленном, языконезависимом представлении данных, что делает результаты сопоставимыми между языками и независимыми от языково-специфичных текстов. С 26 языками этот набор данных предоставляет самый широкий на сегодняшний день диапазон языков для оценки систем вопросов и ответов. Мы проводим бенчмаркинг различных современных методов и базовых линий для генеративных и экстрактивных систем вопросов и ответов, обученных на Natural Questions, в условиях zero shot и перевода. Результаты показывают, что этот набор данных сложен даже для английского языка, но особенно для низкоресурсных языков
arXiv.orgShayne Longpre

MKQA — это набор данных для оценки систем ответов на вопросы в открытом домене, состоящий из 10 тысяч пар вопросов-ответов, выровненных по 26 типологически различным языкам. Пары вопросов-ответов взяты из Google Natural Questions.

Model AVG (recall@10) ar da de es en fi fr he hu it ja km ko ms nl no pl pt ru sv th tr vi zh_cn zh_hk zh_tw
jina-reranker-m0 68.19 63.88 70.57 70.52 71.26 73.47 64.10 71.11 63.68 63.23 70.30 69.13 50.43 64.30 70.78 71.73 70.25 69.72 70.57 70.78 70.69 69.80 67.90 69.68 69.12 68.23 67.79
jina-embeddings-v3 (8192 tokens) 65.63 59.00 69.12 68.27 68.15 71.14 65.66 68.30 59.51 63.23 68.30 64.36 56.13 58.98 68.30 69.53 68.65 67.26 67.93 67.06 68.68 66.32 66.97 66.87 63.38 63.59 61.55
bge-reranker-v2-m3 67.88 63.09 70.15 68.91 68.92 73.00 68.71 68.71 70.27 64.00 68.15 68.47 60.43 63.95 68.80 70.77 69.10 67.44 67.40 69.77 70.03 69.68 66.04 68.29 67.84 66.70 66.34
jina-reranker-v2-multilingual 67.90 63.88 70.31 70.09 70.51 73.09 67.50 70.38 63.00 64.59 69.90 67.34 57.79 62.14 70.36 71.58 69.51 68.61 70.13 70.07 70.15 68.80 68.02 69.39 67.23 65.77 65.37

tagCoIR (Text2Text, Code Information Retrieval)

CoIR: Комплексный бенчмарк для моделей информационного поиска кода
Несмотря на значительный успех Information Retrieval (IR) в различных задачах NLP, большинство IR-систем преимущественно работают с запросами и корпусами на естественном языке, игнорируя область поиска кода. Поиск кода критически важен, но остается малоизученным, а существующие методы и бенчмарки недостаточно представляют разнообразие кода в различных доменах и задачах. Решая этот пробел, мы представляем COIR (Code Information Retrieval Benchmark) — надежный и всесторонний бенчмарк, специально разработанный для оценки возможностей поиска кода. COIR включает десять тщательно отобранных наборов данных кода, охватывающих восемь различных задач поиска в семи разных доменах. Сначала мы обсуждаем построение COIR и состав его разнообразных наборов данных. Далее мы оцениваем девять широко используемых моделей поиска с помощью COIR, обнаруживая значительные трудности в выполнении задач поиска кода даже у современных систем. Для облегчения адаптации и интеграции в существующие исследовательские процессы COIR разработан как удобный Python-фреймворк, легко устанавливаемый через pip. Он использует ту же схему данных, что и другие популярные бенчмарки, такие как MTEB и BEIR, обеспечивая беспрепятственное проведение кросс-бенчмарковых оценок. С помощью COIR мы стремимся активизировать исследования в области поиска кода, предоставляя универсальный инструмент для тестирования, который способствует дальнейшей разработке и исследованию систем поиска кода https://github.com/CoIR-team/coir.
arXiv.orgXiangyang Li

CoIR - это комплексный бенчмарк, разработанный для оценки способностей моделей в поиске кода. Он включает 10 тщательно отобранных наборов данных кода, охватывающих 8 задач поиска в 7 различных доменах. Для этого бенчмарка предоставляется Python-фреймворк.

Model Name Avg (NDCG@10) Text-to-Code Code-to-Text Code-to-Code Hybrid Code
Apps CosQA SQL CSN CSN-CCR CodeTransOcean StackOver
Flow
CodeFeedBack
AVG python javascript go ruby java php AVG python javascript go ruby java php -Contest -DL -MT -ST
jina-reranker-m0 63.55 26.21 37.75 57.92 80.76 98.37 71.16 86.14 72.74 79.02 77.14 74.57 81.66 77.92 68.71 75.44 77.54 66.13 79.79 31.89 90.41 72.25 83.95
jina-embeddings-v2-base-code
(top 100)
56.90 16.34 41.72 49.79 83.95 94.71 76.35 87.39 78.23 82.69 84.35 59.65 68.23 62.31 49.15 65.40 63.89 48.92 79.20 30.35 89.42 49.62 68.93
bge-reranker-v2-m3 35.97 8.33 30.06 50.63 49.26 67.62 39.55 58.11 41.37 44.77 44.13 40.81 42.57 42.75 38.04 38.04 41.73 41.73 34.93 5.09 60.12 16.44 64.05
jina-reranker-v2-multilingual 56.14 21.90 37.26 53.56 78.88 97.83 67.43 84.64 68.93 75.73 78.71 63.59 72.62 67.80 55.07 67.25 64.25 54.54 73.67 25.74 91.24 42.03 73.59

tagViDoRe (Бенчмарк поиска визуальных документов Text2Image)

ColPali: Эффективный поиск документов с помощью визуально-языковых моделей
Документы представляют собой визуально насыщенные структуры, которые передают информацию не только через текст, но и через рисунки, макеты страниц, таблицы и даже шрифты. Поскольку современные системы поиска в основном полагаются на текстовую информацию, извлекаемую из страниц документов для их индексации — часто через длительные и хрупкие процессы — им сложно эффективно использовать ключевые визуальные подсказки. Это ограничивает их возможности во многих практических приложениях поиска документов, таких как Retrieval Augmented Generation (RAG). Чтобы оценить текущие системы по поиску визуально насыщенных документов, мы представляем бенчмарк Visual Document Retrieval (ViDoRe), состоящий из различных задач поиска на уровне страниц, охватывающих множество доменов, языков и практических настроек. Неотъемлемая сложность и недостатки производительности современных систем мотивируют новую концепцию: выполнение поиска документов путем прямого встраивания изображений страниц документов. Мы выпускаем ColPali, визуально-языковую модель, обученную создавать качественные мультивекторные вложения из изображений страниц документов. В сочетании с механизмом позднего взаимодействия, ColPali значительно превосходит современные конвейеры поиска документов, будучи при этом радикально проще, быстрее и обучаемой от начала до конца. Мы выпускаем модели, данные, код и бенчмарки под открытыми лицензиями на https://hf.co/vidore.
arXiv.orgManuel Faysse

ViDoRe - это тестовая выборка, предназначенная для оценки систем поиска и их способности сопоставлять запросы с релевантными документами, используя визуальные характеристики. Она охватывает различные задачи поиска на уровне страниц в нескольких доменах и языках. Тестовая выборка фокусируется на визуальных элементах документов.

Model Name AVG
(NDCG@5)
TAT-DQA Shift
Project
Artificial
Intelligence
Government
Reports
ArxivQA DocVQA Healthcare
Industry
InfoVQA Energy TabFQuad
jina-reranker-m0 91.02 81.83 93.22 99.63 97.59 89.82 62.58 99.26 92.88 96.06 97.32
MrLight/dse-qwen2-2b-mr1-v1 84.48 66.64 79.39 96.45 95.30 84.53 55.47 96.85 86.39 91.80 92.03
MonoQwen2-VL-v0.1 87.64 79.50 76.38 98.39 93.63 89.50 57.47 98.39 92.12 95.29 95.75

tagM-BEIR (Мультимодальный тестовый набор для инструктированного поиска Text2Image, Image2Text)

UniIR: Training and Benchmarking Universal Multimodal Information Retrievers
Существующие модели информационного поиска (IR) часто предполагают однородный формат, ограничивая их применимость к различным потребностям пользователей, таким как поиск изображений по текстовым описаниям, поиск новостной статьи по заголовку изображения или поиск похожей фотографии по изображению-запросу. Для решения таких различных информационно-поисковых задач мы представляем UniIR, унифицированную мультимодальную систему поиска на основе инструкций, способную обрабатывать восемь различных задач поиска по модальностям. UniIR, единая поисковая система, совместно обученная на десяти различных мультимодальных IR-наборах данных, интерпретирует пользовательские инструкции для выполнения различных поисковых задач, демонстрируя надежную производительность на существующих наборах данных и обобщение с нулевым выстрелом на новые задачи. Наши эксперименты показывают, что многозадачное обучение и настройка инструкций являются ключевыми для способности UniIR к обобщению. Кроме того, мы создали M-BEIR, мультимодальный тестовый набор с исчерпывающими результатами, для стандартизации оценки универсального мультимодального информационного поиска.
arXiv.orgCong Wei

M-BEIR - это комплексный крупномасштабный тестовый набор, предназначенный для обучения и оценки мультимодальных поисковых моделей. Он включает восемь мультимодальных поисковых задач и десять наборов данных из различных доменов и источников. Тестовый набор фокусируется на поиске с учетом инструкций.

Model MBEIR t2i VisualNews
Recall@5
MBEIR t2i MSCOCO
Recall@5
MBEIR t2i Fashion200K
Recall@10
MBEIR i2t VisualNews
Recall@5
MBEIR i2t MSCOCO
Recall@5
MBEIR i2t Fashion200K
Recall@10
jina-reranker-m0 23.89 72.19 9.79 17.61 41.21 11.56
jinaai/jina-clip-v2 15.42 52.28 7.03 11.63 28.80 8.78
MonoQwen2-VL-v0.1 22.74 71.29 10.00 15.08 42.24 11.25

tagWinoground (Text2Text, Text2Image)

Winoground: Probing Vision and Language Models for Visio-Linguistic Compositionality
Мы представляем новую задачу и набор данных для оценки способности моделей зрения и языка проводить визуально-лингвистические композиционные рассуждения, которые мы называем Winoground. Учитывая два изображения и два подписи, цель состоит в том, чтобы правильно сопоставить их - но что важно, обе подписи содержат абсолютно идентичный набор слов, только в другом порядке. Набор данных был тщательно отобран вручную экспертами и помечен богатым набором детальных тегов для помощи в анализе производительности модели. Мы тестируем разнообразные современные модели зрения и языка и обнаруживаем, что, удивительно, ни одна из них не работает намного лучше случайного выбора. Очевидно, что эти модели не так искусны в визуально-лингвистических композиционных рассуждениях, как мы могли бы надеяться. Мы проводим обширный анализ, чтобы получить представление о том, как будущие работы могли бы попытаться устранить недостатки этих моделей. Мы стремимся к тому, чтобы Winoground служил полезным набором для оценки продвижения современного уровня техники и дальнейшего прогресса в этой области. Набор данных доступен по адресу https://huggingface.co/datasets/facebook/winoground.
arXiv.orgTristan Thrush

Winoground - это новая задача и набор данных для оценки способности моделей компьютерного зрения и обработки языка выполнять визуально-лингвистические композиционные рассуждения. Он использует парные подписи с идентичным словесным содержанием и применяет контрастные пары изображение-подпись. Основное внимание уделяется композиционным рассуждениям.

Model Text Image Group Avg
jina-reranker-m0 57.00 40.75 34.00 43.92
MrLight/dse-qwen2-2b-mrl-v1 7.50 9.25 1.75 6.17
MonoQwen2-VL-v0.1 52.00 36.25 31.50 39.92

Winoground оценивает модели визуально-языкового восприятия по трем ключевым метрикам: Text Score, Image Score и Group Score. Text Score измеряет, правильно ли модель сопоставляет подписи с изображениями, в то время как Image Score оценивает, выбирает ли она правильное изображение для подписи. Group Score, самая строгая метрика, требует правильного определения всех отношений подпись-изображение. Оценки представляют собой проценты, отражающие точность, где более высокие значения указывают на лучшие способности к рассуждению.

tagЗаключение

jina-reranker-m0 - это наша первая попытка объединить текстовые и визуальные модальности в единой модели только с декодером. Эта новая архитектура включает уроки, извлеченные из наших предыдущих моделей поиска только с кодировщиком, включая jina-clip-v2, jina-embeddings-v3, jina-reranker-v2-base-multilingual и jina-embeddings-v2-base-code.

Новая модель не только открывает возможности для мультимодальных задач поиска, таких как переранжирование текста в изображение и переранжирование визуальных документов, но также демонстрирует улучшенную производительность по сравнению с jina-reranker-v2-base-multilingual в задачах переранжирования текст-текст и текст-код. Мы обозначаем эту новую серию моделей как "m-series" для подчеркивания её мультимодальной природы.

При сравнении jina-reranker-m0 с jina-reranker-v2-base-multilingual, наша цель для m-series - достичь мультимодальности при одновременном улучшении производительности на текстовых задачах на уровне, сопоставимом со специализированными текстовыми моделями. Некоторые могут усомниться в ценности использования в 8 раз большей модели, если улучшение производительности на текстовых задачах кажется незначительным. Хотя на данный момент это правда, что m0 может не предоставлять существенной добавленной ценности по сравнению с v2 для текстовых приложений, архитектура только с декодером открывает множество новых возможностей, которые были недостижимы с архитектурами только с кодировщиком, включая:

  • Истинное смешанно-модальное переранжирование
  • Списочное переранжирование и дедупликация документов
  • Объяснимость оценки ранжирования через механизм внимания

Наша будущая работа будет сосредоточена на дальнейшем улучшении текстового ранжировщика и полном использовании новых функций, обеспеченных этой мультимодальной архитектурой, для достижения лучшего и более широкого поиска.

Категории:
star
Избранное
пресс-релиз
rss_feed
Офисы
location_on
Саннивейл, Калифорния
710 Lakeway Dr, Ste 200, Саннивейл, Калифорния 94085, США
location_on
Берлин, Германия (штаб-квартира)
Prinzessinnenstraße 19-20, 10969 Берлин, Германия
location_on
Пекин, Китай
Уровень 5, здание 6, ул. Хайдянь Вест, д. 48, Пекин, Китай
location_on
Шэньчжэнь, Китай
402, этаж 4, здание Fu'an Technology, Шэньчжэнь, Китай
Поиск Фонда
Читатель
Вложения
Реранкер
Глубокий поиск
Классификатор
Сегментатор
API-документация
Получить API-ключ Jina
Ограничение скорости
Статус API
Компания
О нас
Связаться с отделом продаж
отдел новостей
Стажерская программа
Присоединяйтесь к нам
open_in_new
Скачать логотип
open_in_new
Условия
Безопасность
Условия использования
Конфиденциальность
Управление файлами cookie
email
Jina AI © 2020-2025.