jina-reranker-m0: Reranqueador multilingüe y multimodal de documentos

Hoy lanzamos jina-reranker-m0, nuestro nuevo modelo de reordenamiento multilingüe y multimodal para clasificar documentos visuales en múltiples idiomas: acepta una consulta junto con una colección de imágenes de documentos visualmente ricos, incluyendo páginas con texto, figuras, tablas, infografías y varios diseños a través de múltiples dominios y más de 29 idiomas. Produce una lista ordenada de documentos según su relevancia para la consulta de entrada. En comparación con jina-reranker-v2-base-multilingual, jina-reranker-m0 también mejora la reordenación de texto para contenido multilingüe, documentos largos y tareas de búsqueda de código.

El rendimiento de jina-reranker-m0 en los benchmarks de recuperación visual ViDoRe, MBEIR y Winoground muestra sus capacidades en diversas tareas de recuperación multimodal que abarcan múltiples dominios e idiomas. Cada punto representa puntuaciones de rendimiento para diferentes tipos/tareas de documentos visuales. Los diagramas de caja ilustran la distribución de estas puntuaciones, con los números resaltados indicando el rendimiento promedio (media). Para resultados completos de los benchmarks, consulte el apéndice de esta publicación.

Este diagrama de caja muestra el rendimiento de jina-reranker-m0 en cuatro benchmarks de reordenamiento de solo texto. Cada benchmark puede incluir múltiples conjuntos de datos, idiomas o tareas, representados por puntos individuales dentro del diagrama de caja. El diagrama muestra la distribución de estas puntuaciones, con el número resaltado mostrando el rendimiento promedio (media). Mientras que la mayoría de los benchmarks usan NDCG@10 como métrica de rendimiento, MKQA usa recall@10 en su lugar, ya que los datos de anotación de MKQA no admiten el cálculo de NDCG (la evaluación oficial usa recall, que determina la relevancia del documento mediante heurísticas). Los resultados completos de los benchmarks están disponibles en el apéndice de esta publicación.

tagNueva Arquitectura

La arquitectura de jina-reranker-m0 está construida sobre Qwen2-VL-2B y consta de 2.1 mil millones de parámetros. Este modelo clasifica eficientemente los documentos evaluando tanto sus elementos visuales como textuales en relación con las consultas, utilizando comparación por pares.

A diferencia de jina-reranker-v2-base-multilingual, jina-reranker-m0 cambia de la arquitectura clásica de codificador cruzado a un modelo de lenguaje visual basado únicamente en decodificador. Aprovecha el codificador y proyector de visión preentrenado de Qwen2-VL, ajustó su LLM con LoRA, y post-entrenó un MLP para generar logits de clasificación que miden la relevancia consulta-documento. Esto proporciona un modelo discriminativo optimizado para tareas de clasificación.

	jina-reranker-m0	`jina-reranker-v2`
Arquitectura	Vision Language Model	Cross-Encoder
Modelo base	Qwen2-VL-2B	Jina-XLM-RoBERTa
Parámetros	2.4 B	278 M
Longitud máxima de contexto (consulta + documento)	10,240	8,192
Máximo de parches de imagen (resolución dinámica)	768 × 28 × 28	❌
Soporte multilingüe	✅	✅
Tareas soportadas	Text2Text, Text2Image, Image2Text, Text2Mixed	Text2Text

Esta nueva arquitectura permite a jina-reranker-m0 manejar hasta 32K tokens, combinando perfectamente entradas visuales y textuales. El modelo admite imágenes desde un tamaño mínimo de 56×56 píxeles hasta resolución 4K. Al procesar imágenes, el ViT y el proyector condensan tokens adyacentes de 2×2 en tokens visuales únicos para la entrada del LLM. Tokens especiales como <|vision_start|> y <|vision_end|> marcan claramente los límites de los tokens visuales, permitiendo que el modelo de lenguaje procese adecuadamente la información visual y realice razonamiento multimodal sofisticado que integra elementos tanto visuales como textuales.

Esta arquitectura también resuelve efectivamente el problema de la brecha de modalidad que plagó modelos anteriores como jina-clip-v1 y jina-clip-v2. Anteriormente, las imágenes se agrupaban cerca de otras imágenes mientras que el texto se agrupaba cerca de otro texto en el espacio de representación, creando una desconexión. Esto significaba que cuando tus documentos candidatos contenían tanto imágenes como texto, recuperar imágenes usando consultas de texto era problemático. Con jina-reranker-m0, ahora puedes clasificar imágenes y documentos juntos sin preocuparte por esta brecha, creando una experiencia de búsqueda multimodal verdaderamente unificada.

En sistemas de recuperación multimodal, una "brecha de modalidad" se refiere a la diferencia en cómo el modelo califica la similitud texto-a-texto versus texto-a-imagen. Mirando la imagen de la izquierda (jina-clip-v2), hay una clara separación entre las dos distribuciones: La distribución de similitud texto-a-texto (roja) alcanza su pico alrededor de 0.35. La similitud texto-a-imagen (azul) alcanza su pico alrededor de 0.65-0.7. Esta separación significativa indica una gran brecha de modalidad - el modelo califica los pares texto-a-texto y texto-a-imagen en rangos fundamentalmente diferentes. Esto hace difícil comparar directamente puntuaciones entre modalidades. En un sistema sin brecha de modalidad (por ejemplo, `, esperaríamos que las distribuciones se superpongan en gran medida, lo que significa que el modelo califica ambos tipos de pares en rangos similares basándose puramente en la relevancia, no en el tipo de modalidad.

Vale la pena señalar que nuestro entrenamiento se limitó a un máximo de 10K tokens de entrada, con hasta 768 tokens por imagen (entre los marcadores <|vision_start|> y <|vision_end|>). Además, no entrenamos específicamente el modelo para tareas de reordenamiento image-to-image, image-to-multimodal, o text-to-multimodal. En este contexto, "multimodal" se refiere a un solo documento que contiene tanto tokens de imagen como de texto en la entrada. Mirando todas las posibles combinaciones de tokens de imagen y texto tanto en consultas como en documentos, podemos resumir el rango completo de tareas soportadas por jina-reranker-m0 en la tabla siguiente.

jina-reranker-m0 admite una amplia gama de combinaciones de consultas y documentos de entrada para fines de reordenamiento. Logra un rendimiento de vanguardia en tareas de texto a texto, texto a imagen, imagen a texto y texto a contenido unimodal mixto, gracias a un extenso entrenamiento. El modelo también maneja otras combinaciones de entrada de manera zero-shot - la arquitectura admite estas combinaciones de tokens, aunque no hemos entrenado específicamente para estas tareas.

En nuestras pruebas, encontramos evidencia que sugiere que el modelo puede extrapolar a estas tareas de clasificación no entrenadas, pero cualquier efectividad en estas áreas debe verse como resultado de la transferibilidad zero-shot del modelo o efectos secundarios no intencionados del entrenamiento. No hemos realizado evaluaciones serias del rendimiento del modelo en estas tareas, y planeamos explorar estas capacidades más a fondo en investigaciones futuras.

tagPrimeros Pasos

tagA través de API

El código a continuación muestra cómo calcular puntuaciones de relevancia entre la consulta "small language model data extraction" y una colección de imágenes y documentos de texto. Puedes pasar una cadena de texto, una imagen codificada en base64 o una URL de imagen. Los nuevos usuarios pueden obtener una clave API de Jina con 1 millón de tokens gratuitos. Si bien nuestra API no admite el uso de imágenes como consultas, puedes usar imágenes como consultas cuando accedes al modelo a través de la biblioteca Hugging Face Transformers.

curl -X POST \
  https://api.jina.ai/v1/rerank \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer JINA_API_KEY" \
  -d '{
  "model": "jina-reranker-m0",
  "query": "small language model data extraction",
  "documents": [
    {
      "image": "https://raw.githubusercontent.com/jina-ai/multimodal-reranker-test/main/handelsblatt-preview.png"
    },
    {
      "image": "https://raw.githubusercontent.com/jina-ai/multimodal-reranker-test/main/paper-11.png"
    },
    {
      "image": "https://raw.githubusercontent.com/jina-ai/multimodal-reranker-test/main/wired-preview.png"
    },
    {
      "text": "We present ReaderLM-v2, a compact 1.5 billion parameter language model designed for efficient web content extraction. Our model processes documents up to 512K tokens, transforming messy HTML into clean Markdown or JSON formats with high accuracy -- making it an ideal tool for grounding large language models. The models effectiveness results from two key innovations: (1) a three-stage data synthesis pipeline that generates high quality, diverse training data by iteratively drafting, refining, and critiquing web content extraction; and (2) a unified training framework combining continuous pre-training with multi-objective optimization. Intensive evaluation demonstrates that ReaderLM-v2 outperforms GPT-4o-2024-08-06 and other larger models by 15-20% on carefully curated benchmarks, particularly excelling at documents exceeding 100K tokens, while maintaining significantly lower computational requirements."
    },
    {
      "image": "https://jina.ai/blog-banner/using-deepseek-r1-reasoning-model-in-deepsearch.webp"
    },
    {
      "text": "数据提取么？为什么不用正则啊，你用正则不就全解决了么？"
    },
    {
      "text": "During the California Gold Rush, some merchants made more money selling supplies to miners than the miners made finding gold."
    },
    {
      "text": "Die wichtigsten Beiträge unserer Arbeit sind zweifach: Erstens führen wir eine neuartige dreistufige Datensynthese-Pipeline namens Draft-Refine-Critique ein, die durch iterative Verfeinerung hochwertige Trainingsdaten generiert; und zweitens schlagen wir eine umfassende Trainingsstrategie vor, die kontinuierliches Vortraining zur Längenerweiterung, überwachtes Feintuning mit spezialisierten Kontrollpunkten, direkte Präferenzoptimierung (DPO) und iteratives Self-Play-Tuning kombiniert. Um die weitere Forschung und Anwendung der strukturierten Inhaltsextraktion zu erleichtern, ist das Modell auf Hugging Face öffentlich verfügbar."
    }
  ],
  "return_documents": false
}'

La respuesta se muestra a continuación, donde el primer resultado index=1 corresponde a nuestra captura de pantalla del paper de ReaderLM-v2 paper screenshot.

{"model":"jina-reranker-m0","usage":{"total_tokens":2829},"results":[{"index":1,"relevance_score":0.9587112551898949},{"index":3,"relevance_score":0.9337408271911014},{"index":7,"relevance_score":0.8922925217195924},{"index":2,"relevance_score":0.8891905997562045},{"index":0,"relevance_score":0.8827516945848907},{"index":4,"relevance_score":0.8701035914834407},{"index":6,"relevance_score":0.8676828987527296},{"index":5,"relevance_score":0.8455347349164652}]}

tagA través de Marketplaces CSP

jina-reranker-m0 estará pronto disponible directamente en AWS, Azure y GCP a los precios listados allí.

tagA través de HuggingFace

También puedes usar el modelo localmente desde nuestra página de Hugging Face. Hemos preparado un notebook de Google Colab que demuestra cómo funciona. En comparación con nuestra API web, usar el modelo localmente ofrece mayor flexibilidad, como la capacidad de usar imágenes como consultas y trabajar con documentos multimodales.

tagEvaluación

Las evaluaciones completas se pueden encontrar en esta hoja de cálculo de Google.

tagBEIR (Texto a Texto, solo inglés)

BEIR: A Heterogenous Benchmark for Zero-shot Evaluation of Information Retrieval Models

Existing neural information retrieval (IR) models have often been studied in homogeneous and narrow settings, which has considerably limited insights into their out-of-distribution (OOD) generalization capabilities. To address this, and to facilitate researchers to broadly evaluate the effectiveness of their models, we introduce Benchmarking-IR (BEIR), a robust and heterogeneous evaluation benchmark for information retrieval. We leverage a careful selection of 18 publicly available datasets from diverse text retrieval tasks and domains and evaluate 10 state-of-the-art retrieval systems including lexical, sparse, dense, late-interaction and re-ranking architectures on the BEIR benchmark. Our results show BM25 is a robust baseline and re-ranking and late-interaction-based models on average achieve the best zero-shot performances, however, at high computational costs. In contrast, dense and sparse-retrieval models are computationally more efficient but often underperform other approaches, highlighting the considerable room for improvement in their generalization capabilities. We hope this framework allows us to better evaluate and understand existing retrieval systems, and contributes to accelerating progress towards better robust and generalizable systems in the future. BEIR is publicly available at https://github.com/UKPLab/beir.

arXiv.orgNandan Thakur

BEIR es un benchmark heterogéneo para la recuperación de información, diseñado para evaluar la versatilidad y robustez de los modelos IR. Contiene un conjunto diverso de datasets de varios dominios y se centra en la evaluación zero-shot. Se utilizan métricas de evaluación estandarizadas como NDCG, Recall@K y MRR.

Model	AVG (NDCG@10)	TREC-COVID	NFCorpus	NQ	HotpotQA	FiQA	ArguAna	Touche-2020	DBPedia	SCIDOCS	FEVER	Climate-FEVER	SciFact	Quora
jina-reranker-m0	58.95	84.17	41.03	72.25	76.99	51.62	40.69	31.79	49.34	22.91	91.14	36.42	79.94	88.01
jina-embeddings-v3 (1024 tokens)	55.81	77.81	36.65	64.31	64.63	47.47	54.31	26.55	41.07	19.91	89.00	42.33	72.4	89.06
bge-reranker-v2-m3	56.51	82.19	34.33	69.52	77.89	45.45	36.21	33.12	46.72	17.79	91.03	38.69	72.64	89.10
jina-reranker-v2-multilingual	57.06	80.53	37.17	67.39	76.17	46.48	39.28	32.35	47.81	20.03	93.02	37.17	76.50	87.83

tagMIRACL (Text2Text, Multilingüe, 18 idiomas)

Making a MIRACL: Recuperación de Información Multilingüe a través de un Continuo de Idiomas

MIRACL (Recuperación de Información Multilingüe a través de un Continuo de Idiomas) es un dataset multilingüe que hemos construido para el desafío WSDM 2023 Cup que se centra en la recuperación ad hoc a través de 18 idiomas diferentes, que en conjunto abarcan más de tres mil millones de hablantes nativos en todo el mundo. Estos idiomas tienen tipologías diversas, provienen de muchas familias lingüísticas diferentes y están asociados con cantidades variables de recursos disponibles -- incluyendo lo que los investigadores típicamente caracterizan como idiomas de altos recursos así como idiomas de bajos recursos. Nuestro dataset está diseñado para apoyar la creación y evaluación de modelos para recuperación monolingüe, donde las consultas y los corpus están en el mismo idioma. En total, hemos recopilado más de 700k juicios de relevancia de alta calidad para alrededor de 77k consultas sobre Wikipedia en estos 18 idiomas, donde todas las evaluaciones han sido realizadas por hablantes nativos contratados por nuestro equipo. Nuestro objetivo es impulsar la investigación que mejorará la recuperación a través de un continuo de idiomas, mejorando así las capacidades de acceso a la información para diversas poblaciones en todo el mundo, particularmente aquellas que tradicionalmente han estado desatendidas. Este documento general describe el dataset y las líneas base que compartimos con la comunidad. El sitio web de MIRACL está activo en http://miracl.ai/.

arXiv.orgXinyu Zhang

MIRACL es un extenso conjunto de datos multilingüe para la recuperación de información ad hoc en 18 idiomas. Abarca más de tres mil millones de hablantes nativos y cuenta con detalladas anotaciones humanas. Se centra en tareas de recuperación monolingüe.

Model	AVG (NDCG@10)	ar	bn	en	es	fa	fi	fr	hi	id	ja	ko	ru	sw	te	th	zh	de	yo
jina-reranker-m0	66.75	79.78	78.01	59.21	53.56	58.80	78.00	56.66	62.83	54.92	66.51	72.86	67.26	59.04	70.19	80.37	64.51	58.50	80.44
jina-embeddings-v3 (8192 tokens)	58.90	71.53	69.86	48.37	46.91	54.13	71.15	50.90	55.05	47.83	56.46	64.76	55.63	54.07	70.48	73.56	55.29	49.18	65.01
bge-reranker-v2-m3	69.32	80.51	81.85	57.67	57.64	61.92	80.38	59.60	67.66	58.86	67.37	75.14	67.61	68.92	76.69	82.29	64.46	58.32	80.85
jina-reranker-v2-multilingual	63.65	72.50	79.42	46.66	51.54	57.81	73.05	50.90	60.94	56.66	59.15	72.60	53.43	66.47	74.62	77.75	62.49	53.06	76.69

tagMLDR (Text2Text, Documentos Multilingües Largos, 13 idiomas)

BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation

En este artículo, presentamos un nuevo modelo de embeddings, llamado M3-Embedding, que se distingue por su versatilidad en Multi-Lingualidad, Multi-Funcionalidad y Multi-Granularidad. Puede soportar más de 100 idiomas de trabajo, logrando nuevos resultados estado del arte en tareas de recuperación multilingüe y entre idiomas. Puede realizar simultáneamente las tres funcionalidades comunes de recuperación del modelo de embeddings: recuperación densa, recuperación multi-vector y recuperación dispersa, lo que proporciona una base de modelo unificada para aplicaciones de IR en el mundo real. Es capaz de procesar entradas de diferentes granularidades, desde oraciones cortas hasta documentos largos de hasta 8192 tokens. El entrenamiento efectivo de M3-Embedding involucra las siguientes contribuciones técnicas. Proponemos un nuevo enfoque de auto-destilación de conocimiento, donde las puntuaciones de relevancia de diferentes funcionalidades de recuperación pueden integrarse como señal de profesor para mejorar la calidad del entrenamiento. También optimizamos la estrategia de lotes, permitiendo un tamaño de lote grande y un alto rendimiento de entrenamiento para asegurar la capacidad discriminativa de los embeddings. Hasta donde sabemos, M3-Embedding es el primer modelo de embeddings que logra tal versatilidad. El modelo y el código estarán disponibles públicamente en https://github.com/FlagOpen/FlagEmbedding.

arXiv.orgJianlv Chen

MLDR es un conjunto de datos multilingüe diseñado específicamente para la recuperación de documentos largos, que abarca 13 idiomas. Utiliza GPT-3.5 para generar preguntas para los documentos. El conjunto de datos está construido sobre Wikipedia, Wudao y mC4.

Model	AVG (NDCG@10)	ar	de	en	es	fr	hi	it	ja	ko	pt	ru	th	zh
jina-reranker-m0	59.83	55.86	51.25	54.67	87.63	82.59	32.76	73.25	58.93	55.73	86.08	66.73	39.17	33.14
jina-embeddings-v3 (8192 tokens)	39.71	28.44	31.57	29.07	62.08	59.79	25.47	53.72	38.36	32.37	63.26	49.65	25.15	17.26
bge-reranker-v2-m3	53.53	49.19	45.39	43.92	74.57	68.67	44.75	62.79	49.27	48.24	76.45	62.84	38.82	31.02
jina-reranker-v2-multilingual	59.50	51.96	50.13	46.85	86.34	82.25	49.50	69.00	59.07	52.19	85.26	68.06	38.73	34.15

tagMKQA (Text2Text, Respuesta a Preguntas Multilingüe, 24 idiomas, 3 variantes para chino)

MKQA: A Linguistically Diverse Benchmark for Multilingual Open Domain Question Answering

Progress in cross-lingual modeling depends on challenging, realistic, and diverse evaluation sets. We introduce Multilingual Knowledge Questions and Answers (MKQA), an open-domain question answering evaluation set comprising 10k question-answer pairs aligned across 26 typologically diverse languages (260k question-answer pairs in total). Answers are based on a heavily curated, language-independent data representation, making results comparable across languages and independent of language-specific passages. With 26 languages, this dataset supplies the widest range of languages to-date for evaluating question answering. We benchmark a variety of state-of-the-art methods and baselines for generative and extractive question answering, trained on Natural Questions, in zero shot and translation settings. Results indicate this dataset is challenging even in English, but especially in low-resource languages

arXiv.orgShayne Longpre

MKQA es un conjunto de evaluación de preguntas y respuestas de dominio abierto que comprende 10k pares de preguntas y respuestas alineados en 26 idiomas tipológicamente diversos. Los pares de preguntas y respuestas son muestreados de Google Natural Questions.

Model	AVG (recall@10)	ar	da	de	es	en	fi	fr	he	hu	it	ja	km	ko	ms	nl	no	pl	pt	ru	sv	th	tr	vi	zh_cn	zh_hk	zh_tw
jina-reranker-m0	68.19	63.88	70.57	70.52	71.26	73.47	64.10	71.11	63.68	63.23	70.30	69.13	50.43	64.30	70.78	71.73	70.25	69.72	70.57	70.78	70.69	69.80	67.90	69.68	69.12	68.23	67.79
jina-embeddings-v3 (8192 tokens)	65.63	59.00	69.12	68.27	68.15	71.14	65.66	68.30	59.51	63.23	68.30	64.36	56.13	58.98	68.30	69.53	68.65	67.26	67.93	67.06	68.68	66.32	66.97	66.87	63.38	63.59	61.55
bge-reranker-v2-m3	67.88	63.09	70.15	68.91	68.92	73.00	68.71	68.71	70.27	64.00	68.15	68.47	60.43	63.95	68.80	70.77	69.10	67.44	67.40	69.77	70.03	69.68	66.04	68.29	67.84	66.70	66.34
jina-reranker-v2-multilingual	67.90	63.88	70.31	70.09	70.51	73.09	67.50	70.38	63.00	64.59	69.90	67.34	57.79	62.14	70.36	71.58	69.51	68.61	70.13	70.07	70.15	68.80	68.02	69.39	67.23	65.77	65.37

tagCoIR (Text2Text, Recuperación de Información de Código)

CoIR: Un Benchmark Integral para Modelos de Recuperación de Información de Código

A pesar del éxito sustancial de la Recuperación de Información (IR) en varias tareas de PNL, la mayoría de los sistemas de IR manejan predominantemente consultas y corpus en lenguaje natural, descuidando el dominio de la recuperación de código. La recuperación de código es críticamente importante pero sigue siendo poco explorada, con métodos y benchmarks existentes que representan inadecuadamente la diversidad del código en varios dominios y tareas. Abordando esta brecha, presentamos COIR (Benchmark de Recuperación de Información de Código), un benchmark robusto e integral específicamente diseñado para evaluar las capacidades de recuperación de código. COIR comprende diez conjuntos de datos de código meticulosamente curados, abarcando ocho tareas distintivas de recuperación a través de siete dominios diversos. Primero discutimos la construcción de COIR y su diversa composición de conjuntos de datos. Además, evaluamos nueve modelos de recuperación ampliamente utilizados usando COIR, descubriendo dificultades significativas en la realización de tareas de recuperación de código incluso con sistemas de última generación. Para facilitar la adopción e integración fácil dentro de los flujos de trabajo de investigación existentes, COIR ha sido desarrollado como un framework de Python fácil de usar, instalable a través de pip. Comparte el mismo esquema de datos que otros benchmarks populares como MTEB y BEIR, permitiendo evaluaciones comparativas entre benchmarks sin problemas. A través de COIR, buscamos vigorizar la investigación en el dominio de recuperación de código, proporcionando una herramienta de evaluación versátil que fomenta el desarrollo y la exploración adicional de sistemas de recuperación de código https://github.com/CoIR-team/coir.

arXiv.orgXiangyang Li

CoIR es un benchmark integral diseñado para evaluar las capacidades de los modelos en la recuperación de código. Incluye 10 conjuntos de datos de código curados que abarcan 8 tareas de recuperación en 7 dominios diversos. Se proporciona un framework Python para este benchmark.

Model Name	Avg (NDCG@10)	Text-to-Code			Code-to-Text							Code-to-Code									Hybrid Code
		Apps	CosQA	SQL	CSN							CSN-CCR							CodeTransOcean		StackOver Flow	CodeFeedBack
		Apps	CosQA	SQL	AVG	python	javascript	go	ruby	java	php	AVG	python	javascript	go	ruby	java	php	-Contest	-DL	StackOver Flow	-MT	-ST
jina-reranker-m0	63.55	26.21	37.75	57.92	80.76	98.37	71.16	86.14	72.74	79.02	77.14	74.57	81.66	77.92	68.71	75.44	77.54	66.13	79.79	31.89	90.41	72.25	83.95
jina-embeddings-v2-base-code (top 100)	56.90	16.34	41.72	49.79	83.95	94.71	76.35	87.39	78.23	82.69	84.35	59.65	68.23	62.31	49.15	65.40	63.89	48.92	79.20	30.35	89.42	49.62	68.93
bge-reranker-v2-m3	35.97	8.33	30.06	50.63	49.26	67.62	39.55	58.11	41.37	44.77	44.13	40.81	42.57	42.75	38.04	38.04	41.73	41.73	34.93	5.09	60.12	16.44	64.05
jina-reranker-v2-multilingual	56.14	21.90	37.26	53.56	78.88	97.83	67.43	84.64	68.93	75.73	78.71	63.59	72.62	67.80	55.07	67.25	64.25	54.54	73.67	25.74	91.24	42.03	73.59

tagViDoRe (Benchmark de Recuperación Visual de Documentos Text2Image)

ColPali: Recuperación Eficiente de Documentos con Modelos de Lenguaje Visual

Los documentos son estructuras visualmente ricas que transmiten información a través del texto, pero también mediante figuras, diseños de página, tablas o incluso fuentes. Dado que los sistemas de recuperación modernos se basan principalmente en la información textual que extraen de las páginas de documentos para indexarlos -a menudo mediante procesos largos y frágiles-, tienen dificultades para explotar eficientemente las claves visuales clave. Esto limita sus capacidades en muchas aplicaciones prácticas de recuperación de documentos como la Generación Aumentada por Recuperación (RAG). Para evaluar los sistemas actuales en la recuperación de documentos visualmente ricos, presentamos el Benchmark de Recuperación Visual de Documentos ViDoRe, compuesto por varias tareas de recuperación a nivel de página que abarcan múltiples dominios, idiomas y configuraciones prácticas. La complejidad inherente y las deficiencias de rendimiento de los sistemas modernos motivan un nuevo concepto: realizar la recuperación de documentos incrustando directamente las imágenes de las páginas del documento. Presentamos ColPali, un Modelo de Lenguaje Visual entrenado para producir incrustaciones multi-vector de alta calidad a partir de imágenes de páginas de documentos. Combinado con un mecanismo de coincidencia de interacción tardía, ColPali supera ampliamente a los sistemas modernos de recuperación de documentos mientras que es drásticamente más simple, rápido y entrenable de extremo a extremo. Liberamos modelos, datos, código y benchmarks bajo licencias abiertas en https://hf.co/vidore.

arXiv.orgManuel Faysse

ViDoRe es un benchmark diseñado para evaluar sistemas de recuperación en su capacidad para relacionar consultas con documentos relevantes utilizando características visuales. Abarca varias tareas de recuperación a nivel de página en múltiples dominios e idiomas. El benchmark se centra en los elementos visuales de los documentos.

Model Name	AVG (NDCG@5)	TAT-DQA	Shift Project	Artificial Intelligence	Government Reports	ArxivQA	DocVQA	Healthcare Industry	InfoVQA	Energy	TabFQuad
jina-reranker-m0	91.02	81.83	93.22	99.63	97.59	89.82	62.58	99.26	92.88	96.06	97.32
MrLight/dse-qwen2-2b-mr1-v1	84.48	66.64	79.39	96.45	95.30	84.53	55.47	96.85	86.39	91.80	92.03
MonoQwen2-VL-v0.1	87.64	79.50	76.38	98.39	93.63	89.50	57.47	98.39	92.12	95.29	95.75

tagM-BEIR (Text2Image, Image2Text, Benchmark Multimodal para Recuperación con Instrucciones)

UniIR: Training and Benchmarking Universal Multimodal Information Retrievers

Los modelos de recuperación de información (IR) existentes a menudo asumen un formato homogéneo, limitando su aplicabilidad a diversas necesidades de usuario, como buscar imágenes con descripciones de texto, buscar un artículo de noticias con una imagen de cabecera o encontrar una foto similar con una imagen de consulta. Para abordar estas diferentes demandas de búsqueda de información, presentamos UniIR, un recuperador multimodal unificado guiado por instrucciones capaz de manejar ocho tareas distintas de recuperación entre modalidades. UniIR, un sistema único de recuperación entrenado conjuntamente en diez diversos conjuntos de datos de IR multimodal, interpreta las instrucciones del usuario para ejecutar varias tareas de recuperación, demostrando un rendimiento robusto en conjuntos de datos existentes y generalización zero-shot a nuevas tareas. Nuestros experimentos destacan que el entrenamiento multitarea y el ajuste de instrucciones son claves para la capacidad de generalización de UniIR. Además, construimos el M-BEIR, un benchmark de recuperación multimodal con resultados completos, para estandarizar la evaluación de la recuperación de información multimodal universal.

arXiv.orgCong Wei

M-BEIR es un benchmark integral a gran escala diseñado para entrenar y evaluar modelos de recuperación multimodal. Comprende ocho tareas de recuperación multimodal y diez conjuntos de datos de diversos dominios y fuentes. El benchmark se centra en la recuperación basada en instrucciones.

Model	MBEIR t2i VisualNews Recall@5	MBEIR t2i MSCOCO Recall@5	MBEIR t2i Fashion200K Recall@10	MBEIR i2t VisualNews Recall@5	MBEIR i2t MSCOCO Recall@5	MBEIR i2t Fashion200K Recall@10
jina-reranker-m0	23.89	72.19	9.79	17.61	41.21	11.56
jinaai/jina-clip-v2	15.42	52.28	7.03	11.63	28.80	8.78
MonoQwen2-VL-v0.1	22.74	71.29	10.00	15.08	42.24	11.25

tagWinoground (Text2Text, Text2Image)

Winoground: Probing Vision and Language Models for Visio-Linguistic Compositionality

Presentamos una nueva tarea y conjunto de datos para evaluar la capacidad de los modelos de visión y lenguaje para realizar razonamiento composicional visio-lingüístico, que llamamos Winoground. Dados dos imágenes y dos subtítulos, el objetivo es emparejarlos correctamente - pero crucialmente, ambos subtítulos contienen un conjunto idéntico de palabras, solo que en un orden diferente. El conjunto de datos fue cuidadosamente curado a mano por anotadores expertos y está etiquetado con un rico conjunto de etiquetas detalladas para ayudar en el análisis del rendimiento del modelo. Probamos una amplia gama de modelos de visión y lenguaje de última generación y encontramos que, sorprendentemente, ninguno de ellos funciona mucho mejor que el azar. Evidentemente, estos modelos no son tan hábiles en el razonamiento composicional visio-lingüístico como podríamos haber esperado. Realizamos un análisis exhaustivo para obtener información sobre cómo el trabajo futuro podría intentar mitigar las deficiencias de estos modelos. Aspiramos a que Winoground sirva como un conjunto de evaluación útil para avanzar en el estado del arte e impulsar más progreso en el campo. El conjunto de datos está disponible en https://huggingface.co/datasets/facebook/winoground.

arXiv.orgTristan Thrush

Winoground es una tarea y conjunto de datos novedoso para evaluar la capacidad de los modelos de visión y lenguaje para realizar razonamiento composicional visio-lingüístico. Utiliza leyendas gemelas con contenido de palabras idéntico y emplea pares contrastantes de imagen-leyenda. El enfoque está en el razonamiento composicional.

Model	Text	Image	Group	Avg
jina-reranker-m0	57.00	40.75	34.00	43.92
MrLight/dse-qwen2-2b-mrl-v1	7.50	9.25	1.75	6.17
MonoQwen2-VL-v0.1	52.00	36.25	31.50	39.92

Winoground evalúa los modelos de visión-lenguaje utilizando tres métricas clave: Puntuación de Texto, Puntuación de Imagen y Puntuación de Grupo. La Puntuación de Texto mide si un modelo relaciona correctamente las leyendas con las imágenes, mientras que la Puntuación de Imagen evalúa si selecciona la imagen correcta para una leyenda. La Puntuación de Grupo, la métrica más rigurosa, requiere que todas las relaciones leyenda-imagen sean identificadas correctamente. Las puntuaciones son porcentajes que representan tasas de precisión, donde valores más altos indican mejores capacidades de razonamiento.

tagConclusión

jina-reranker-m0 es nuestro primer intento de unificar modalidades textuales y visuales en un único modelo decoder-only. Esta nueva arquitectura incorpora lecciones aprendidas de nuestros modelos anteriores de recuperación encoder-only, incluyendo jina-clip-v2, jina-embeddings-v3, jina-reranker-v2-base-multilingual y jina-embeddings-v2-base-code.

El nuevo modelo no solo desbloquea capacidades para tareas de recuperación multimodal, como la reordenación de texto a imagen y la reordenación de documentos visuales, sino que también demuestra un rendimiento mejorado en comparación con jina-reranker-v2-base-multilingual en tareas de reordenación de texto a texto y texto a código. Designamos esta nueva serie de modelos como la "serie m" para resaltar su naturaleza multimodal.

Al comparar jina-reranker-m0 con jina-reranker-v2-base-multilingual, nuestro objetivo para la serie m es lograr multimodalidad mientras mejoramos el rendimiento en tareas de solo texto a un nivel comparable a los modelos especializados de solo texto. Algunos podrían cuestionar el valor de usar un modelo 8 veces más grande si la mejora del rendimiento en tareas de solo texto parece marginal. Si bien es cierto por el momento que m0 puede no proporcionar un valor agregado sustancial sobre v2 para aplicaciones de solo texto, la arquitectura decoder-only abre muchas nuevas posibilidades que no eran alcanzables con arquitecturas encoder-only, incluyendo:

Reordenación de modalidad mixta verdadera
Reordenación por lista y deduplicación de documentos
Explicabilidad de la puntuación de clasificación mediante mecanismo de atención

Nuestro trabajo futuro se centrará en mejorar aún más el reordenador de solo texto y aprovechar completamente las nuevas características habilitadas por esta arquitectura multimodal para lograr una búsqueda mejor y más amplia.