
Hoy lanzamos jina-reranker-m0, nuestro nuevo modelo de reordenamiento multilingüe y multimodal para clasificar documentos visuales en múltiples idiomas: acepta una consulta junto con una colección de imágenes de documentos visualmente ricos, incluyendo páginas con texto, figuras, tablas, infografías y varios diseños a través de múltiples dominios y más de 29 idiomas. Produce una lista ordenada de documentos según su relevancia para la consulta de entrada. En comparación con jina-reranker-v2-base-multilingual, jina-reranker-m0 también mejora la reordenación de texto para contenido multilingüe, documentos largos y tareas de búsqueda de código.


tagNueva Arquitectura
A diferencia de jina-reranker-v2-base-multilingual, jina-reranker-m0 cambia de la arquitectura clásica de codificador cruzado a un modelo de lenguaje visual basado únicamente en decodificador. Aprovecha el codificador y proyector de visión preentrenado de Qwen2-VL, ajustó su LLM con LoRA, y post-entrenó un MLP para generar logits de clasificación que miden la relevancia consulta-documento. Esto proporciona un modelo discriminativo optimizado para tareas de clasificación.
| jina-reranker-m0 | jina-reranker-v2 |
|
|---|---|---|
| Arquitectura | Vision Language Model | Cross-Encoder |
| Modelo base | Qwen2-VL-2B | Jina-XLM-RoBERTa |
| Parámetros | 2.4 B | 278 M |
| Longitud máxima de contexto (consulta + documento) | 10,240 | 8,192 |
| Máximo de parches de imagen (resolución dinámica) | 768 × 28 × 28 | ❌ |
| Soporte multilingüe | ✅ | ✅ |
| Tareas soportadas | Text2Text, Text2Image, Image2Text, Text2Mixed | Text2Text |
Esta nueva arquitectura permite a jina-reranker-m0 manejar hasta 32K tokens, combinando perfectamente entradas visuales y textuales. El modelo admite imágenes desde un tamaño mínimo de 56×56 píxeles hasta resolución 4K. Al procesar imágenes, el ViT y el proyector condensan tokens adyacentes de 2×2 en tokens visuales únicos para la entrada del LLM. Tokens especiales como <|vision_start|> y <|vision_end|> marcan claramente los límites de los tokens visuales, permitiendo que el modelo de lenguaje procese adecuadamente la información visual y realice razonamiento multimodal sofisticado que integra elementos tanto visuales como textuales.
Esta arquitectura también resuelve efectivamente el problema de la brecha de modalidad que plagó modelos anteriores como jina-clip-v1 y jina-clip-v2. Anteriormente, las imágenes se agrupaban cerca de otras imágenes mientras que el texto se agrupaba cerca de otro texto en el espacio de representación, creando una desconexión. Esto significaba que cuando tus documentos candidatos contenían tanto imágenes como texto, recuperar imágenes usando consultas de texto era problemático. Con jina-reranker-m0, ahora puedes clasificar imágenes y documentos juntos sin preocuparte por esta brecha, creando una experiencia de búsqueda multimodal verdaderamente unificada.
Vale la pena señalar que nuestro entrenamiento se limitó a un máximo de 10K tokens de entrada, con hasta 768 tokens por imagen (entre los marcadores <|vision_start|> y <|vision_end|>). Además, no entrenamos específicamente el modelo para tareas de reordenamiento image-to-image, image-to-multimodal, o text-to-multimodal. En este contexto, "multimodal" se refiere a un solo documento que contiene tanto tokens de imagen como de texto en la entrada. Mirando todas las posibles combinaciones de tokens de imagen y texto tanto en consultas como en documentos, podemos resumir el rango completo de tareas soportadas por jina-reranker-m0 en la tabla siguiente.

En nuestras pruebas, encontramos evidencia que sugiere que el modelo puede extrapolar a estas tareas de clasificación no entrenadas, pero cualquier efectividad en estas áreas debe verse como resultado de la transferibilidad zero-shot del modelo o efectos secundarios no intencionados del entrenamiento. No hemos realizado evaluaciones serias del rendimiento del modelo en estas tareas, y planeamos explorar estas capacidades más a fondo en investigaciones futuras.
tagPrimeros Pasos
tagA través de API
El código a continuación muestra cómo calcular puntuaciones de relevancia entre la consulta "small language model data extraction" y una colección de imágenes y documentos de texto. Puedes pasar una cadena de texto, una imagen codificada en base64 o una URL de imagen. Los nuevos usuarios pueden obtener una clave API de Jina con 1 millón de tokens gratuitos. Si bien nuestra API no admite el uso de imágenes como consultas, puedes usar imágenes como consultas cuando accedes al modelo a través de la biblioteca Hugging Face Transformers.
curl -X POST \
https://api.jina.ai/v1/rerank \
-H "Content-Type: application/json" \
-H "Authorization: Bearer JINA_API_KEY" \
-d '{
"model": "jina-reranker-m0",
"query": "small language model data extraction",
"documents": [
{
"image": "https://raw.githubusercontent.com/jina-ai/multimodal-reranker-test/main/handelsblatt-preview.png"
},
{
"image": "https://raw.githubusercontent.com/jina-ai/multimodal-reranker-test/main/paper-11.png"
},
{
"image": "https://raw.githubusercontent.com/jina-ai/multimodal-reranker-test/main/wired-preview.png"
},
{
"text": "We present ReaderLM-v2, a compact 1.5 billion parameter language model designed for efficient web content extraction. Our model processes documents up to 512K tokens, transforming messy HTML into clean Markdown or JSON formats with high accuracy -- making it an ideal tool for grounding large language models. The models effectiveness results from two key innovations: (1) a three-stage data synthesis pipeline that generates high quality, diverse training data by iteratively drafting, refining, and critiquing web content extraction; and (2) a unified training framework combining continuous pre-training with multi-objective optimization. Intensive evaluation demonstrates that ReaderLM-v2 outperforms GPT-4o-2024-08-06 and other larger models by 15-20% on carefully curated benchmarks, particularly excelling at documents exceeding 100K tokens, while maintaining significantly lower computational requirements."
},
{
"image": "https://jina.ai/blog-banner/using-deepseek-r1-reasoning-model-in-deepsearch.webp"
},
{
"text": "数据提取么?为什么不用正则啊,你用正则不就全解决了么?"
},
{
"text": "During the California Gold Rush, some merchants made more money selling supplies to miners than the miners made finding gold."
},
{
"text": "Die wichtigsten Beiträge unserer Arbeit sind zweifach: Erstens führen wir eine neuartige dreistufige Datensynthese-Pipeline namens Draft-Refine-Critique ein, die durch iterative Verfeinerung hochwertige Trainingsdaten generiert; und zweitens schlagen wir eine umfassende Trainingsstrategie vor, die kontinuierliches Vortraining zur Längenerweiterung, überwachtes Feintuning mit spezialisierten Kontrollpunkten, direkte Präferenzoptimierung (DPO) und iteratives Self-Play-Tuning kombiniert. Um die weitere Forschung und Anwendung der strukturierten Inhaltsextraktion zu erleichtern, ist das Modell auf Hugging Face öffentlich verfügbar."
}
],
"return_documents": false
}'La respuesta se muestra a continuación, donde el primer resultado index=1 corresponde a nuestra captura de pantalla del paper de ReaderLM-v2 paper screenshot.
{"model":"jina-reranker-m0","usage":{"total_tokens":2829},"results":[{"index":1,"relevance_score":0.9587112551898949},{"index":3,"relevance_score":0.9337408271911014},{"index":7,"relevance_score":0.8922925217195924},{"index":2,"relevance_score":0.8891905997562045},{"index":0,"relevance_score":0.8827516945848907},{"index":4,"relevance_score":0.8701035914834407},{"index":6,"relevance_score":0.8676828987527296},{"index":5,"relevance_score":0.8455347349164652}]}tagA través de Marketplaces CSP
jina-reranker-m0 estará pronto disponible directamente en AWS, Azure y GCP a los precios listados allí.
tagA través de HuggingFace
También puedes usar el modelo localmente desde nuestra página de Hugging Face. Hemos preparado un notebook de Google Colab que demuestra cómo funciona. En comparación con nuestra API web, usar el modelo localmente ofrece mayor flexibilidad, como la capacidad de usar imágenes como consultas y trabajar con documentos multimodales.

tagEvaluación
Las evaluaciones completas se pueden encontrar en esta hoja de cálculo de Google.
tagBEIR (Texto a Texto, solo inglés)

BEIR es un benchmark heterogéneo para la recuperación de información, diseñado para evaluar la versatilidad y robustez de los modelos IR. Contiene un conjunto diverso de datasets de varios dominios y se centra en la evaluación zero-shot. Se utilizan métricas de evaluación estandarizadas como NDCG, Recall@K y MRR.
| Model | AVG (NDCG@10) | TREC-COVID | NFCorpus | NQ | HotpotQA | FiQA | ArguAna | Touche-2020 | DBPedia | SCIDOCS | FEVER | Climate-FEVER | SciFact | Quora |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| jina-reranker-m0 | 58.95 | 84.17 | 41.03 | 72.25 | 76.99 | 51.62 | 40.69 | 31.79 | 49.34 | 22.91 | 91.14 | 36.42 | 79.94 | 88.01 |
| jina-embeddings-v3 (1024 tokens) | 55.81 | 77.81 | 36.65 | 64.31 | 64.63 | 47.47 | 54.31 | 26.55 | 41.07 | 19.91 | 89.00 | 42.33 | 72.4 | 89.06 |
| bge-reranker-v2-m3 | 56.51 | 82.19 | 34.33 | 69.52 | 77.89 | 45.45 | 36.21 | 33.12 | 46.72 | 17.79 | 91.03 | 38.69 | 72.64 | 89.10 |
| jina-reranker-v2-multilingual | 57.06 | 80.53 | 37.17 | 67.39 | 76.17 | 46.48 | 39.28 | 32.35 | 47.81 | 20.03 | 93.02 | 37.17 | 76.50 | 87.83 |
tagMIRACL (Text2Text, Multilingüe, 18 idiomas)

MIRACL es un extenso conjunto de datos multilingüe para la recuperación de información ad hoc en 18 idiomas. Abarca más de tres mil millones de hablantes nativos y cuenta con detalladas anotaciones humanas. Se centra en tareas de recuperación monolingüe.
| Model | AVG (NDCG@10) | ar | bn | en | es | fa | fi | fr | hi | id | ja | ko | ru | sw | te | th | zh | de | yo |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| jina-reranker-m0 | 66.75 | 79.78 | 78.01 | 59.21 | 53.56 | 58.80 | 78.00 | 56.66 | 62.83 | 54.92 | 66.51 | 72.86 | 67.26 | 59.04 | 70.19 | 80.37 | 64.51 | 58.50 | 80.44 |
| jina-embeddings-v3 (8192 tokens) | 58.90 | 71.53 | 69.86 | 48.37 | 46.91 | 54.13 | 71.15 | 50.90 | 55.05 | 47.83 | 56.46 | 64.76 | 55.63 | 54.07 | 70.48 | 73.56 | 55.29 | 49.18 | 65.01 |
| bge-reranker-v2-m3 | 69.32 | 80.51 | 81.85 | 57.67 | 57.64 | 61.92 | 80.38 | 59.60 | 67.66 | 58.86 | 67.37 | 75.14 | 67.61 | 68.92 | 76.69 | 82.29 | 64.46 | 58.32 | 80.85 |
| jina-reranker-v2-multilingual | 63.65 | 72.50 | 79.42 | 46.66 | 51.54 | 57.81 | 73.05 | 50.90 | 60.94 | 56.66 | 59.15 | 72.60 | 53.43 | 66.47 | 74.62 | 77.75 | 62.49 | 53.06 | 76.69 |
tagMLDR (Text2Text, Documentos Multilingües Largos, 13 idiomas)

MLDR es un conjunto de datos multilingüe diseñado específicamente para la recuperación de documentos largos, que abarca 13 idiomas. Utiliza GPT-3.5 para generar preguntas para los documentos. El conjunto de datos está construido sobre Wikipedia, Wudao y mC4.
| Model | AVG (NDCG@10) | ar | de | en | es | fr | hi | it | ja | ko | pt | ru | th | zh |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| jina-reranker-m0 | 59.83 | 55.86 | 51.25 | 54.67 | 87.63 | 82.59 | 32.76 | 73.25 | 58.93 | 55.73 | 86.08 | 66.73 | 39.17 | 33.14 |
| jina-embeddings-v3 (8192 tokens) | 39.71 | 28.44 | 31.57 | 29.07 | 62.08 | 59.79 | 25.47 | 53.72 | 38.36 | 32.37 | 63.26 | 49.65 | 25.15 | 17.26 |
| bge-reranker-v2-m3 | 53.53 | 49.19 | 45.39 | 43.92 | 74.57 | 68.67 | 44.75 | 62.79 | 49.27 | 48.24 | 76.45 | 62.84 | 38.82 | 31.02 |
| jina-reranker-v2-multilingual | 59.50 | 51.96 | 50.13 | 46.85 | 86.34 | 82.25 | 49.50 | 69.00 | 59.07 | 52.19 | 85.26 | 68.06 | 38.73 | 34.15 |
tagMKQA (Text2Text, Respuesta a Preguntas Multilingüe, 24 idiomas, 3 variantes para chino)

MKQA es un conjunto de evaluación de preguntas y respuestas de dominio abierto que comprende 10k pares de preguntas y respuestas alineados en 26 idiomas tipológicamente diversos. Los pares de preguntas y respuestas son muestreados de Google Natural Questions.
| Model | AVG (recall@10) | ar | da | de | es | en | fi | fr | he | hu | it | ja | km | ko | ms | nl | no | pl | pt | ru | sv | th | tr | vi | zh_cn | zh_hk | zh_tw |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| jina-reranker-m0 | 68.19 | 63.88 | 70.57 | 70.52 | 71.26 | 73.47 | 64.10 | 71.11 | 63.68 | 63.23 | 70.30 | 69.13 | 50.43 | 64.30 | 70.78 | 71.73 | 70.25 | 69.72 | 70.57 | 70.78 | 70.69 | 69.80 | 67.90 | 69.68 | 69.12 | 68.23 | 67.79 |
| jina-embeddings-v3 (8192 tokens) | 65.63 | 59.00 | 69.12 | 68.27 | 68.15 | 71.14 | 65.66 | 68.30 | 59.51 | 63.23 | 68.30 | 64.36 | 56.13 | 58.98 | 68.30 | 69.53 | 68.65 | 67.26 | 67.93 | 67.06 | 68.68 | 66.32 | 66.97 | 66.87 | 63.38 | 63.59 | 61.55 |
| bge-reranker-v2-m3 | 67.88 | 63.09 | 70.15 | 68.91 | 68.92 | 73.00 | 68.71 | 68.71 | 70.27 | 64.00 | 68.15 | 68.47 | 60.43 | 63.95 | 68.80 | 70.77 | 69.10 | 67.44 | 67.40 | 69.77 | 70.03 | 69.68 | 66.04 | 68.29 | 67.84 | 66.70 | 66.34 |
| jina-reranker-v2-multilingual | 67.90 | 63.88 | 70.31 | 70.09 | 70.51 | 73.09 | 67.50 | 70.38 | 63.00 | 64.59 | 69.90 | 67.34 | 57.79 | 62.14 | 70.36 | 71.58 | 69.51 | 68.61 | 70.13 | 70.07 | 70.15 | 68.80 | 68.02 | 69.39 | 67.23 | 65.77 | 65.37 |
tagCoIR (Text2Text, Recuperación de Información de Código)

CoIR es un benchmark integral diseñado para evaluar las capacidades de los modelos en la recuperación de código. Incluye 10 conjuntos de datos de código curados que abarcan 8 tareas de recuperación en 7 dominios diversos. Se proporciona un framework Python para este benchmark.
| Model Name | Avg (NDCG@10) | Text-to-Code | Code-to-Text | Code-to-Code | Hybrid Code | ||||||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Apps | CosQA | SQL | CSN | CSN-CCR | CodeTransOcean | StackOver Flow |
CodeFeedBack | ||||||||||||||||
| AVG | python | javascript | go | ruby | java | php | AVG | python | javascript | go | ruby | java | php | -Contest | -DL | -MT | -ST | ||||||
| jina-reranker-m0 | 63.55 | 26.21 | 37.75 | 57.92 | 80.76 | 98.37 | 71.16 | 86.14 | 72.74 | 79.02 | 77.14 | 74.57 | 81.66 | 77.92 | 68.71 | 75.44 | 77.54 | 66.13 | 79.79 | 31.89 | 90.41 | 72.25 | 83.95 |
| jina-embeddings-v2-base-code (top 100) |
56.90 | 16.34 | 41.72 | 49.79 | 83.95 | 94.71 | 76.35 | 87.39 | 78.23 | 82.69 | 84.35 | 59.65 | 68.23 | 62.31 | 49.15 | 65.40 | 63.89 | 48.92 | 79.20 | 30.35 | 89.42 | 49.62 | 68.93 |
| bge-reranker-v2-m3 | 35.97 | 8.33 | 30.06 | 50.63 | 49.26 | 67.62 | 39.55 | 58.11 | 41.37 | 44.77 | 44.13 | 40.81 | 42.57 | 42.75 | 38.04 | 38.04 | 41.73 | 41.73 | 34.93 | 5.09 | 60.12 | 16.44 | 64.05 |
| jina-reranker-v2-multilingual | 56.14 | 21.90 | 37.26 | 53.56 | 78.88 | 97.83 | 67.43 | 84.64 | 68.93 | 75.73 | 78.71 | 63.59 | 72.62 | 67.80 | 55.07 | 67.25 | 64.25 | 54.54 | 73.67 | 25.74 | 91.24 | 42.03 | 73.59 |
tagViDoRe (Benchmark de Recuperación Visual de Documentos Text2Image)

ViDoRe es un benchmark diseñado para evaluar sistemas de recuperación en su capacidad para relacionar consultas con documentos relevantes utilizando características visuales. Abarca varias tareas de recuperación a nivel de página en múltiples dominios e idiomas. El benchmark se centra en los elementos visuales de los documentos.
| Model Name | AVG (NDCG@5) |
TAT-DQA | Shift Project |
Artificial Intelligence |
Government Reports |
ArxivQA | DocVQA | Healthcare Industry |
InfoVQA | Energy | TabFQuad |
|---|---|---|---|---|---|---|---|---|---|---|---|
| jina-reranker-m0 | 91.02 | 81.83 | 93.22 | 99.63 | 97.59 | 89.82 | 62.58 | 99.26 | 92.88 | 96.06 | 97.32 |
| MrLight/dse-qwen2-2b-mr1-v1 | 84.48 | 66.64 | 79.39 | 96.45 | 95.30 | 84.53 | 55.47 | 96.85 | 86.39 | 91.80 | 92.03 |
| MonoQwen2-VL-v0.1 | 87.64 | 79.50 | 76.38 | 98.39 | 93.63 | 89.50 | 57.47 | 98.39 | 92.12 | 95.29 | 95.75 |
tagM-BEIR (Text2Image, Image2Text, Benchmark Multimodal para Recuperación con Instrucciones)

M-BEIR es un benchmark integral a gran escala diseñado para entrenar y evaluar modelos de recuperación multimodal. Comprende ocho tareas de recuperación multimodal y diez conjuntos de datos de diversos dominios y fuentes. El benchmark se centra en la recuperación basada en instrucciones.
| Model | MBEIR t2i VisualNews Recall@5 |
MBEIR t2i MSCOCO Recall@5 |
MBEIR t2i Fashion200K Recall@10 |
MBEIR i2t VisualNews Recall@5 |
MBEIR i2t MSCOCO Recall@5 |
MBEIR i2t Fashion200K Recall@10 |
|---|---|---|---|---|---|---|
| jina-reranker-m0 | 23.89 | 72.19 | 9.79 | 17.61 | 41.21 | 11.56 |
| jinaai/jina-clip-v2 | 15.42 | 52.28 | 7.03 | 11.63 | 28.80 | 8.78 |
| MonoQwen2-VL-v0.1 | 22.74 | 71.29 | 10.00 | 15.08 | 42.24 | 11.25 |
tagWinoground (Text2Text, Text2Image)

Winoground es una tarea y conjunto de datos novedoso para evaluar la capacidad de los modelos de visión y lenguaje para realizar razonamiento composicional visio-lingüístico. Utiliza leyendas gemelas con contenido de palabras idéntico y emplea pares contrastantes de imagen-leyenda. El enfoque está en el razonamiento composicional.
| Model | Text | Image | Group | Avg |
|---|---|---|---|---|
| jina-reranker-m0 | 57.00 | 40.75 | 34.00 | 43.92 |
| MrLight/dse-qwen2-2b-mrl-v1 | 7.50 | 9.25 | 1.75 | 6.17 |
| MonoQwen2-VL-v0.1 | 52.00 | 36.25 | 31.50 | 39.92 |
Winoground evalúa los modelos de visión-lenguaje utilizando tres métricas clave: Puntuación de Texto, Puntuación de Imagen y Puntuación de Grupo. La Puntuación de Texto mide si un modelo relaciona correctamente las leyendas con las imágenes, mientras que la Puntuación de Imagen evalúa si selecciona la imagen correcta para una leyenda. La Puntuación de Grupo, la métrica más rigurosa, requiere que todas las relaciones leyenda-imagen sean identificadas correctamente. Las puntuaciones son porcentajes que representan tasas de precisión, donde valores más altos indican mejores capacidades de razonamiento.
tagConclusión
jina-reranker-m0 es nuestro primer intento de unificar modalidades textuales y visuales en un único modelo decoder-only. Esta nueva arquitectura incorpora lecciones aprendidas de nuestros modelos anteriores de recuperación encoder-only, incluyendo jina-clip-v2, jina-embeddings-v3, jina-reranker-v2-base-multilingual y jina-embeddings-v2-base-code.
El nuevo modelo no solo desbloquea capacidades para tareas de recuperación multimodal, como la reordenación de texto a imagen y la reordenación de documentos visuales, sino que también demuestra un rendimiento mejorado en comparación con jina-reranker-v2-base-multilingual en tareas de reordenación de texto a texto y texto a código. Designamos esta nueva serie de modelos como la "serie m" para resaltar su naturaleza multimodal.
Al comparar jina-reranker-m0 con jina-reranker-v2-base-multilingual, nuestro objetivo para la serie m es lograr multimodalidad mientras mejoramos el rendimiento en tareas de solo texto a un nivel comparable a los modelos especializados de solo texto. Algunos podrían cuestionar el valor de usar un modelo 8 veces más grande si la mejora del rendimiento en tareas de solo texto parece marginal. Si bien es cierto por el momento que m0 puede no proporcionar un valor agregado sustancial sobre v2 para aplicaciones de solo texto, la arquitectura decoder-only abre muchas nuevas posibilidades que no eran alcanzables con arquitecturas encoder-only, incluyendo:
- Reordenación de modalidad mixta verdadera
- Reordenación por lista y deduplicación de documentos
- Explicabilidad de la puntuación de clasificación mediante mecanismo de atención
Nuestro trabajo futuro se centrará en mejorar aún más el reordenador de solo texto y aprovechar completamente las nuevas características habilitadas por esta arquitectura multimodal para lograr una búsqueda mejor y más amplia.














