Noticias
Modelos
API
keyboard_arrow_down
Lector
Lea las URL y busque en la web para obtener una base más sólida para su LLM.
Incrustaciones
Integraciones multilingües y multimodales de clase mundial.
reclasificador
Recuperador neuronal de clase mundial para maximizar la relevancia de la búsqueda.
Servicio de inferencia elástica
Ejecuta modelos Jina de forma nativa dentro de Elasticsearch.
MCP terminalCLIarticlellms.txtsmart_toyAgentesdata_objectEsquemamenu_bookDocumentos



Acceso
login
reclasificador
copyright CC BY-NC 4.0
open_in_new Publicación de lanzamiento

jina-reranker-m0

Modelo de reranking multimodal multilingüe para la clasificación de documentos visuales
Licencia
copyright CC-BY-NC-4.0
Fecha de lanzamiento
calendar_month
2025-04-08
Aporte
abc
Texto (Consulta)
image
Imagen (Consulta)
abc
Texto (Documento)
image
Imagen (Documento)
arrow_forward
Producción
format_list_numbered
Clasificaciones
Detalles del modelo
Parámetros: 2.4B
Longitud del token de entrada: 10K
Tamaño de la imagen de entrada: 768×28×28
Modelo base help_outline
open_in_new
Qwen2-VL-2B
Idiomas entrenados help_outline
24 idiomas
Idiomas admitidos help_outline
29 idiomas
Cuantizaciones help_outline
GGUF
Modelos relacionados
link
jina-reranker-v2-base-multilingual
Etiquetas
multimodal
multilingual
code-search
long-context
reranker
vlm
decoder-only
Disponible a través de
API de JinaAWS SageMakerMicrosoft AzureNube de GoogleCara abrazada
Gráfico de E/S 1

múltiple

Texto

Texto

jina-reranker-m0

Categoría

Gráfico de E/S 2

múltiple

Imagen

Texto

jina-reranker-m0

Categoría

Gráfico de E/S 3

múltiple

Texto

Imagen

jina-reranker-m0

Categoría

Gráfico de E/S 4

múltiple

Imagen

Imagen

jina-reranker-m0

Categoría

Elige modelos para comparar

Descripción general

jina-reranker-m0 es un innovador modelo de reranking multimodal y multilingüe, diseñado para clasificar documentos visuales en varios idiomas. Lo que hace excepcional a este modelo es su capacidad para procesar consultas junto con imágenes de documentos visualmente ricas (incluyendo páginas con texto, figuras, tablas y diversos diseños) en 29 idiomas. El modelo genera una lista de documentos ordenados por su relevancia para la consulta de entrada. A diferencia de los rerankers anteriores que presentaban dificultades con el problema de la "brecha de modalidad" (donde las imágenes se agrupaban cerca de otras imágenes mientras que el texto se agrupaba cerca del texto), jina-reranker-m0 unifica las modalidades textual y visual en un único modelo basado únicamente en decodificador, creando una experiencia de búsqueda multimodal fluida que permite clasificar eficazmente tanto imágenes como documentos de texto.

Métodos

La arquitectura de jina-reranker-m0 representa un cambio significativo respecto a los enfoques anteriores. Basado en Qwen2-VL-2B con 2400 millones de parámetros, evoluciona de una arquitectura clásica de codificador cruzado a un modelo de lenguaje de visión basado únicamente en decodificador. El sistema aprovecha el codificador y proyector de visión preentrenados de Qwen2-VL, optimiza su amplio modelo de lenguaje con LoRA (adaptación de bajo rango) y emplea un MLP posentrenado para generar logits de clasificación que miden la relevancia de la consulta y el documento. Este modelo discriminativo puede gestionar hasta 32 000 tokens y admite imágenes de 56×56 píxeles con una resolución de hasta 4K. Al procesar imágenes, el Transformador de Visión (ViT) y el proyector condensan los tokens adyacentes de 2×2 en tokens visuales individuales, mientras que tokens especiales marcan claramente los límites de los tokens visuales, lo que permite que el modelo de lenguaje se integre y razone correctamente entre elementos visuales y textuales.

Actuación

Jina-reranker-m0 obtiene resultados impresionantes en múltiples pruebas de referencia. En la reclasificación de texto a texto, obtiene una puntuación de 58,95 NDCG-10 en la prueba BEIR, superando a competidores como jina-embeddings-v3 (55,81) y bge-reranker-v2-m3 (56,51). Para contenido multilingüe, obtiene una puntuación de 66,75 NDCG-10 en la prueba MIRACL, que abarca 18 idiomas. En la prueba MLDR para documentos largos, obtiene una puntuación de 59,83 NDCG-10 en 13 idiomas. En la recuperación de código, en la prueba CoIR, obtiene una puntuación de 63,55 NDCG-10, superando significativamente a la competencia. Pero el modelo realmente brilla en la recuperación de documentos visuales: en el benchmark ViDoRe, obtiene un impresionante puntaje de 91,02 NDCG-5, mientras que en Winoground, que prueba el razonamiento compositivo visolingüístico, alcanza un puntaje promedio de 43,92, lo que demuestra su capacidad superior para comprender las relaciones entre texto e imágenes en comparación con otros modelos.

Guía

Para maximizar el potencial de jina-reranker-m0, los desarrolladores deben considerar varias estrategias de implementación. El modelo es accesible mediante API, marketplaces de servicios en la nube (AWS, Azure, GCP) o localmente a través de Hugging Face. Al usar la API, los desarrolladores pueden pasar cadenas de texto, imágenes base64 o URL de imágenes, y los nuevos usuarios pueden optar a diez millones de tokens gratuitos. Si bien el modelo funciona excepcionalmente bien en tareas de texto a texto, texto a imagen, imagen a texto y texto a unimodal mixto gracias a un entrenamiento exhaustivo, cabe destacar que algunas combinaciones (como imagen a imagen) se admiten de forma automática sin entrenamiento específico. Para obtener resultados óptimos, recuerde que el modelo admite hasta 10 000 tokens de entrada con hasta 768 tokens por imagen. El enfoque de solo decodificador de la arquitectura abre posibilidades más allá de la simple reclasificación, incluida la reclasificación de modalidad mixta real, la reclasificación por lista, la deduplicación de documentos y la explicabilidad de la puntuación de clasificación a través de mecanismos de atención, capacidades que no se podían lograr con arquitecturas anteriores de solo codificador.
Blogs que mencionan este modelo
abril 08, 2025 • 21 minutos de lectura
jina-reranker-m0: Reranqueador multilingüe y multimodal de documentos
Presentamos jina-reranker-m0, nuestro nuevo reranker multimodal multilingüe para recuperar documentos visuales, con rendimiento SOTA en documentos largos multilingües y tareas de búsqueda de código.
Jina AI
Modern dot matrix text display on a dark blue background, conveying a digital feel.
mayo 25, 2025 • 8 minutos de lectura
Puntuación Justa para Documentos Multimodales con jina-reranker-m0
Similitud de texto: 0.7. Similitud de imagen: 0.5. ¿Qué documento es más relevante? Literalmente no se puede saber, y ese es el problema principal que está afectando a la búsqueda multimodal. Lo solucionamos con la función de reordenamiento unificada (unified reranking).
Nan Wang
Alex C-G
Stacked glowing green ovals on a background transitioning from black to green, with the top oval having an unusual, split sha
octubre 03, 2025 • 7 minutos de lectura
Jina Reranker v3: Reranker Listwise de 0.6B para la recuperación multilingüe SOTA
Nuevo reranker listwise de 0.6B parámetros que considera la consulta y todos los documentos candidatos en una sola ventana de contexto.
Jina AI
Light blue background with stylized text in the center, composed of small dots or squares, evoking a modern and minimalistic
agosto 13, 2025 • 15 minutos de lectura
Optimización de GGUF para modelos de Embeddings solo de decodificador
4000 tokens/segundo para un modelo de 向量模型 de 3B parámetros en una GPU L4 es probablemente lo más rápido que conseguirás con llama.cpp. ¿O no?
Han Xiao
Text "DGUF for Embedding Models" written in yellow on a dark background, conveying a sleek, minimalistic, digital design.
agosto 11, 2025 • 8 minutos de lectura
Lo que aprendimos en SIGIR 2025
Compartiendo lo que vimos y aprendimos en SIGIR 2025, con CLIP-AdaM, RE-AdaptIR y evaluaciones para sistemas de recuperación basados en LLM.
Michael Günther
Bo Wang
Scott Martens
Conference scene in a large auditorium with a "SIGIR 2025" banner on the projected screen, a speaker on stage, and attendees
Fundación de búsqueda
Lector
Incrustaciones
reclasificador
Servicio de inferencia elástica
open_in_new
Obtener la clave API de Jina
Límite de velocidad
Estado de la API
Compañía
Sobre nosotros
Sala de prensa
Descargar el logotipo de Jina
open_in_new
Descargar el logotipo de Elastic
open_in_new
Términos
Seguridad
Términos y condiciones
Privacidad
Administrar cookies
Elástico © 2020-2026.