Disponible a través de
Gráfico de E/S 1
Gráfico de E/S 2
Gráfico de E/S 3
Gráfico de E/S 4
Elige modelos para comparar
Descripción general
jina-reranker-m0 es un innovador modelo de reranking multimodal y multilingüe, diseñado para clasificar documentos visuales en varios idiomas. Lo que hace excepcional a este modelo es su capacidad para procesar consultas junto con imágenes de documentos visualmente ricas (incluyendo páginas con texto, figuras, tablas y diversos diseños) en 29 idiomas. El modelo genera una lista de documentos ordenados por su relevancia para la consulta de entrada. A diferencia de los rerankers anteriores que presentaban dificultades con el problema de la "brecha de modalidad" (donde las imágenes se agrupaban cerca de otras imágenes mientras que el texto se agrupaba cerca del texto), jina-reranker-m0 unifica las modalidades textual y visual en un único modelo basado únicamente en decodificador, creando una experiencia de búsqueda multimodal fluida que permite clasificar eficazmente tanto imágenes como documentos de texto.
Métodos
La arquitectura de jina-reranker-m0 representa un cambio significativo respecto a los enfoques anteriores. Basado en Qwen2-VL-2B con 2400 millones de parámetros, evoluciona de una arquitectura clásica de codificador cruzado a un modelo de lenguaje de visión basado únicamente en decodificador. El sistema aprovecha el codificador y proyector de visión preentrenados de Qwen2-VL, optimiza su amplio modelo de lenguaje con LoRA (adaptación de bajo rango) y emplea un MLP posentrenado para generar logits de clasificación que miden la relevancia de la consulta y el documento. Este modelo discriminativo puede gestionar hasta 32 000 tokens y admite imágenes de 56×56 píxeles con una resolución de hasta 4K. Al procesar imágenes, el Transformador de Visión (ViT) y el proyector condensan los tokens adyacentes de 2×2 en tokens visuales individuales, mientras que tokens especiales marcan claramente los límites de los tokens visuales, lo que permite que el modelo de lenguaje se integre y razone correctamente entre elementos visuales y textuales.
Actuación
Jina-reranker-m0 obtiene resultados impresionantes en múltiples pruebas de referencia. En la reclasificación de texto a texto, obtiene una puntuación de 58,95 NDCG-10 en la prueba BEIR, superando a competidores como jina-embeddings-v3 (55,81) y bge-reranker-v2-m3 (56,51). Para contenido multilingüe, obtiene una puntuación de 66,75 NDCG-10 en la prueba MIRACL, que abarca 18 idiomas. En la prueba MLDR para documentos largos, obtiene una puntuación de 59,83 NDCG-10 en 13 idiomas. En la recuperación de código, en la prueba CoIR, obtiene una puntuación de 63,55 NDCG-10, superando significativamente a la competencia. Pero el modelo realmente brilla en la recuperación de documentos visuales: en el benchmark ViDoRe, obtiene un impresionante puntaje de 91,02 NDCG-5, mientras que en Winoground, que prueba el razonamiento compositivo visolingüístico, alcanza un puntaje promedio de 43,92, lo que demuestra su capacidad superior para comprender las relaciones entre texto e imágenes en comparación con otros modelos.
Guía
Para maximizar el potencial de jina-reranker-m0, los desarrolladores deben considerar varias estrategias de implementación. El modelo es accesible mediante API, marketplaces de servicios en la nube (AWS, Azure, GCP) o localmente a través de Hugging Face. Al usar la API, los desarrolladores pueden pasar cadenas de texto, imágenes base64 o URL de imágenes, y los nuevos usuarios pueden optar a diez millones de tokens gratuitos. Si bien el modelo funciona excepcionalmente bien en tareas de texto a texto, texto a imagen, imagen a texto y texto a unimodal mixto gracias a un entrenamiento exhaustivo, cabe destacar que algunas combinaciones (como imagen a imagen) se admiten de forma automática sin entrenamiento específico. Para obtener resultados óptimos, recuerde que el modelo admite hasta 10 000 tokens de entrada con hasta 768 tokens por imagen. El enfoque de solo decodificador de la arquitectura abre posibilidades más allá de la simple reclasificación, incluida la reclasificación de modalidad mixta real, la reclasificación por lista, la deduplicación de documentos y la explicabilidad de la puntuación de clasificación a través de mecanismos de atención, capacidades que no se podían lograr con arquitecturas anteriores de solo codificador.
Blogs que mencionan este modelo











