Disponible a través de
Gráfico de E/S 1
Gráfico de E/S 2
Gráfico de E/S 3
Gráfico de E/S 4
Elige modelos para comparar
Publicaciones (1)
Descripción general
Jina Embeddings V4 es un modelo de incrustación multimodal de 3800 millones de parámetros que proporciona capacidades unificadas de representación de texto e imágenes. Basado en la estructura principal Qwen2.5-VL-3B-Instruct, el modelo presenta una arquitectura que admite incrustaciones monovectoriales y multivectoriales en el estilo de interacción tardía, solucionando así las limitaciones de los modelos tradicionales de codificador dual estilo CLIP. El modelo incorpora tres adaptadores LoRA especializados para tareas específicas (60 millones de parámetros cada uno) que optimizan el rendimiento en diferentes escenarios de recuperación, incluyendo la recuperación asimétrica de documentos de consulta, la similitud semántica de texto y la búsqueda de código sin modificar los pesos de la estructura principal. El modelo demuestra un excelente rendimiento en el procesamiento de contenido visualmente rico, como tablas, gráficos, diagramas, capturas de pantalla y formatos multimedia mixtos, mediante una ruta de procesamiento unificada que reduce la brecha de modalidad presente en las arquitecturas convencionales. Al admitir capacidades multilingües, el modelo puede manejar textos de entrada de hasta 32.768 tokens con imágenes redimensionadas a 20 megapíxeles, lo que lo hace adecuado para diversas aplicaciones de recuperación de documentos y búsqueda intermodal en diferentes idiomas y dominios.
Métodos
Jina Embeddings V4 implementa una arquitectura unificada de modelo de lenguaje multimodal, diferente de los enfoques de codificador dual de estilo CLIP. El modelo procesa las entradas mediante una ruta compartida donde las imágenes se convierten primero en secuencias de tokens mediante un codificador de visión; posteriormente, el decodificador del modelo de lenguaje, con capas de atención contextual, procesa conjuntamente las modalidades de texto e imagen. Esta arquitectura admite dos modos de salida para adaptarse a diferentes casos de uso: incrustaciones de un solo vector que producen vectores de 2048 dimensiones truncables a 128 mediante el Aprendizaje de Representación Matryoshka, generados mediante agrupación de medias para una búsqueda eficiente de similitudes; e incrustaciones multivector que generan 128 dimensiones por token mediante capas de proyección para la recuperación de estilo de interacción tardía. El modelo incluye tres adaptadores LoRA específicos para cada tarea que proporcionan optimización especializada: el adaptador de recuperación utiliza codificación asimétrica basada en prefijos con entrenamiento de negativos duros para escenarios de consulta-documento; el adaptador de coincidencia de texto emplea la pérdida CoSENT para tareas de similitud semántica; y el adaptador de código se centra en aplicaciones de recuperación de lenguaje natural a código. El entrenamiento se realiza en dos fases: entrenamiento inicial de pares mediante pérdida contrastiva InfoNCE con pares texto-texto y texto-imagen de más de 300 fuentes; seguido de un ajuste preciso específico para cada tarea de los tres adaptadores LoRA mediante métodos basados en tripletes y funciones de pérdida especializadas adaptadas a los requisitos de cada dominio.
Actuación
Jina Embeddings V4 alcanza un rendimiento competitivo en múltiples categorías de referencia. En la recuperación visual de documentos, obtiene una puntuación media de 72,19 en la prueba JinaVDR, frente a los 64,50 de ColPali-v1.2, y de 84,11 en ViDoRe, frente a los 83,90 de ColPali. El modo multivectorial alcanza los 90,17 en ViDoRe. En la recuperación intermodal, el modelo obtiene una puntuación de 84,11 en la prueba CLIP, frente a los 81,12 de jina-clip-v2 y nllb-clip-large-siglip (83,19). En la recuperación de texto, alcanza los 55,97 en MTEB-en y los 66,49 en MMTEB, destacando el rendimiento en el procesamiento de documentos largos, con 67,11 en LongEmbed, frente a los 55,66 de su predecesor. El modelo demuestra un sólido rendimiento en similitud de texto semántico, con una puntuación de 85,89 en tareas STS en inglés y de 72,70 en pruebas STS multilingües. La capacidad de recuperación de código alcanza 71,59 en la prueba CoIR, aunque modelos especializados como voyage-code-3 (77,33) obtienen puntuaciones más altas en este dominio. El modelo muestra una mejor alineación intermodal, con una puntuación de 0,71 en comparación con 0,15 para OpenAI CLIP, lo que soluciona el problema de la brecha modal en modelos multimodales. El modo multivectorial supera consistentemente al modo monovectorial en tareas visualmente ricas, mientras que el modo monovectorial ofrece un rendimiento eficiente en escenarios de recuperación estándar.
Guía
Para utilizar Jina Embeddings V4 eficazmente, seleccione el adaptador LoRA adecuado según los requisitos específicos de su aplicación. Utilice el adaptador de recuperación para escenarios de recuperación asimétrica de documentos y consultas, donde las consultas y los documentos tienen estructuras diferentes, garantizando la aplicación de los prefijos adecuados para distinguir entre el contenido de la consulta y el del pasaje. El adaptador de coincidencia de texto es adecuado para tareas de similitud semántica y recuperación simétrica, donde el objetivo es encontrar contenido similar en lugar de respuestas a consultas, lo que lo hace apropiado para la agrupación de documentos, la detección de duplicados y los sistemas de recomendación de contenido. Para aplicaciones relacionadas con la programación, el adaptador de código está optimizado para la recuperación de lenguaje natural a código, la búsqueda de similitud de código a código y la resolución de preguntas técnicas. Seleccione los modos de salida según sus requisitos de rendimiento y eficiencia: las incrustaciones de un solo vector ofrecen una búsqueda de similitud eficiente y son adecuadas para entornos con limitaciones de almacenamiento, con dimensiones truncables que permiten la reducción de 2048 a 128-512 dimensiones con compensaciones de calidad aceptables, mientras que las incrustaciones multivectoriales proporcionan mayor precisión para tareas de recuperación complejas, especialmente al trabajar con documentos visualmente ricos donde la puntuación de interacción tardía captura relaciones detalladas. La arquitectura unificada del modelo permite el procesamiento de entradas mixtas de texto e imagen sin necesidad de codificadores independientes ni preprocesamiento de OCR para documentos visuales. Las capacidades de alineación intermodal del modelo y su compatibilidad multilingüe lo hacen adecuado para aplicaciones internacionales. Para implementaciones de producción, considere la sobrecarga de parámetros de 60 M por adaptador LoRA al planificar los requisitos de memoria, teniendo en cuenta que los tres adaptadores pueden mantenerse simultáneamente con menos del 2 % de consumo de memoria adicional, lo que permite una conmutación flexible de tareas durante la inferencia.
Blogs que mencionan este modelo