Noticias
Modelos
Productos
keyboard_arrow_down
Lector
Lea las URL y busque en la web para obtener una base más sólida para su LLM.
Incrustaciones
Integraciones multilingües y multimodales de clase mundial.
reclasificador
Recuperador neuronal de clase mundial para maximizar la relevancia de la búsqueda.
Búsqueda profunda
Busca, lee y razona hasta encontrar la mejor respuesta.
Más
keyboard_arrow_down
Clasificador
Clasificación de cero disparos y pocos disparos para imágenes y texto.
Segmentador
Corta el texto largo en fragmentos y haz tokenización.

Documentación de la API
Generación automática de código para su IDE o LLM de Copilot
open_in_new


Compañía
keyboard_arrow_down
Sobre nosotros
Contactar con ventas
Programa de prácticas
Únete a nosotros
open_in_new
Descargar logotipo
open_in_new
Términos y condiciones


Acceso
login
copyright

jina-embeddings-v4

Modelo de integración universal para la recuperación multimodal y multilingüe
Publicación de lanzamientoarrow_forward
Licencia
copyright
CC-BY-NC-4.0
Fecha de lanzamiento
calendar_month
2025-06-24
Aporte
abc
Texto
image
Imagen
picture_as_pdf
PDF
arrow_forward
Producción
more_horiz
Vector
apps
Multi-vectorial
Detalles del modelo
Parámetros: 3.8B
Longitud del token de entrada: 32K
Tamaño de la imagen de entrada: 768×28×28
Dimensión de salida: 2048
Soporte de idioma
🌍 Soporte multilingüe
Modelos relacionados
link
jina-embeddings-v3
link
jina-clip-v2
Etiquetas
multimodal-embedding
document retrieval
multilingual
multi-vector
long-context
production
matryoshka
Disponible a través de
API de JinaLicencia comercialCara abrazada
Gráfico de E/S 1
Gráfico de E/S 2
Gráfico de E/S 3
Gráfico de E/S 4
Elige modelos para comparar
Publicaciones (1)
arXiv
junio 24, 2025
jina-embeddings-v4: Universal Embeddings for Multimodal Multilingual Retrieval

Descripción general

Jina Embeddings V4 es un modelo de incrustación multimodal de 3800 millones de parámetros que proporciona capacidades unificadas de representación de texto e imágenes. Basado en la estructura principal Qwen2.5-VL-3B-Instruct, el modelo presenta una arquitectura que admite incrustaciones monovectoriales y multivectoriales en el estilo de interacción tardía, solucionando así las limitaciones de los modelos tradicionales de codificador dual estilo CLIP. El modelo incorpora tres adaptadores LoRA especializados para tareas específicas (60 millones de parámetros cada uno) que optimizan el rendimiento en diferentes escenarios de recuperación, incluyendo la recuperación asimétrica de documentos de consulta, la similitud semántica de texto y la búsqueda de código sin modificar los pesos de la estructura principal. El modelo demuestra un excelente rendimiento en el procesamiento de contenido visualmente rico, como tablas, gráficos, diagramas, capturas de pantalla y formatos multimedia mixtos, mediante una ruta de procesamiento unificada que reduce la brecha de modalidad presente en las arquitecturas convencionales. Al admitir capacidades multilingües, el modelo puede manejar textos de entrada de hasta 32.768 tokens con imágenes redimensionadas a 20 megapíxeles, lo que lo hace adecuado para diversas aplicaciones de recuperación de documentos y búsqueda intermodal en diferentes idiomas y dominios.

Métodos

Jina Embeddings V4 implementa una arquitectura unificada de modelo de lenguaje multimodal, diferente de los enfoques de codificador dual de estilo CLIP. El modelo procesa las entradas mediante una ruta compartida donde las imágenes se convierten primero en secuencias de tokens mediante un codificador de visión; posteriormente, el decodificador del modelo de lenguaje, con capas de atención contextual, procesa conjuntamente las modalidades de texto e imagen. Esta arquitectura admite dos modos de salida para adaptarse a diferentes casos de uso: incrustaciones de un solo vector que producen vectores de 2048 dimensiones truncables a 128 mediante el Aprendizaje de Representación Matryoshka, generados mediante agrupación de medias para una búsqueda eficiente de similitudes; e incrustaciones multivector que generan 128 dimensiones por token mediante capas de proyección para la recuperación de estilo de interacción tardía. El modelo incluye tres adaptadores LoRA específicos para cada tarea que proporcionan optimización especializada: el adaptador de recuperación utiliza codificación asimétrica basada en prefijos con entrenamiento de negativos duros para escenarios de consulta-documento; el adaptador de coincidencia de texto emplea la pérdida CoSENT para tareas de similitud semántica; y el adaptador de código se centra en aplicaciones de recuperación de lenguaje natural a código. El entrenamiento se realiza en dos fases: entrenamiento inicial de pares mediante pérdida contrastiva InfoNCE con pares texto-texto y texto-imagen de más de 300 fuentes; seguido de un ajuste preciso específico para cada tarea de los tres adaptadores LoRA mediante métodos basados en tripletes y funciones de pérdida especializadas adaptadas a los requisitos de cada dominio.

Actuación

Jina Embeddings V4 alcanza un rendimiento competitivo en múltiples categorías de referencia. En la recuperación visual de documentos, obtiene una puntuación media de 72,19 en la prueba JinaVDR, frente a los 64,50 de ColPali-v1.2, y de 84,11 en ViDoRe, frente a los 83,90 de ColPali. El modo multivectorial alcanza los 90,17 en ViDoRe. En la recuperación intermodal, el modelo obtiene una puntuación de 84,11 en la prueba CLIP, frente a los 81,12 de jina-clip-v2 y nllb-clip-large-siglip (83,19). En la recuperación de texto, alcanza los 55,97 en MTEB-en y los 66,49 en MMTEB, destacando el rendimiento en el procesamiento de documentos largos, con 67,11 en LongEmbed, frente a los 55,66 de su predecesor. El modelo demuestra un sólido rendimiento en similitud de texto semántico, con una puntuación de 85,89 en tareas STS en inglés y de 72,70 en pruebas STS multilingües. La capacidad de recuperación de código alcanza 71,59 en la prueba CoIR, aunque modelos especializados como voyage-code-3 (77,33) obtienen puntuaciones más altas en este dominio. El modelo muestra una mejor alineación intermodal, con una puntuación de 0,71 en comparación con 0,15 para OpenAI CLIP, lo que soluciona el problema de la brecha modal en modelos multimodales. El modo multivectorial supera consistentemente al modo monovectorial en tareas visualmente ricas, mientras que el modo monovectorial ofrece un rendimiento eficiente en escenarios de recuperación estándar.

Guía

Para utilizar Jina Embeddings V4 eficazmente, seleccione el adaptador LoRA adecuado según los requisitos específicos de su aplicación. Utilice el adaptador de recuperación para escenarios de recuperación asimétrica de documentos y consultas, donde las consultas y los documentos tienen estructuras diferentes, garantizando la aplicación de los prefijos adecuados para distinguir entre el contenido de la consulta y el del pasaje. El adaptador de coincidencia de texto es adecuado para tareas de similitud semántica y recuperación simétrica, donde el objetivo es encontrar contenido similar en lugar de respuestas a consultas, lo que lo hace apropiado para la agrupación de documentos, la detección de duplicados y los sistemas de recomendación de contenido. Para aplicaciones relacionadas con la programación, el adaptador de código está optimizado para la recuperación de lenguaje natural a código, la búsqueda de similitud de código a código y la resolución de preguntas técnicas. Seleccione los modos de salida según sus requisitos de rendimiento y eficiencia: las incrustaciones de un solo vector ofrecen una búsqueda de similitud eficiente y son adecuadas para entornos con limitaciones de almacenamiento, con dimensiones truncables que permiten la reducción de 2048 a 128-512 dimensiones con compensaciones de calidad aceptables, mientras que las incrustaciones multivectoriales proporcionan mayor precisión para tareas de recuperación complejas, especialmente al trabajar con documentos visualmente ricos donde la puntuación de interacción tardía captura relaciones detalladas. La arquitectura unificada del modelo permite el procesamiento de entradas mixtas de texto e imagen sin necesidad de codificadores independientes ni preprocesamiento de OCR para documentos visuales. Las capacidades de alineación intermodal del modelo y su compatibilidad multilingüe lo hacen adecuado para aplicaciones internacionales. Para implementaciones de producción, considere la sobrecarga de parámetros de 60 M por adaptador LoRA al planificar los requisitos de memoria, teniendo en cuenta que los tres adaptadores pueden mantenerse simultáneamente con menos del 2 % de consumo de memoria adicional, lo que permite una conmutación flexible de tareas durante la inferencia.
Blogs que mencionan este modelo
junio 25, 2025 • 12 minutos de lectura
Jina Embeddings v4:向量模型 (Embeddings) 通用模型,适用于多模态多语言检索
Jina Embeddings v4 es un modelo de "向量模型 (Embeddings)" universal de 3.8 mil millones de parámetros para la recuperación multimodal y multilingüe que admite salidas de "向量模型 (Embeddings)" de un solo vector y de múltiples vectores.
Jina AI
Word "Embeddings" followed by a numeric or symbol representation, displayed in multiple colors on a technology-themed, colorf
marzo 07, 2025 • 14 minutos de lectura
Los modelos de embedding de contexto largo son ciegos más allá de los 4K tokens
Investigamos los modelos de embedding en nuevas tareas de "aguja en un pajar" y descubrimos que más allá de 4K tokens, simplemente están tirando los dados - incluso con coincidencias léxicas exactas o expansión de consultas, no pueden distinguir la señal del ruido en contextos largos.
Saahil Ognawala
Alex C-G
Vertical repetition of the word 'HAYSTACK' with a solitary 'NEEDLE' on a yellowish background.
enero 22, 2025 • 10 minutos de lectura
¿Qué deberíamos aprender de ModernBERT?
Más datos de entrenamiento, un dimensionamiento eficiente de parámetros y una arquitectura profunda pero delgada: ModernBERT marca una dirección para los futuros modelos tipo BERT.
Nan Wang
Alex C-G
Futuristic illustration with a central white circle surrounded by white dots on a dotted background.
Oficinas
location_on
Sunnyvale, California
710 Lakeway Dr, Ste 200, Sunnyvale, CA 94085, EE. UU.
location_on
Berlín, Alemania (sede central)
Prinzessinnenstraße 19-20, 10969 Berlín, Alemania
location_on
Beijing, China
Piso 5, Edificio 6, No.48 Haidian West St. Pekín, China
location_on
Shenzhen, China
Piso 402, Edificio de Tecnología Fu'an, Shenzhen, China
Fundación de búsqueda
Lector
Incrustaciones
reclasificador
Búsqueda profunda
Clasificador
Segmentador
Documentación API
Obtener la clave API de Jina
Límite de velocidad
Estado de la API
Compañía
Sobre nosotros
Contactar con ventas
Sala de prensa
Programa de prácticas
Únete a nosotros
open_in_new
Descargar logotipo
open_in_new
Términos
Seguridad
Términos y condiciones
Privacidad
Administrar cookies
email
Jina AI © 2020-2025.