Noticias
Modelos
API
keyboard_arrow_down
Lector
Lea las URL y busque en la web para obtener una base más sólida para su LLM.
Incrustaciones
Integraciones multilingües y multimodales de clase mundial.
reclasificador
Recuperador neuronal de clase mundial para maximizar la relevancia de la búsqueda.
Servicio de inferencia elástica
Ejecuta modelos Jina de forma nativa dentro de Elasticsearch.
MCP terminalCLIarticlellms.txtsmart_toyAgentesdata_objectEsquemamenu_bookDocumentos



Acceso
login
Incrustaciones
Licencia de investigación de Qwen
open_in_new Publicación de lanzamiento

jina-embeddings-v4

Modelo de integración universal para la recuperación multimodal y multilingüe
Licencia
Qwen Research License
Fecha de lanzamiento
calendar_month
2025-06-24
Aporte
abc
Texto
image
Imagen
picture_as_pdf
PDF
arrow_forward
Producción
more_horiz
Vector
apps
Multi-vectorial
Dimensiones de la matrioska help_outline
128
256
512
1024
2048
Fragmentación tardía help_outline
check_circle
Yes
Detalles del modelo
Parámetros: 3.8B
Longitud del token de entrada: 32K
Tamaño de la imagen de entrada: 768×28×28
Dimensión de salida: 2048
Modelo base help_outline
open_in_new
Qwen2.5-VL-3B-Instruct
Idiomas entrenados help_outline
34 idiomas
Idiomas admitidos help_outline
29 idiomas
Cuantizaciones help_outline
GGUF
Modelos relacionados
link
jina-embeddings-v3
link
jina-clip-v2
Tareas admitidas
search Recuperación
compare_arrows Coincidencia de texto
code Código
Etiquetas
multimodal-embedding
document retrieval
multilingual
multi-vector
long-context
production
matryoshka
Disponible a través de
API de JinaCara abrazada
Gráfico de E/S 1

Texto

jina-embeddings-v4

Tarea

Vector

Gráfico de E/S 2

Imagen

jina-embeddings-v4

Tarea

Vector

Gráfico de E/S 3

múltiple

Vector

Texto

jina-embeddings-v4

Tarea

Gráfico de E/S 4

múltiple

Vector

Imagen

jina-embeddings-v4

Tarea

Elige modelos para comparar
Publicaciones (1)
EMNLP 2025
junio 24, 2025
jina-embeddings-v4: Universal Embeddings for Multimodal Multilingual Retrieval

Descripción general

Jina Embeddings V4 es un modelo de incrustación multimodal de 3800 millones de parámetros que proporciona capacidades unificadas de representación de texto e imágenes. Basado en la estructura principal Qwen2.5-VL-3B-Instruct, el modelo presenta una arquitectura que admite incrustaciones monovectoriales y multivectoriales en el estilo de interacción tardía, solucionando así las limitaciones de los modelos tradicionales de codificador dual estilo CLIP. El modelo incorpora tres adaptadores LoRA especializados para tareas específicas (60 millones de parámetros cada uno) que optimizan el rendimiento en diferentes escenarios de recuperación, incluyendo la recuperación asimétrica de documentos de consulta, la similitud semántica de texto y la búsqueda de código sin modificar los pesos de la estructura principal. El modelo demuestra un excelente rendimiento en el procesamiento de contenido visualmente rico, como tablas, gráficos, diagramas, capturas de pantalla y formatos multimedia mixtos, mediante una ruta de procesamiento unificada que reduce la brecha de modalidad presente en las arquitecturas convencionales. Al admitir capacidades multilingües, el modelo puede manejar textos de entrada de hasta 32.768 tokens con imágenes redimensionadas a 20 megapíxeles, lo que lo hace adecuado para diversas aplicaciones de recuperación de documentos y búsqueda intermodal en diferentes idiomas y dominios.

Métodos

Jina Embeddings V4 implementa una arquitectura unificada de modelo de lenguaje multimodal, diferente de los enfoques de codificador dual de estilo CLIP. El modelo procesa las entradas mediante una ruta compartida donde las imágenes se convierten primero en secuencias de tokens mediante un codificador de visión; posteriormente, el decodificador del modelo de lenguaje, con capas de atención contextual, procesa conjuntamente las modalidades de texto e imagen. Esta arquitectura admite dos modos de salida para adaptarse a diferentes casos de uso: incrustaciones de un solo vector que producen vectores de 2048 dimensiones truncables a 128 mediante el Aprendizaje de Representación Matryoshka, generados mediante agrupación de medias para una búsqueda eficiente de similitudes; e incrustaciones multivector que generan 128 dimensiones por token mediante capas de proyección para la recuperación de estilo de interacción tardía. El modelo incluye tres adaptadores LoRA específicos para cada tarea que proporcionan optimización especializada: el adaptador de recuperación utiliza codificación asimétrica basada en prefijos con entrenamiento de negativos duros para escenarios de consulta-documento; el adaptador de coincidencia de texto emplea la pérdida CoSENT para tareas de similitud semántica; y el adaptador de código se centra en aplicaciones de recuperación de lenguaje natural a código. El entrenamiento se realiza en dos fases: entrenamiento inicial de pares mediante pérdida contrastiva InfoNCE con pares texto-texto y texto-imagen de más de 300 fuentes; seguido de un ajuste preciso específico para cada tarea de los tres adaptadores LoRA mediante métodos basados en tripletes y funciones de pérdida especializadas adaptadas a los requisitos de cada dominio.

Actuación

Jina Embeddings V4 alcanza un rendimiento competitivo en múltiples categorías de referencia. En la recuperación visual de documentos, obtiene una puntuación media de 72,19 en la prueba JinaVDR, frente a los 64,50 de ColPali-v1.2, y de 84,11 en ViDoRe, frente a los 83,90 de ColPali. El modo multivectorial alcanza los 90,17 en ViDoRe. En la recuperación intermodal, el modelo obtiene una puntuación de 84,11 en la prueba CLIP, frente a los 81,12 de jina-clip-v2 y nllb-clip-large-siglip (83,19). En la recuperación de texto, alcanza los 55,97 en MTEB-en y los 66,49 en MMTEB, destacando el rendimiento en el procesamiento de documentos largos, con 67,11 en LongEmbed, frente a los 55,66 de su predecesor. El modelo demuestra un sólido rendimiento en similitud de texto semántico, con una puntuación de 85,89 en tareas STS en inglés y de 72,70 en pruebas STS multilingües. La capacidad de recuperación de código alcanza 71,59 en la prueba CoIR, aunque modelos especializados como voyage-code-3 (77,33) obtienen puntuaciones más altas en este dominio. El modelo muestra una mejor alineación intermodal, con una puntuación de 0,71 en comparación con 0,15 para OpenAI CLIP, lo que soluciona el problema de la brecha modal en modelos multimodales. El modo multivectorial supera consistentemente al modo monovectorial en tareas visualmente ricas, mientras que el modo monovectorial ofrece un rendimiento eficiente en escenarios de recuperación estándar.

Guía

Para utilizar Jina Embeddings V4 eficazmente, seleccione el adaptador LoRA adecuado según los requisitos específicos de su aplicación. Utilice el adaptador de recuperación para escenarios de recuperación asimétrica de documentos y consultas, donde las consultas y los documentos tienen estructuras diferentes, garantizando la aplicación de los prefijos adecuados para distinguir entre el contenido de la consulta y el del pasaje. El adaptador de coincidencia de texto es adecuado para tareas de similitud semántica y recuperación simétrica, donde el objetivo es encontrar contenido similar en lugar de respuestas a consultas, lo que lo hace apropiado para la agrupación de documentos, la detección de duplicados y los sistemas de recomendación de contenido. Para aplicaciones relacionadas con la programación, el adaptador de código está optimizado para la recuperación de lenguaje natural a código, la búsqueda de similitud de código a código y la resolución de preguntas técnicas. Seleccione los modos de salida según sus requisitos de rendimiento y eficiencia: las incrustaciones de un solo vector ofrecen una búsqueda de similitud eficiente y son adecuadas para entornos con limitaciones de almacenamiento, con dimensiones truncables que permiten la reducción de 2048 a 128-512 dimensiones con compensaciones de calidad aceptables, mientras que las incrustaciones multivectoriales proporcionan mayor precisión para tareas de recuperación complejas, especialmente al trabajar con documentos visualmente ricos donde la puntuación de interacción tardía captura relaciones detalladas. La arquitectura unificada del modelo permite el procesamiento de entradas mixtas de texto e imagen sin necesidad de codificadores independientes ni preprocesamiento de OCR para documentos visuales. Las capacidades de alineación intermodal del modelo y su compatibilidad multilingüe lo hacen adecuado para aplicaciones internacionales. Para implementaciones de producción, considere la sobrecarga de parámetros de 60 M por adaptador LoRA al planificar los requisitos de memoria, teniendo en cuenta que los tres adaptadores pueden mantenerse simultáneamente con menos del 2 % de consumo de memoria adicional, lo que permite una conmutación flexible de tareas durante la inferencia.
Blogs que mencionan este modelo
junio 30, 2025 • 8 minutos de lectura
Entrenamiento consciente de la cuantización de jina-embeddings-v4
La cuantización proporciona vectores modelo (Embeddings) más pequeños. Le mostramos que la cuantización optimizada le brinda incluso vectores modelo sin pérdida.
Andrei Ungureanu
Scott Martens
Bo Wang
Retro-style digital screen displaying four pixelated images: a cat, a woman, an abstract figure, and a man's portrait, with l
marzo 11, 2026 • 7 minutos de lectura
Generación de embeddings de audio a partir de LLM multimodales
Convierte cualquier LLM multimodal en un pequeño modelo de vectores de audio que supera a CLAP con 25 veces menos datos.
Han Xiao
Abstract illustration of a sound wave or heartbeat, formed by blue, orange, and gray dots on a white background.
febrero 19, 2026 • 7 minutos de lectura
jina-embeddings-v5-text: Nuevos Embeddings Multilingües Pequeños SOTA
Dos modelos de embeddings multilingües de menos de 1B de parámetros con un rendimiento líder en su clase, disponibles en Elastic Inference Service, Llama.cpp y MLX.
Han Xiao
Abstract digital artwork in black and white, featuring scattered dots forming letters in a halftone effect. The central lette
septiembre 30, 2025 • 8 minutos de lectura
Los Embeddings Son El Hijo Bastardo De La IA
Los modelos de 向量模型 no son el aspecto más glamuroso de la industria de la IA, pero los generadores de imágenes y los chatbots no podrían existir sin ellos.
Scott Martens
Humorous office cartoon depicting a team gathered around robots; signs labeled "embeddings", "tools", "reasoning", and "lol"
septiembre 09, 2025 • 11 minutos de lectura
Vectores multimodales en Llama.cpp y GGUF
Hemos incorporado modelos de vectores multimodales a llama.cpp y GGUF, y hemos descubierto algunos problemas sorprendentes en el camino.
Andrei Ungureanu
Alex C-G
Cartoon llama in the center of a white background, emitting laser-like beams from its eyes. The illustration creates a playfu
Fundación de búsqueda
Lector
Incrustaciones
reclasificador
Servicio de inferencia elástica
open_in_new
Obtener la clave API de Jina
Límite de velocidad
Estado de la API
Compañía
Sobre nosotros
Contactar con ventas
Sala de prensa
Programa de prácticas
Descargar el logotipo de Jina
open_in_new
Descargar el logotipo de Elastic
open_in_new
Términos
Seguridad
Términos y condiciones
Privacidad
Administrar cookies
email
Elástico © 2020-2026.