Noticias
Modelos
Productos
keyboard_arrow_down
Lector
Lea las URL y busque en la web para obtener una base más sólida para su LLM.
Incrustaciones
Integraciones multilingües y multimodales de clase mundial.
reclasificador
Recuperador neuronal de clase mundial para maximizar la relevancia de la búsqueda.
Búsqueda profunda
Busca, lee y razona hasta encontrar la mejor respuesta.
Más
keyboard_arrow_down
Clasificador
Clasificación de cero disparos y pocos disparos para imágenes y texto.
Segmentador
Corta el texto largo en fragmentos y haz tokenización.

Documentación de la API
Generación automática de código para su IDE o LLM de Copilot
open_in_new


Compañía
keyboard_arrow_down
Sobre nosotros
Contactar con ventas
Programa de prácticas
Únete a nosotros
open_in_new
Descargar logotipo
open_in_new
Términos y condiciones


Acceso
login
warning
Este modelo está obsoleto por los modelos más nuevos.
copyright

jina-clip-v2

Incrustaciones multimodales multilingües para textos e imágenes
Publicación de lanzamientoarrow_forward
Licencia
copyright
CC-BY-NC-4.0
Fecha de lanzamiento
calendar_month
2024-11-05
Aporte
image
Imagen
abc
Texto
arrow_forward
Producción
more_horiz
Vector
Detalles del modelo
Parámetros: 865M
Longitud del token de entrada: 8K
Tamaño de la imagen de entrada: 512×512
Dimensión de salida: 1024
Soporte de idioma
🌍 Soporte multilingüe
Modelos relacionados
link
jina-clip-v1
Etiquetas
multimodal-embedding
image-text-alignment
multilingual
large-context
instruction-tuned
masked-region-learning
production
cross-lingual-retrieval
zero-shot-classification
modality-gap-aware
Disponible a través de
API de JinaLicencia comercialAWS SageMakerMicrosoft AzureNube de GoogleCara abrazada
Gráfico de E/S 1
Gráfico de E/S 2
Elige modelos para comparar
Publicaciones (1)
ICLR 2025
diciembre 12, 2024
jina-clip-v2: Multilingual Multimodal Embeddings for Text and Images

Descripción general

Jina CLIP v2 revoluciona la inteligencia artificial multimodal al reducir la brecha entre la comprensión visual y textual en 89 idiomas. Este modelo resuelve desafíos críticos en el comercio electrónico global, la gestión de contenido y la comunicación intercultural al permitir una correspondencia precisa entre imágenes y textos independientemente de las barreras lingüísticas. Para las empresas que se expanden internacionalmente o que gestionan contenido multilingüe, elimina la necesidad de modelos separados por idioma o de procesos de traducción complejos. El modelo se destaca particularmente en escenarios que requieren una búsqueda visual precisa a través de las fronteras lingüísticas, como el descubrimiento de productos en el mercado global o la gestión de activos digitales multilingües.

Métodos

En esencia, Jina CLIP v2 emplea una sofisticada arquitectura de codificador dual que combina un codificador de texto Jina XLM-RoBERTa (561 millones de parámetros) con un codificador de visión EVA02-L14 (304 millones de parámetros). El codificador de texto procesa contenido en 89 idiomas con una enorme ventana de contexto de 696.320 tokens, mientras que el codificador de visión maneja imágenes de alta resolución de hasta 512x512 píxeles. El modelo presenta un innovador aprendizaje de representación Matryoshka, que permite un ajuste dinámico de la dimensión de incrustación desde 1024 hasta 64 dimensiones, preservando el rendimiento. Esta arquitectura procesa tanto el texto como las imágenes a través de sus respectivos codificadores, proyectándolos en un espacio semántico compartido donde los conceptos similares se alinean independientemente de su modalidad o idioma original.

Actuación

El modelo alcanza un rendimiento de vanguardia con una precisión del 98,0 % en las tareas de recuperación de imágenes a texto de Flickr30k, superando tanto a su predecesor como a NLLB-CLIP-SigLIP. En escenarios multilingües, demuestra una mejora de hasta un 4 % sobre NLLB-CLIP-SigLIP en las tareas de recuperación de imágenes en varios idiomas, a pesar de tener menos parámetros que su mayor competidor. El modelo mantiene un rendimiento sólido incluso cuando se comprimen las incrustaciones: al reducir las dimensiones en un 75 %, aún conserva más del 99 % del rendimiento en tareas de texto, imágenes y multimodales. En los completos puntos de referencia multilingües de MTEB, alcanza un 69,86 % en la recuperación y un 67,77 % en las tareas de similitud semántica, con un rendimiento competitivo con los modelos de incrustación de texto especializados.

Guía

Para una implementación óptima, los usuarios deben tener en cuenta varios factores clave. El modelo requiere hardware compatible con CUDA para un procesamiento eficiente, con requisitos de memoria que se escalan en función del tamaño del lote y la resolución de la imagen. Para optimizar los costos y el rendimiento de la API, cambie el tamaño de las imágenes a 512 x 512 píxeles antes del procesamiento: las imágenes más grandes se organizan automáticamente en mosaicos, lo que aumenta el uso de tokens y el tiempo de procesamiento. El modelo se destaca por hacer coincidir imágenes con texto descriptivo en todos los idiomas, pero puede tener dificultades con conceptos abstractos o contenido altamente especializado y específico del dominio. Es particularmente eficaz para la búsqueda de productos de comercio electrónico, sistemas de recomendación de contenido y aplicaciones de búsqueda visual, pero puede no ser adecuado para tareas que requieran un análisis de detalles visuales de grano fino o experiencia en el dominio altamente especializada. Al utilizar la función de representación Matryoshka, considere la compensación entre la reducción de dimensiones y el rendimiento: si bien las incrustaciones de 64 dimensiones mantienen un rendimiento sólido, las aplicaciones críticas pueden beneficiarse de dimensiones más altas.
Blogs que mencionan este modelo
junio 25, 2025 • 12 minutos de lectura
Jina Embeddings v4:向量模型 (Embeddings) 通用模型,适用于多模态多语言检索
Jina Embeddings v4 es un modelo de "向量模型 (Embeddings)" universal de 3.8 mil millones de parámetros para la recuperación multimodal y multilingüe que admite salidas de "向量模型 (Embeddings)" de un solo vector y de múltiples vectores.
Jina AI
Word "Embeddings" followed by a numeric or symbol representation, displayed in multiple colors on a technology-themed, colorf
mayo 28, 2025 • 4 minutos de lectura
Correlaciones: Prueba de ambiente de los Vectores Modelo (Embeddings) en la GUI
Tan serios como somos con MTEB, también nos encanta probar la vibra. Correlations es una sencilla interfaz gráfica de usuario (GUI) que utilizamos para validar citas en DeepSearch, depurar la fragmentación tardía y probar la vibra de los vectores modelo (Embeddings). Ahora es de código abierto.
Jina AI
Technical screen showing green and yellow visual data, including charts in the lower half and a heat-map-like visualization a
mayo 25, 2025 • 21 minutos de lectura
Lo que aprendimos en ICLR2025
Recopilamos algunos de los artículos más interesantes de ICLR 2025, que incluyen TIPS, FlexPrefill, Reordenadores de Cero Disparos (Zero-Shot Rerankers), SVD-LLM, Hymba, etc.
Jina AI
Three people smiling on a stage at a conference with an ICLR banner visible, suggesting a warm and lively event atmosphere.
mayo 25, 2025 • 8 minutos de lectura
Puntuación Justa para Documentos Multimodales con jina-reranker-m0
Similitud de texto: 0.7. Similitud de imagen: 0.5. ¿Qué documento es más relevante? Literalmente no se puede saber, y ese es el problema principal que está afectando a la búsqueda multimodal. Lo solucionamos con la función de reordenamiento unificada (unified reranking).
Nan Wang
Alex C-G
Stacked glowing green ovals on a background transitioning from black to green, with the top oval having an unusual, split sha
abril 08, 2025 • 21 minutos de lectura
jina-reranker-m0: Reranqueador multilingüe y multimodal de documentos
Presentamos jina-reranker-m0, nuestro nuevo reranker multimodal multilingüe para recuperar documentos visuales, con rendimiento SOTA en documentos largos multilingües y tareas de búsqueda de código.
Jina AI
Modern dot matrix text display on a dark blue background, conveying a digital feel.
Oficinas
location_on
Sunnyvale, California
710 Lakeway Dr, Ste 200, Sunnyvale, CA 94085, EE. UU.
location_on
Berlín, Alemania (sede central)
Prinzessinnenstraße 19-20, 10969 Berlín, Alemania
location_on
Beijing, China
Piso 5, Edificio 6, No.48 Haidian West St. Pekín, China
location_on
Shenzhen, China
Piso 402, Edificio de Tecnología Fu'an, Shenzhen, China
Fundación de búsqueda
Lector
Incrustaciones
reclasificador
Búsqueda profunda
Clasificador
Segmentador
Documentación API
Obtener la clave API de Jina
Límite de velocidad
Estado de la API
Compañía
Sobre nosotros
Contactar con ventas
Sala de prensa
Programa de prácticas
Únete a nosotros
open_in_new
Descargar logotipo
open_in_new
Términos
Seguridad
Términos y condiciones
Privacidad
Administrar cookies
email
Jina AI © 2020-2025.