

jina-clip-v2 API está disponible bajo la pestaña "Embeddings".
Los embeddings multimodales permiten buscar y entender datos a través de diferentes modalidades mediante una representación coherente. Sirven como columna vertebral para la recuperación de información neural y aplicaciones de GenAI multimodales. Hoy nos complace anunciar jina-clip-v2, unos nuevos embeddings multimodales multilingües de propósito general construidos sobre jina-clip-v1 y nuestro recientemente lanzado jina-embeddings-3
, que presenta varias mejoras clave:
- Rendimiento Mejorado: v2 muestra una mejora del 3% sobre v1 tanto en tareas de recuperación texto-imagen como texto-texto. Similar a v1, el codificador de texto de v2 puede servir como un eficaz recuperador denso multilingüe de contexto largo. Tiene un rendimiento a la par con nuestro modelo frontera jina-embeddings-v3 (actualmente los mejores embeddings multilingües con menos de 1B parámetros en MTEB).
- Soporte Multilingüe: Impulsado por jina-embeddings-v3 como torre de texto, jina-clip-v2 soporta 89 idiomas para recuperación multilingüe de imágenes, mostrando hasta un 4% de mejora comparado con
nllb-clip-large-siglip
en tareas de recuperación multilingüe de imágenes. - Mayor Resolución de Imagen: v2 ahora soporta una resolución de imagen de entrada de 512x512, un aumento significativo desde los 224x224 de v1. Esta mayor resolución permite un mejor procesamiento de imágenes detalladas, mejor extracción de características y reconocimiento más preciso de elementos visuales detallados.
- Representaciones Matryoshka: v2 permite a los usuarios truncar las dimensiones de salida de los embeddings tanto de texto como de imagen desde 1024 hasta 64, reduciendo el almacenamiento y la sobrecarga de procesamiento mientras mantiene un fuerte rendimiento.
tagArquitectura del Modelo
jina-clip-v2 es un modelo estilo CLIP de 0.9B que combina dos potentes codificadores: el codificador de texto Jina XLM-RoBERTa
(la columna vertebral de jina-embeddings-v3) y el codificador de visión EVA02-L14
(un Transformer de visión eficiente desarrollado por BAAI). Estos codificadores son entrenados conjuntamente para crear representaciones alineadas de imágenes y texto.
Feature | Text Encoder | Image Encoder |
---|---|---|
Base Model | Jina XLM-RoBERTa | EVA02-L |
Parameters | 561M | 304M |
Input Specification | 8,192 tokens (max) | 512×512 pixels |
Min Output Dimensions | 64 | 64 |
Max Output Dimensions | 1,024 | 1,024 |
Layers | 24 | 24 |
Attention Mechanism | FlashAttention2 | xFormers |
Pooling Strategy | Mean pooling | CLS pooling |
Additional Features | 89 languages supported | Patch size 14x14 |
tagRendimiento de Recuperación Cross-Modal
Jina CLIP v2 proporciona soporte multilingüe para 89 idiomas y con rendimiento superior en los principales idiomas, incluyendo árabe, chino, inglés, francés, alemán, japonés, ruso y español. En benchmarks de recuperación de imágenes multilingües, muestra un rendimiento que iguala o supera a NLLB-CLIP-SigLIP, un modelo estilo CLIP ligeramente más grande (1.3B, 44% más grande que jina-clip-v2) de última generación que utiliza un codificador de texto pre-entrenado de los modelos NLLB.
tagTexto e Imágenes Solo en Inglés
En benchmarks estándar de recuperación cross-modal (Flickr30k y COCO), jina-clip-v2 demuestra mejoras importantes en todos los aspectos. Logra un rendimiento estado del arte del 98.0% en recuperación imagen-a-texto en Flickr30k, superando tanto a su predecesor como a NLLB-CLIP-SigLIP. El modelo muestra ganancias consistentes en todos los escenarios de recuperación, con mejoras notables de hasta 3.3% sobre v1 en recuperación imagen-a-texto en COCO, mientras mantiene un rendimiento competitivo con NLLB-CLIP-SigLIP a través de diferentes benchmarks y direcciones de modalidad.
Rendimiento Recall@5 en Flickr30k:
Task | Model | Score | Relative to v1 | Relative to NLLB |
---|---|---|---|---|
Image-to-text | jina-clip-v2 | 98.0 | +1.7% | +0.9% |
jina-clip-v1 | 96.4 | - | -0.7% | |
nllb-siglip-large | 97.1 | - | - | |
Text-to-image | jina-clip-v2 | 89.8 | +0.9% | -2.6% |
jina-clip-v1 | 89.0 | - | -3.5% | |
nllb-siglip-large | 92.2 | - | - |
Rendimiento Recall@5 en COCO:
Task | Model | Score | Relative to v1 | Relative to NLLB |
---|---|---|---|---|
Image-to-text | jina-clip-v2 | 81.5 | +3.3% | +2.9% |
jina-clip-v1 | 78.9 | - | -0.4% | |
nllb-siglip-large | 79.2 | - | - | |
Text-to-image | jina-clip-v2 | 68.4 | +2.9% | -3.4% |
jina-clip-v1 | 66.5 | - | -6.1% | |
nllb-siglip-large | 70.8 | - | - |
tagTexto e Imágenes Multilingües
En benchmarks cross-modales multilingües, jina-clip-v2 demuestra un rendimiento robusto, destacando particularmente en la recuperación imagen-a-texto donde supera a NLLB-SigLIP en todos los conjuntos de datos, con una mejora de hasta +3.8% en Crossmodal 3600. Aunque NLLB-SigLIP muestra capacidades de recuperación texto-a-imagen ligeramente más fuertes, la brecha de rendimiento permanece pequeña, típicamente dentro del 3%.
Rendimiento Image2Text Recall@5:
Benchmark | Model | Score | Relative to NLLB |
---|---|---|---|
Crossmodal 3600 | jina-clip-v2 | 83.23 | +3.8% |
nllb-siglip-large | 80.16 | - | |
Multilingual MS Coco | jina-clip-v2 | 86.03 | +0.8% |
nllb-siglip-large | 85.37 | - | |
XTD10 | jina-clip-v2 | 85.98 | +0.7% |
nllb-siglip-large | 85.41 | - |
Rendimiento Text2Image Recall@5:
Benchmark | Model | Score | Relative to NLLB |
---|---|---|---|
Crossmodal 3600 | jina-clip-v2 | 81.43 | -0.8% |
nllb-siglip-large | 82.07 | - | |
Multilingual MS Coco | jina-clip-v2 | 84.87 | -3.1% |
nllb-siglip-large | 87.60 | - | |
XTD10 | jina-clip-v2 | 85.03 | -3.0% |
nllb-siglip-large | 87.63 | - |
tagRendimiento del Recuperador Denso de Solo Texto
Similar a su predecesor, el codificador de texto de jina-clip-v2 puede servir como un recuperador multilingüe denso efectivo. En los exhaustivos benchmarks Multilingual MTEB, logra un rendimiento sólido, alcanzando 69.86% en recuperación y 67.77% en tareas de similitud semántica. Estos resultados demuestran su versatilidad, compitiendo eficazmente con nuestro modelo especializado de incrustaciones de texto jina-embeddings-v3:
Tarea | Model | Score | Relative to v3 |
---|---|---|---|
Retrieval | jina-clip-v2 | 69.86 | -3.8% |
jina-embeddings-v3 | 72.59 | - | |
Semantic Similarity | jina-clip-v2 | 67.77 | -2.9% |
jina-embeddings-v3 | 69.81 | - |
En tareas en inglés, jina-clip-v2 muestra mejoras consistentes sobre su predecesor y NLLB-SigLIP, con ventajas particularmente fuertes en rendimiento de recuperación (casi el doble del puntaje de NLLB-SigLIP).
Tarea | Model | Score | Relative to v1 |
---|---|---|---|
STS | jina-clip-v2 | 81.29 | +0.5% |
jina-clip-v1 | 80.92 | - | |
nllb-siglip-large | 74.65 | - | |
Retrieval | jina-clip-v2 | 49.33 | +2.1% |
jina-clip-v1 | 48.33 | - | |
nllb-siglip-large | 24.92 | - |
tagRendimiento de la Representación Matryoshka
Tanto los codificadores de texto como de imagen son compatibles con MRL, y sus dimensiones de salida pueden truncarse a 64 mientras mantienen un rendimiento sólido. Nuestra evaluación de truncamiento de incrustaciones reveló un notable potencial de compresión. Incluso una reducción dimensional agresiva del 75% mantuvo más del 99% del rendimiento en tareas de texto, imagen y multimodales.
tagClasificación de Imágenes
A través de 37 diversos benchmarks de clasificación de imágenes, el codificador de imagen muestra una fuerte resistencia a las dimensiones truncadas. La compresión de 1024 a 64 dimensiones (reducción del 94%) resulta en solo una caída del 8% en la precisión top-5 y del 12.5% en top-1, destacando su potencial para una implementación eficiente con una pérdida mínima de rendimiento.
tagRecuperación Multimodal
A pesar de una dramática reducción del 94% a solo 64 dimensiones, la recuperación multimodal utilizando embeddings truncados tanto de imagen como de texto se mantuvo notablemente robusta, preservando el 93% del rendimiento de imagen a texto y el 90% de texto a imagen.
tagRecuperación Solo de Texto
En los benchmarks MTEB solo en inglés, los embeddings de texto de 64 dimensiones (comprimidos desde 1024) preservaron la similitud semántica notablemente bien, cayendo solo un 2.1%, mientras que la recuperación vio una modesta disminución del 17.5%.
tagPrimeros Pasos
tagVía API
El código demuestra cómo generar embeddings usando requests
de Python. Pasa una cadena de texto con una imagen en base64 o URL, más el tamaño de dimensión deseado (por defecto 1024, mostrado como 768 abajo).
import requests
import numpy as np
from numpy.linalg import norm
cos_sim = lambda a,b: (a @ b.T) / (norm(a)*norm(b))
url = 'https://api.jina.ai/v1/embeddings'
headers = {
'Content-Type': 'application/json',
'Authorization': 'Bearer <YOUR_JINA_AI_API_KEY>'
}
data = {
'input': [
{"text": "Bridge close-shot"},
{"url": "https://fastly.picsum.photos/id/84/1280/848.jpg?hmac=YFRYDI4UsfbeTzI8ZakNOR98wVU7a-9a2tGF542539s"}],
'model': 'jina-clip-v2',
'encoding_type': 'float',
'dimensions': '768'
}
response = requests.post(url, headers=headers, json=data)
sim = cos_sim(np.array(response.json()['data'][0]['embedding']), np.array(response.json()['data'][1]['embedding']))
print(f"Cosine text<->image: {sim}")
Recuerda reemplazar <YOUR_JINA_AI_API_KEY> con una clave API de Jina activada. Puedes obtener una clave API gratuita con un millón de tokens gratis aquí.
tagPrecios de Tokens de Imagen
Nuestra API cuenta tanto tokens de texto como de imagen. Para las imágenes, el consumo de tokens se basa en el número de mosaicos de 512x512 píxeles necesarios para cubrir toda el área de la imagen. Cada mosaico cuesta 4,000 tokens para procesar, incluyendo mosaicos parcialmente llenos. Para una mejor eficiencia de costos, recomendamos que los usuarios de la API redimensionen sus imágenes a 512x512 antes de enviar las solicitudes.
Resolución de Imagen | Mosaicos Requeridos | Costo en Tokens |
---|---|---|
512x512 | 1 | 4,000 |
720x720 | 4 | 16,000 |
1080x1080 | 9 | 36,000 |
tagA través de Marketplaces CSP
Jina CLIP v2 está disponible directamente en AWS, Azure y GCP a los precios listados allí.

tagA través de VectorDB



tagConclusión
Basándonos en nuestro lanzamiento de jina-clip-v1 en junio, que extendió el modelo CLIP de OpenAI con entrada de texto de hasta 8.192 tokens, y el innovador jina-embeddings-v3 multilingüe, jina-clip-v2 trae tres avances principales: soporte multilingüe para 89 idiomas, mayor resolución de imagen a 512x512, y aprendizaje de representación Matryoshka para embeddings más truncados.
Los modelos tipo CLIP se han establecido como la columna vertebral para aplicaciones multimodales de propósito general. Con jina-clip-v2, estamos llevando estas capacidades al siguiente nivel, derribando barreras lingüísticas para ofrecer una comprensión y recuperación multimodal más precisa. Creemos que este lanzamiento cumple la promesa de hacer que la búsqueda y recuperación multimodal sean más potentes y accesibles para desarrolladores en todo el mundo.