Jina CLIP v2: Embeddings multimodales y multilingües para texto e imágenes

jina-clip-v2 API está disponible bajo la pestaña "Embeddings".

Los embeddings multimodales permiten buscar y entender datos a través de diferentes modalidades mediante una representación coherente. Sirven como columna vertebral para la recuperación de información neural y aplicaciones de GenAI multimodales. Hoy nos complace anunciar jina-clip-v2, unos nuevos embeddings multimodales multilingües de propósito general construidos sobre jina-clip-v1 y nuestro recientemente lanzado jina-embeddings-3, que presenta varias mejoras clave:

Rendimiento Mejorado: v2 muestra una mejora del 3% sobre v1 tanto en tareas de recuperación texto-imagen como texto-texto. Similar a v1, el codificador de texto de v2 puede servir como un eficaz recuperador denso multilingüe de contexto largo. Tiene un rendimiento a la par con nuestro modelo frontera jina-embeddings-v3 (actualmente los mejores embeddings multilingües con menos de 1B parámetros en MTEB).
Soporte Multilingüe: Impulsado por jina-embeddings-v3 como torre de texto, jina-clip-v2 soporta 89 idiomas para recuperación multilingüe de imágenes, mostrando hasta un 4% de mejora comparado con nllb-clip-large-siglip en tareas de recuperación multilingüe de imágenes.
Mayor Resolución de Imagen: v2 ahora soporta una resolución de imagen de entrada de 512x512, un aumento significativo desde los 224x224 de v1. Esta mayor resolución permite un mejor procesamiento de imágenes detalladas, mejor extracción de características y reconocimiento más preciso de elementos visuales detallados.
Representaciones Matryoshka: v2 permite a los usuarios truncar las dimensiones de salida de los embeddings tanto de texto como de imagen desde 1024 hasta 64, reduciendo el almacenamiento y la sobrecarga de procesamiento mientras mantiene un fuerte rendimiento.

tagArquitectura del Modelo

jina-clip-v2 es un modelo estilo CLIP de 0.9B que combina dos potentes codificadores: el codificador de texto Jina XLM-RoBERTa (la columna vertebral de jina-embeddings-v3) y el codificador de visión EVA02-L14 (un Transformer de visión eficiente desarrollado por BAAI). Estos codificadores son entrenados conjuntamente para crear representaciones alineadas de imágenes y texto.

Feature	Text Encoder	Image Encoder
Base Model	Jina XLM-RoBERTa	EVA02-L
Parameters	561M	304M
Input Specification	8,192 tokens (max)	512×512 pixels
Min Output Dimensions	64	64
Max Output Dimensions	1,024	1,024
Layers	24	24
Attention Mechanism	FlashAttention2	xFormers
Pooling Strategy	Mean pooling	CLS pooling
Additional Features	89 languages supported	Patch size 14x14

Jina CLIP v2 proporciona soporte multilingüe para 89 idiomas y con rendimiento superior en los principales idiomas, incluyendo árabe, chino, inglés, francés, alemán, japonés, ruso y español. En benchmarks de recuperación de imágenes multilingües, muestra un rendimiento que iguala o supera a NLLB-CLIP-SigLIP, un modelo estilo CLIP ligeramente más grande (1.3B, 44% más grande que jina-clip-v2) de última generación que utiliza un codificador de texto pre-entrenado de los modelos NLLB.

tagTexto e Imágenes Solo en Inglés

En benchmarks estándar de recuperación cross-modal (Flickr30k y COCO), jina-clip-v2 demuestra mejoras importantes en todos los aspectos. Logra un rendimiento estado del arte del 98.0% en recuperación imagen-a-texto en Flickr30k, superando tanto a su predecesor como a NLLB-CLIP-SigLIP. El modelo muestra ganancias consistentes en todos los escenarios de recuperación, con mejoras notables de hasta 3.3% sobre v1 en recuperación imagen-a-texto en COCO, mientras mantiene un rendimiento competitivo con NLLB-CLIP-SigLIP a través de diferentes benchmarks y direcciones de modalidad.

Rendimiento Recall@5 en Flickr30k:

Task	Model	Score	Relative to v1	Relative to NLLB
Image-to-text	jina-clip-v2	98.0	+1.7%	+0.9%
	jina-clip-v1	96.4	-	-0.7%
	nllb-siglip-large	97.1	-	-
Text-to-image	jina-clip-v2	89.8	+0.9%	-2.6%
	jina-clip-v1	89.0	-	-3.5%
	nllb-siglip-large	92.2	-	-

Rendimiento Recall@5 en COCO:

Task	Model	Score	Relative to v1	Relative to NLLB
Image-to-text	jina-clip-v2	81.5	+3.3%	+2.9%
	jina-clip-v1	78.9	-	-0.4%
	nllb-siglip-large	79.2	-	-
Text-to-image	jina-clip-v2	68.4	+2.9%	-3.4%
	jina-clip-v1	66.5	-	-6.1%
	nllb-siglip-large	70.8	-	-

tagTexto e Imágenes Multilingües

En benchmarks cross-modales multilingües, jina-clip-v2 demuestra un rendimiento robusto, destacando particularmente en la recuperación imagen-a-texto donde supera a NLLB-SigLIP en todos los conjuntos de datos, con una mejora de hasta +3.8% en Crossmodal 3600. Aunque NLLB-SigLIP muestra capacidades de recuperación texto-a-imagen ligeramente más fuertes, la brecha de rendimiento permanece pequeña, típicamente dentro del 3%.

Rendimiento Image2Text Recall@5:

Benchmark	Model	Score	Relative to NLLB
Crossmodal 3600	jina-clip-v2	83.23	+3.8%
	nllb-siglip-large	80.16	-
Multilingual MS Coco	jina-clip-v2	86.03	+0.8%
	nllb-siglip-large	85.37	-
XTD10	jina-clip-v2	85.98	+0.7%
	nllb-siglip-large	85.41	-

Rendimiento Text2Image Recall@5:

Benchmark	Model	Score	Relative to NLLB
Crossmodal 3600	jina-clip-v2	81.43	-0.8%
	nllb-siglip-large	82.07	-
Multilingual MS Coco	jina-clip-v2	84.87	-3.1%
	nllb-siglip-large	87.60	-
XTD10	jina-clip-v2	85.03	-3.0%
	nllb-siglip-large	87.63	-

tagRendimiento del Recuperador Denso de Solo Texto

Similar a su predecesor, el codificador de texto de jina-clip-v2 puede servir como un recuperador multilingüe denso efectivo. En los exhaustivos benchmarks Multilingual MTEB, logra un rendimiento sólido, alcanzando 69.86% en recuperación y 67.77% en tareas de similitud semántica. Estos resultados demuestran su versatilidad, compitiendo eficazmente con nuestro modelo especializado de incrustaciones de texto jina-embeddings-v3:

Tarea	Model	Score	Relative to v3
Retrieval	jina-clip-v2	69.86	-3.8%
	jina-embeddings-v3	72.59	-
Semantic Similarity	jina-clip-v2	67.77	-2.9%
	jina-embeddings-v3	69.81	-

En tareas en inglés, jina-clip-v2 muestra mejoras consistentes sobre su predecesor y NLLB-SigLIP, con ventajas particularmente fuertes en rendimiento de recuperación (casi el doble del puntaje de NLLB-SigLIP).

Tarea	Model	Score	Relative to v1
STS	jina-clip-v2	81.29	+0.5%
	jina-clip-v1	80.92	-
	nllb-siglip-large	74.65	-
Retrieval	jina-clip-v2	49.33	+2.1%
	jina-clip-v1	48.33	-
	nllb-siglip-large	24.92	-

tagRendimiento de la Representación Matryoshka

Tanto los codificadores de texto como de imagen son compatibles con MRL, y sus dimensiones de salida pueden truncarse a 64 mientras mantienen un rendimiento sólido. Nuestra evaluación de truncamiento de incrustaciones reveló un notable potencial de compresión. Incluso una reducción dimensional agresiva del 75% mantuvo más del 99% del rendimiento en tareas de texto, imagen y multimodales.

tagClasificación de Imágenes

A través de 37 diversos benchmarks de clasificación de imágenes, el codificador de imagen muestra una fuerte resistencia a las dimensiones truncadas. La compresión de 1024 a 64 dimensiones (reducción del 94%) resulta en solo una caída del 8% en la precisión top-5 y del 12.5% en top-1, destacando su potencial para una implementación eficiente con una pérdida mínima de rendimiento.

Para clasificación de imágenes, utilizamos los 19 benchmarks del conjunto de datos VTAB, VOC 2007, SUN397, STL10, Rendered SST2, ObjectNet, MNIST, German Traffic Sign Recognition Benchmark (GTSRB), Fine-Grained Visual Classification of Aircraft (FGVC-Aircraft), FER 2013, Country211, Cars196, ImageNet-A, ImageNet-O,ImageNet1k, ImageNet Sketch e ImageNet v2.

A pesar de una dramática reducción del 94% a solo 64 dimensiones, la recuperación multimodal utilizando embeddings truncados tanto de imagen como de texto se mantuvo notablemente robusta, preservando el 93% del rendimiento de imagen a texto y el 90% de texto a imagen.

Utilizamos seis benchmarks, tres de los cuales son multilingües: Crossmodal-3600 (36 idiomas), flickr30k (solo inglés), flickr8k (solo inglés), MS COCO Captions (solo inglés), Multilingual MS COCO Captions (10 idiomas), XTD 200 (27 idiomas)

tagRecuperación Solo de Texto

En los benchmarks MTEB solo en inglés, los embeddings de texto de 64 dimensiones (comprimidos desde 1024) preservaron la similitud semántica notablemente bien, cayendo solo un 2.1%, mientras que la recuperación vio una modesta disminución del 17.5%.

tagPrimeros Pasos

tagVía API

El código demuestra cómo generar embeddings usando requests de Python. Pasa una cadena de texto con una imagen en base64 o URL, más el tamaño de dimensión deseado (por defecto 1024, mostrado como 768 abajo).

import requests
import numpy as np
from numpy.linalg import norm

cos_sim = lambda a,b: (a @ b.T) / (norm(a)*norm(b))

url = 'https://api.jina.ai/v1/embeddings'

headers = {
  'Content-Type': 'application/json',
  'Authorization': 'Bearer <YOUR_JINA_AI_API_KEY>'
}

data = {
  'input': [
     {"text": "Bridge close-shot"},
     {"url": "https://fastly.picsum.photos/id/84/1280/848.jpg?hmac=YFRYDI4UsfbeTzI8ZakNOR98wVU7a-9a2tGF542539s"}],
  'model': 'jina-clip-v2',
  'encoding_type': 'float',
  'dimensions': '768' 
}

response = requests.post(url, headers=headers, json=data)
sim = cos_sim(np.array(response.json()['data'][0]['embedding']), np.array(response.json()['data'][1]['embedding']))
print(f"Cosine text<->image: {sim}")

Recuerda reemplazar <YOUR_JINA_AI_API_KEY> con una clave API de Jina activada. Puedes obtener una clave API gratuita con un millón de tokens gratis aquí.

tagPrecios de Tokens de Imagen

Nuestra API cuenta tanto tokens de texto como de imagen. Para las imágenes, el consumo de tokens se basa en el número de mosaicos de 512x512 píxeles necesarios para cubrir toda el área de la imagen. Cada mosaico cuesta 4,000 tokens para procesar, incluyendo mosaicos parcialmente llenos. Para una mejor eficiencia de costos, recomendamos que los usuarios de la API redimensionen sus imágenes a 512x512 antes de enviar las solicitudes.

Resolución de Imagen	Mosaicos Requeridos	Costo en Tokens
512x512	1	4,000
720x720	4	16,000
1080x1080	9	36,000

Para imágenes cuadradas, redimensionar a 512x512 para mejor eficiencia de costos. Para tareas sensibles a la relación de aspecto, escalar el borde más largo a 512, centrar la imagen y rellenar con negro. Para propósitos generales, el redimensionamiento directo a 512x512 funciona bien.

tagA través de Marketplaces CSP

Jina CLIP v2 está disponible directamente en AWS, Azure y GCP a los precios listados allí.

Microsoft Azure Marketplace

Google Cloud console

Gasta de manera inteligente, adquiere más rápido y rentabiliza el gasto comprometido en Google Cloud con Google Cloud Marketplace. Explora el catálogo de más de 2000 aplicaciones SaaS, VMs, stacks de desarrollo y aplicaciones Kubernetes optimizadas para ejecutarse en Google Cloud.

tagA través de VectorDB

tagConclusión

Basándonos en nuestro lanzamiento de jina-clip-v1 en junio, que extendió el modelo CLIP de OpenAI con entrada de texto de hasta 8.192 tokens, y el innovador jina-embeddings-v3 multilingüe, jina-clip-v2 trae tres avances principales: soporte multilingüe para 89 idiomas, mayor resolución de imagen a 512x512, y aprendizaje de representación Matryoshka para embeddings más truncados.

Los modelos tipo CLIP se han establecido como la columna vertebral para aplicaciones multimodales de propósito general. Con jina-clip-v2, estamos llevando estas capacidades al siguiente nivel, derribando barreras lingüísticas para ofrecer una comprensión y recuperación multimodal más precisa. Creemos que este lanzamiento cumple la promesa de hacer que la búsqueda y recuperación multimodal sean más potentes y accesibles para desarrolladores en todo el mundo.