Noticias
Modelos
Productos
keyboard_arrow_down
Búsqueda profunda
Busca, lee y razona hasta encontrar la mejor respuesta.
Lector
Lea las URL y busque en la web para obtener una base más sólida para su LLM.
Incrustaciones
Integraciones multilingües y multimodales de clase mundial.
reclasificador
Recuperador neuronal de clase mundial para maximizar la relevancia de la búsqueda.
Clasificador
Clasificación de cero disparos y pocos disparos para imágenes y texto.
Segmentador
Corta el texto largo en fragmentos y haz tokenización.

Documentación de la API
Generación automática de código para su IDE o LLM de Copilot
open_in_new


Compañía
keyboard_arrow_down
Sobre nosotros
Contactar con ventas
Programa de prácticas
Únete a nosotros
open_in_new
Descargar logotipo
open_in_new
Términos y condiciones


Acceso
login
Arquitectura del Modelo
Rendimiento de Recuperación Cross-Modal
Rendimiento del Recuperador Denso de Solo Texto
Rendimiento de la Representación Matryoshka
Primeros Pasos
Conclusión
star
Presentado
presione soltar
noviembre 21, 2024

Jina CLIP v2: Embeddings multimodales y multilingües para texto e imágenes

Jina-CLIP v2, un modelo de embeddings multimodal de 0.9B con soporte multilingüe para 89 idiomas, alta resolución de imagen de 512x512 y representaciones Matryoshka.
Jina AI
Jina AI • 8 minutos de lectura
jinaai/jina-clip-v2 · Hugging Face
Estamos en un viaje para avanzar y democratizar la inteligencia artificial a través del código abierto y la ciencia abierta.
Jina AI - Tu Base de Búsqueda, Potenciada.
Los mejores embeddings, rerankers, LLM-reader, web scraper, clasificadores. La mejor IA de búsqueda para datos multilingües y multimodales.
Tu Base de Búsqueda, Potenciada.

jina-clip-v2 API está disponible bajo la pestaña "Embeddings".

Los embeddings multimodales permiten buscar y entender datos a través de diferentes modalidades mediante una representación coherente. Sirven como columna vertebral para la recuperación de información neural y aplicaciones de GenAI multimodales. Hoy nos complace anunciar jina-clip-v2, unos nuevos embeddings multimodales multilingües de propósito general construidos sobre jina-clip-v1 y nuestro recientemente lanzado jina-embeddings-3, que presenta varias mejoras clave:

  • Rendimiento Mejorado: v2 muestra una mejora del 3% sobre v1 tanto en tareas de recuperación texto-imagen como texto-texto. Similar a v1, el codificador de texto de v2 puede servir como un eficaz recuperador denso multilingüe de contexto largo. Tiene un rendimiento a la par con nuestro modelo frontera jina-embeddings-v3 (actualmente los mejores embeddings multilingües con menos de 1B parámetros en MTEB).
  • Soporte Multilingüe: Impulsado por jina-embeddings-v3 como torre de texto, jina-clip-v2 soporta 89 idiomas para recuperación multilingüe de imágenes, mostrando hasta un 4% de mejora comparado con nllb-clip-large-siglip en tareas de recuperación multilingüe de imágenes.
  • Mayor Resolución de Imagen: v2 ahora soporta una resolución de imagen de entrada de 512x512, un aumento significativo desde los 224x224 de v1. Esta mayor resolución permite un mejor procesamiento de imágenes detalladas, mejor extracción de características y reconocimiento más preciso de elementos visuales detallados.
  • Representaciones Matryoshka: v2 permite a los usuarios truncar las dimensiones de salida de los embeddings tanto de texto como de imagen desde 1024 hasta 64, reduciendo el almacenamiento y la sobrecarga de procesamiento mientras mantiene un fuerte rendimiento.

tagArquitectura del Modelo

jina-clip-v2 es un modelo estilo CLIP de 0.9B que combina dos potentes codificadores: el codificador de texto Jina XLM-RoBERTa (la columna vertebral de jina-embeddings-v3) y el codificador de visión EVA02-L14 (un Transformer de visión eficiente desarrollado por BAAI). Estos codificadores son entrenados conjuntamente para crear representaciones alineadas de imágenes y texto.

Feature Text Encoder Image Encoder
Base Model Jina XLM-RoBERTa EVA02-L
Parameters 561M 304M
Input Specification 8,192 tokens (max) 512×512 pixels
Min Output Dimensions 64 64
Max Output Dimensions 1,024 1,024
Layers 24 24
Attention Mechanism FlashAttention2 xFormers
Pooling Strategy Mean pooling CLS pooling
Additional Features 89 languages supported Patch size 14x14

tagRendimiento de Recuperación Cross-Modal

Jina CLIP v2 proporciona soporte multilingüe para 89 idiomas y con rendimiento superior en los principales idiomas, incluyendo árabe, chino, inglés, francés, alemán, japonés, ruso y español. En benchmarks de recuperación de imágenes multilingües, muestra un rendimiento que iguala o supera a NLLB-CLIP-SigLIP, un modelo estilo CLIP ligeramente más grande (1.3B, 44% más grande que jina-clip-v2) de última generación que utiliza un codificador de texto pre-entrenado de los modelos NLLB.

tagTexto e Imágenes Solo en Inglés

En benchmarks estándar de recuperación cross-modal (Flickr30k y COCO), jina-clip-v2 demuestra mejoras importantes en todos los aspectos. Logra un rendimiento estado del arte del 98.0% en recuperación imagen-a-texto en Flickr30k, superando tanto a su predecesor como a NLLB-CLIP-SigLIP. El modelo muestra ganancias consistentes en todos los escenarios de recuperación, con mejoras notables de hasta 3.3% sobre v1 en recuperación imagen-a-texto en COCO, mientras mantiene un rendimiento competitivo con NLLB-CLIP-SigLIP a través de diferentes benchmarks y direcciones de modalidad.

Rendimiento Recall@5 en Flickr30k:

Task Model Score Relative to v1 Relative to NLLB
Image-to-text jina-clip-v2 98.0 +1.7% +0.9%
jina-clip-v1 96.4 - -0.7%
nllb-siglip-large 97.1 - -
Text-to-image jina-clip-v2 89.8 +0.9% -2.6%
jina-clip-v1 89.0 - -3.5%
nllb-siglip-large 92.2 - -

Rendimiento Recall@5 en COCO:

Task Model Score Relative to v1 Relative to NLLB
Image-to-text jina-clip-v2 81.5 +3.3% +2.9%
jina-clip-v1 78.9 - -0.4%
nllb-siglip-large 79.2 - -
Text-to-image jina-clip-v2 68.4 +2.9% -3.4%
jina-clip-v1 66.5 - -6.1%
nllb-siglip-large 70.8 - -

tagTexto e Imágenes Multilingües

En benchmarks cross-modales multilingües, jina-clip-v2 demuestra un rendimiento robusto, destacando particularmente en la recuperación imagen-a-texto donde supera a NLLB-SigLIP en todos los conjuntos de datos, con una mejora de hasta +3.8% en Crossmodal 3600. Aunque NLLB-SigLIP muestra capacidades de recuperación texto-a-imagen ligeramente más fuertes, la brecha de rendimiento permanece pequeña, típicamente dentro del 3%.

Rendimiento Image2Text Recall@5:

Benchmark Model Score Relative to NLLB
Crossmodal 3600 jina-clip-v2 83.23 +3.8%
nllb-siglip-large 80.16 -
Multilingual MS Coco jina-clip-v2 86.03 +0.8%
nllb-siglip-large 85.37 -
XTD10 jina-clip-v2 85.98 +0.7%
nllb-siglip-large 85.41 -

Rendimiento Text2Image Recall@5:

Benchmark Model Score Relative to NLLB
Crossmodal 3600 jina-clip-v2 81.43 -0.8%
nllb-siglip-large 82.07 -
Multilingual MS Coco jina-clip-v2 84.87 -3.1%
nllb-siglip-large 87.60 -
XTD10 jina-clip-v2 85.03 -3.0%
nllb-siglip-large 87.63 -

tagRendimiento del Recuperador Denso de Solo Texto

Similar a su predecesor, el codificador de texto de jina-clip-v2 puede servir como un recuperador multilingüe denso efectivo. En los exhaustivos benchmarks Multilingual MTEB, logra un rendimiento sólido, alcanzando 69.86% en recuperación y 67.77% en tareas de similitud semántica. Estos resultados demuestran su versatilidad, compitiendo eficazmente con nuestro modelo especializado de incrustaciones de texto jina-embeddings-v3:

Tarea Model Score Relative to v3
Retrieval jina-clip-v2 69.86 -3.8%
jina-embeddings-v3 72.59 -
Semantic Similarity jina-clip-v2 67.77 -2.9%
jina-embeddings-v3 69.81 -

En tareas en inglés, jina-clip-v2 muestra mejoras consistentes sobre su predecesor y NLLB-SigLIP, con ventajas particularmente fuertes en rendimiento de recuperación (casi el doble del puntaje de NLLB-SigLIP).

Tarea Model Score Relative to v1
STS jina-clip-v2 81.29 +0.5%
jina-clip-v1 80.92 -
nllb-siglip-large 74.65 -
Retrieval jina-clip-v2 49.33 +2.1%
jina-clip-v1 48.33 -
nllb-siglip-large 24.92 -

tagRendimiento de la Representación Matryoshka

Tanto los codificadores de texto como de imagen son compatibles con MRL, y sus dimensiones de salida pueden truncarse a 64 mientras mantienen un rendimiento sólido. Nuestra evaluación de truncamiento de incrustaciones reveló un notable potencial de compresión. Incluso una reducción dimensional agresiva del 75% mantuvo más del 99% del rendimiento en tareas de texto, imagen y multimodales.

tagClasificación de Imágenes

A través de 37 diversos benchmarks de clasificación de imágenes, el codificador de imagen muestra una fuerte resistencia a las dimensiones truncadas. La compresión de 1024 a 64 dimensiones (reducción del 94%) resulta en solo una caída del 8% en la precisión top-5 y del 12.5% en top-1, destacando su potencial para una implementación eficiente con una pérdida mínima de rendimiento.

Para clasificación de imágenes, utilizamos los 19 benchmarks del conjunto de datos VTAB, VOC 2007, SUN397, STL10, Rendered SST2, ObjectNet, MNIST, German Traffic Sign Recognition Benchmark (GTSRB), Fine-Grained Visual Classification of Aircraft (FGVC-Aircraft), FER 2013, Country211, Cars196, ImageNet-A, ImageNet-O,ImageNet1k, ImageNet Sketch e ImageNet v2.

tagRecuperación Multimodal

A pesar de una dramática reducción del 94% a solo 64 dimensiones, la recuperación multimodal utilizando embeddings truncados tanto de imagen como de texto se mantuvo notablemente robusta, preservando el 93% del rendimiento de imagen a texto y el 90% de texto a imagen.

Utilizamos seis benchmarks, tres de los cuales son multilingües: Crossmodal-3600 (36 idiomas), flickr30k (solo inglés), flickr8k (solo inglés), MS COCO Captions (solo inglés), Multilingual MS COCO Captions (10 idiomas), XTD 200 (27 idiomas)

tagRecuperación Solo de Texto

En los benchmarks MTEB solo en inglés, los embeddings de texto de 64 dimensiones (comprimidos desde 1024) preservaron la similitud semántica notablemente bien, cayendo solo un 2.1%, mientras que la recuperación vio una modesta disminución del 17.5%.

tagPrimeros Pasos

tagVía API

El código demuestra cómo generar embeddings usando requests de Python. Pasa una cadena de texto con una imagen en base64 o URL, más el tamaño de dimensión deseado (por defecto 1024, mostrado como 768 abajo).

import requests
import numpy as np
from numpy.linalg import norm

cos_sim = lambda a,b: (a @ b.T) / (norm(a)*norm(b))

url = 'https://api.jina.ai/v1/embeddings'

headers = {
  'Content-Type': 'application/json',
  'Authorization': 'Bearer <YOUR_JINA_AI_API_KEY>'
}

data = {
  'input': [
     {"text": "Bridge close-shot"},
     {"url": "https://fastly.picsum.photos/id/84/1280/848.jpg?hmac=YFRYDI4UsfbeTzI8ZakNOR98wVU7a-9a2tGF542539s"}],
  'model': 'jina-clip-v2',
  'encoding_type': 'float',
  'dimensions': '768' 
}

response = requests.post(url, headers=headers, json=data)
sim = cos_sim(np.array(response.json()['data'][0]['embedding']), np.array(response.json()['data'][1]['embedding']))
print(f"Cosine text<->image: {sim}")

Recuerda reemplazar <YOUR_JINA_AI_API_KEY> con una clave API de Jina activada. Puedes obtener una clave API gratuita con un millón de tokens gratis aquí.

tagPrecios de Tokens de Imagen

Nuestra API cuenta tanto tokens de texto como de imagen. Para las imágenes, el consumo de tokens se basa en el número de mosaicos de 512x512 píxeles necesarios para cubrir toda el área de la imagen. Cada mosaico cuesta 4,000 tokens para procesar, incluyendo mosaicos parcialmente llenos. Para una mejor eficiencia de costos, recomendamos que los usuarios de la API redimensionen sus imágenes a 512x512 antes de enviar las solicitudes.

Resolución de Imagen Mosaicos Requeridos Costo en Tokens
512x512 1 4,000
720x720 4 16,000
1080x1080 9 36,000
Para imágenes cuadradas, redimensionar a 512x512 para mejor eficiencia de costos. Para tareas sensibles a la relación de aspecto, escalar el borde más largo a 512, centrar la imagen y rellenar con negro. Para propósitos generales, el redimensionamiento directo a 512x512 funciona bien.

tagA través de Marketplaces CSP

Jina CLIP v2 está disponible directamente en AWS, Azure y GCP a los precios listados allí.

AWS Marketplace: Jina CLIP v2
Microsoft Azure Marketplace
Google Cloud console
Gasta de manera inteligente, adquiere más rápido y rentabiliza el gasto comprometido en Google Cloud con Google Cloud Marketplace. Explora el catálogo de más de 2000 aplicaciones SaaS, VMs, stacks de desarrollo y aplicaciones Kubernetes optimizadas para ejecutarse en Google Cloud.

tagA través de VectorDB

La base de datos vectorial para construir IA con conocimiento | Pinecone
Busca entre miles de millones de elementos coincidencias similares para cualquier objeto, en milisegundos. Es la siguiente generación de búsqueda, a una llamada API de distancia.
Pinecone Docs
Embeddings Multimodales | Weaviate
La integración de Weaviate con las APIs de Jina AI te permite acceder a las capacidades de sus modelos directamente desde Weaviate.
Weaviate
Jina Embeddings - Qdrant
Qdrant es una Base de Datos Vectorial y Motor de Búsqueda Vectorial de código abierto escrito en Rust. Proporciona un servicio de búsqueda de similitud vectorial rápido y escalable con una API conveniente.
editQdrant

tagConclusión

Basándonos en nuestro lanzamiento de jina-clip-v1 en junio, que extendió el modelo CLIP de OpenAI con entrada de texto de hasta 8.192 tokens, y el innovador jina-embeddings-v3 multilingüe, jina-clip-v2 trae tres avances principales: soporte multilingüe para 89 idiomas, mayor resolución de imagen a 512x512, y aprendizaje de representación Matryoshka para embeddings más truncados.

Los modelos tipo CLIP se han establecido como la columna vertebral para aplicaciones multimodales de propósito general. Con jina-clip-v2, estamos llevando estas capacidades al siguiente nivel, derribando barreras lingüísticas para ofrecer una comprensión y recuperación multimodal más precisa. Creemos que este lanzamiento cumple la promesa de hacer que la búsqueda y recuperación multimodal sean más potentes y accesibles para desarrolladores en todo el mundo.

Categorías:
star
Presentado
presione soltar
rss_feed
Oficinas
location_on
Sunnyvale, California
710 Lakeway Dr, Ste 200, Sunnyvale, CA 94085, EE. UU.
location_on
Berlín, Alemania (sede central)
Prinzessinnenstraße 19-20, 10969 Berlín, Alemania
location_on
Beijing, China
Piso 5, Edificio 6, No.48 Haidian West St. Pekín, China
location_on
Shenzhen, China
Piso 402, Edificio de Tecnología Fu'an, Shenzhen, China
Fundación de búsqueda
Búsqueda profunda
Lector
Incrustaciones
reclasificador
Clasificador
Segmentador
Documentación API
Obtener la clave API de Jina
Límite de velocidad
Estado de la API
Compañía
Sobre nosotros
Contactar con ventas
Sala de prensa
Programa de prácticas
Únete a nosotros
open_in_new
Descargar logotipo
open_in_new
Términos
Seguridad
Términos y condiciones
Privacidad
Administrar cookies
email
Jina AI © 2020-2025.