Noticias
Modelos
Productos
keyboard_arrow_down
Lector
Lea las URL y busque en la web para obtener una base más sólida para su LLM.
Incrustaciones
Integraciones multilingües y multimodales de clase mundial.
reclasificador
Recuperador neuronal de clase mundial para maximizar la relevancia de la búsqueda.
Búsqueda profunda
Busca, lee y razona hasta encontrar la mejor respuesta.
Más
keyboard_arrow_down
Clasificador
Clasificación de cero disparos y pocos disparos para imágenes y texto.
Segmentador
Corta el texto largo en fragmentos y haz tokenización.

Documentación de la API
Generación automática de código para su IDE o LLM de Copilot
open_in_new


Compañía
keyboard_arrow_down
Sobre nosotros
Contactar con ventas
Programa de prácticas
Únete a nosotros
open_in_new
Descargar logotipo
open_in_new
Términos y condiciones


Acceso
login
warning
Este modelo está obsoleto por los modelos más nuevos.

jina-clip-v1

Modelos de incrustación multimodal para imágenes y texto en inglés
Publicación de lanzamientoarrow_forward
Licencia
license
Apache-2.0
Fecha de lanzamiento
calendar_month
2024-06-05
Aporte
image
Imagen
abc
Texto
arrow_forward
Producción
more_horiz
Vector
Detalles del modelo
Parámetros: 223M
Longitud del token de entrada: 8K
Tamaño de la imagen de entrada: 224×224
Dimensión de salida: 768
Soporte de idioma
🇺🇸 Inglés
Modelos relacionados
link
jina-clip-v2
link
jina-embeddings-v3
link
jina-colbert-v2
Etiquetas
multimodal-embedding
image-text-alignment
english-only
zero-shot-classification
cross-modal-search
long-text-support
unified-embeddings
text-to-text
text-to-image
visual-semantic
Disponible a través de
API de JinaAWS SageMakerMicrosoft AzureCara abrazada
Elige modelos para comparar
Publicaciones (1)
ICML 2024
mayo 30, 2024
Jina CLIP: Your CLIP Model Is Also Your Text Retriever

Descripción general

Jina CLIP v1 revoluciona la IA multimodal al ser el primer modelo que se destaca por igual en tareas de recuperación de texto a texto y de texto a imagen. A diferencia de los modelos CLIP tradicionales que tienen dificultades con escenarios de solo texto, este modelo logra un rendimiento de vanguardia en todas las combinaciones de recuperación, al tiempo que mantiene un tamaño de parámetro notablemente compacto de 223M. El modelo aborda un desafío crítico de la industria al eliminar la necesidad de modelos separados para el procesamiento de texto e imágenes, lo que reduce la complejidad del sistema y la sobrecarga computacional. Para los equipos que crean sistemas de búsqueda, motores de recomendación o herramientas de análisis de contenido, Jina CLIP v1 ofrece una solución única y eficiente que maneja tanto el contenido de texto como el visual con una precisión excepcional.

Métodos

La arquitectura del modelo representa una innovación significativa en el diseño de IA multimodal, ya que combina un codificador de texto Jina BERT v2 adaptado con el codificador de imágenes de vanguardia EVA-02 de la Academia de Inteligencia Artificial de Beijing. El codificador de texto admite secuencias de hasta 12 288 tokens (más de 100 veces más largas que el límite de 77 tokens del CLIP original), mientras que el codificador de imágenes procesa de manera eficiente 16 tokens de parche. El proceso de entrenamiento sigue un novedoso enfoque de tres pasos: primero, alinear pares de imágenes y subtítulos mientras se mantiene la comprensión del texto mediante el entrenamiento de pares de texto intercalados; segundo, incorporar descripciones de texto más largas de las imágenes generadas por IA; y finalmente, usar tripletes de texto negativos duros para mejorar las capacidades de distinción semántica. Esta metodología de entrenamiento única permite que el modelo mantenga un alto rendimiento tanto en subtítulos cortos como en descripciones textuales detalladas, al tiempo que preserva una sólida comprensión visual.

Actuación

Jina CLIP v1 demuestra mejoras notables con respecto al CLIP original de OpenAI en todos los puntos de referencia. En la recuperación de solo texto, logra un aumento del rendimiento del 165% con una puntuación de 0,429 en comparación con el 0,162 de CLIP. Para las tareas relacionadas con imágenes, muestra mejoras consistentes: 2% mejor en la recuperación de texto a imagen (0,899), 6% en la recuperación de imagen a texto (0,803) y 12% en la recuperación de imagen a imagen (0,916). El modelo se destaca particularmente en las tareas de clasificación visual de disparo cero, categorizando imágenes con éxito sin entrenamiento previo en dominios específicos. Cuando se evalúa en puntos de referencia estándar como MTEB para recuperación de texto, CIFAR-100 para tareas de imagen y Flickr8k/30k y MSCOCO Captions para rendimiento intermodal, supera constantemente a los modelos monomodales especializados, al tiempo que mantiene un rendimiento competitivo en tareas intermodales.

Guía

Para implementar Jina CLIP v1 de manera eficaz, los equipos deben considerar tanto sus capacidades como sus requisitos de recursos. El modelo procesa imágenes en mosaicos de 224 x 224 píxeles, y cada mosaico consume 1000 tokens de capacidad de procesamiento. Para lograr un rendimiento óptimo, implemente un preprocesamiento de imágenes eficiente para que coincida con estas dimensiones. Si bien el modelo se destaca en el procesamiento de textos cortos y largos, actualmente solo admite la entrada en idioma inglés. Los equipos deben considerar cuidadosamente el uso de tokens: el texto requiere aproximadamente 1,1 tokens por palabra, mientras que las imágenes se procesan en mosaicos (por ejemplo, una imagen de 750 x 500 píxeles requiere 12 mosaicos, lo que consume 12 000 tokens). El modelo está disponible a través de la API Jina Embeddings y como una versión de código abierto en Hugging Face bajo la licencia Apache 2.0, lo que ofrece flexibilidad en las opciones de implementación. Para entornos de producción, considere usar las opciones de implementación de AWS Marketplace o Azure, que brindan configuraciones de infraestructura optimizadas.
Blogs que mencionan este modelo
junio 25, 2025 • 12 minutos de lectura
Jina Embeddings v4:向量模型 (Embeddings) 通用模型,适用于多模态多语言检索
Jina Embeddings v4 es un modelo de "向量模型 (Embeddings)" universal de 3.8 mil millones de parámetros para la recuperación multimodal y multilingüe que admite salidas de "向量模型 (Embeddings)" de un solo vector y de múltiples vectores.
Jina AI
Word "Embeddings" followed by a numeric or symbol representation, displayed in multiple colors on a technology-themed, colorf
abril 08, 2025 • 21 minutos de lectura
jina-reranker-m0: Reranqueador multilingüe y multimodal de documentos
Presentamos jina-reranker-m0, nuestro nuevo reranker multimodal multilingüe para recuperar documentos visuales, con rendimiento SOTA en documentos largos multilingües y tareas de búsqueda de código.
Jina AI
Modern dot matrix text display on a dark blue background, conveying a digital feel.
diciembre 12, 2024 • 12 minutos de lectura
Escalando el Cómputo en Tiempo de Prueba para Modelos de Embeddings
Los mejores resultados escalan con la capacidad de cómputo—más en aprendizaje, más en búsqueda. Un buen modelo pre-entrenado te lleva lejos, pero el cómputo en tiempo de prueba te lleva aún más lejos. Es importante reconocer este nuevo paradigma de escalar el cómputo en tiempo de prueba, incluso para modelos de embeddings.
Han Xiao
David Hockney artwork of a hand holding a rod with three colored spheres on a blue-toned background.
diciembre 04, 2024 • 13 minutos de lectura
¿Aún Se Necesita el Chunking Cuando los Modelos de Contexto Largo Pueden Hacerlo Todo?
Comparación de cómo se comportan los modelos de embeddings de contexto largo con diferentes estrategias de segmentación para encontrar el enfoque óptimo según tus necesidades.
Michael Günther
Alex C-G
Artistic pixel art of two seagulls on colored pipes with speech bubbles; one reads "Too long?" and the other shows math equat
noviembre 21, 2024 • 9 minutos de lectura
Jina CLIP v2: Embeddings multimodales y multilingües para texto e imágenes
Jina-CLIP v2, un modelo de embeddings multimodal de 0.9B con soporte multilingüe para 89 idiomas, alta resolución de imagen de 512x512 y representaciones Matryoshka.
Jina AI
Digital number "2" displayed in a mosaic of colorful squares against a dark background, creating a futuristic vibe.
Oficinas
location_on
Sunnyvale, California
710 Lakeway Dr, Ste 200, Sunnyvale, CA 94085, EE. UU.
location_on
Berlín, Alemania (sede central)
Prinzessinnenstraße 19-20, 10969 Berlín, Alemania
location_on
Beijing, China
Piso 5, Edificio 6, No.48 Haidian West St. Pekín, China
location_on
Shenzhen, China
Piso 402, Edificio de Tecnología Fu'an, Shenzhen, China
Fundación de búsqueda
Lector
Incrustaciones
reclasificador
Búsqueda profunda
Clasificador
Segmentador
Documentación API
Obtener la clave API de Jina
Límite de velocidad
Estado de la API
Compañía
Sobre nosotros
Contactar con ventas
Sala de prensa
Programa de prácticas
Únete a nosotros
open_in_new
Descargar logotipo
open_in_new
Términos
Seguridad
Términos y condiciones
Privacidad
Administrar cookies
email
Jina AI © 2020-2025.