Disponible a través de
Elige modelos para comparar
Publicaciones (1)
Descripción general
Jina CLIP v1 revoluciona la IA multimodal al ser el primer modelo que se destaca por igual en tareas de recuperación de texto a texto y de texto a imagen. A diferencia de los modelos CLIP tradicionales que tienen dificultades con escenarios de solo texto, este modelo logra un rendimiento de vanguardia en todas las combinaciones de recuperación, al tiempo que mantiene un tamaño de parámetro notablemente compacto de 223M. El modelo aborda un desafío crítico de la industria al eliminar la necesidad de modelos separados para el procesamiento de texto e imágenes, lo que reduce la complejidad del sistema y la sobrecarga computacional. Para los equipos que crean sistemas de búsqueda, motores de recomendación o herramientas de análisis de contenido, Jina CLIP v1 ofrece una solución única y eficiente que maneja tanto el contenido de texto como el visual con una precisión excepcional.
Métodos
La arquitectura del modelo representa una innovación significativa en el diseño de IA multimodal, ya que combina un codificador de texto Jina BERT v2 adaptado con el codificador de imágenes de vanguardia EVA-02 de la Academia de Inteligencia Artificial de Beijing. El codificador de texto admite secuencias de hasta 12 288 tokens (más de 100 veces más largas que el límite de 77 tokens del CLIP original), mientras que el codificador de imágenes procesa de manera eficiente 16 tokens de parche. El proceso de entrenamiento sigue un novedoso enfoque de tres pasos: primero, alinear pares de imágenes y subtítulos mientras se mantiene la comprensión del texto mediante el entrenamiento de pares de texto intercalados; segundo, incorporar descripciones de texto más largas de las imágenes generadas por IA; y finalmente, usar tripletes de texto negativos duros para mejorar las capacidades de distinción semántica. Esta metodología de entrenamiento única permite que el modelo mantenga un alto rendimiento tanto en subtítulos cortos como en descripciones textuales detalladas, al tiempo que preserva una sólida comprensión visual.
Actuación
Jina CLIP v1 demuestra mejoras notables con respecto al CLIP original de OpenAI en todos los puntos de referencia. En la recuperación de solo texto, logra un aumento del rendimiento del 165% con una puntuación de 0,429 en comparación con el 0,162 de CLIP. Para las tareas relacionadas con imágenes, muestra mejoras consistentes: 2% mejor en la recuperación de texto a imagen (0,899), 6% en la recuperación de imagen a texto (0,803) y 12% en la recuperación de imagen a imagen (0,916). El modelo se destaca particularmente en las tareas de clasificación visual de disparo cero, categorizando imágenes con éxito sin entrenamiento previo en dominios específicos. Cuando se evalúa en puntos de referencia estándar como MTEB para recuperación de texto, CIFAR-100 para tareas de imagen y Flickr8k/30k y MSCOCO Captions para rendimiento intermodal, supera constantemente a los modelos monomodales especializados, al tiempo que mantiene un rendimiento competitivo en tareas intermodales.
Guía
Para implementar Jina CLIP v1 de manera eficaz, los equipos deben considerar tanto sus capacidades como sus requisitos de recursos. El modelo procesa imágenes en mosaicos de 224 x 224 píxeles, y cada mosaico consume 1000 tokens de capacidad de procesamiento. Para lograr un rendimiento óptimo, implemente un preprocesamiento de imágenes eficiente para que coincida con estas dimensiones. Si bien el modelo se destaca en el procesamiento de textos cortos y largos, actualmente solo admite la entrada en idioma inglés. Los equipos deben considerar cuidadosamente el uso de tokens: el texto requiere aproximadamente 1,1 tokens por palabra, mientras que las imágenes se procesan en mosaicos (por ejemplo, una imagen de 750 x 500 píxeles requiere 12 mosaicos, lo que consume 12 000 tokens). El modelo está disponible a través de la API Jina Embeddings y como una versión de código abierto en Hugging Face bajo la licencia Apache 2.0, lo que ofrece flexibilidad en las opciones de implementación. Para entornos de producción, considere usar las opciones de implementación de AWS Marketplace o Azure, que brindan configuraciones de infraestructura optimizadas.
Blogs que mencionan este modelo