Доступно через
Выберите модели для сравнения
Публикации (1)
Обзор
Jina CLIP v1 производит революцию в мультимодальном ИИ, став первой моделью, которая одинаково хорошо справляется как с задачами поиска текста в текст, так и с задачами поиска текста в изображение. В отличие от традиционных моделей CLIP, которые испытывают трудности с текстовыми сценариями, эта модель достигает высочайшей производительности во всех комбинациях поиска, сохраняя при этом удивительно компактный размер параметра 223M. Модель решает важнейшую отраслевую задачу, устраняя необходимость в отдельных моделях для обработки текста и изображений, снижая сложность системы и вычислительные издержки. Для команд, создающих поисковые системы, рекомендательные системы или инструменты анализа контента, Jina CLIP v1 предлагает единое эффективное решение, которое обрабатывает как текст, так и визуальный контент с исключительной точностью.
Методы
Архитектура модели представляет собой значительное новшество в дизайне мультимодального ИИ, объединяя адаптированный текстовый кодер Jina BERT v2 с передовым кодером изображений EVA-02 из Пекинской академии искусственного интеллекта. Текстовый кодер поддерживает последовательности до 12 288 токенов — более чем в 100 раз длиннее, чем предел в 77 токенов оригинального CLIP — в то время как кодер изображений эффективно обрабатывает 16 токенов патчей. Процесс обучения следует новому трехэтапному подходу: во-первых, выравнивание пар изображение-подпись с сохранением понимания текста посредством чередующегося обучения пар текста; во-вторых, включение более длинных текстовых описаний изображений, сгенерированных ИИ; и, наконец, использование жестких отрицательных текстовых триплетов для улучшения возможностей семантического различия. Эта уникальная методология обучения позволяет модели поддерживать высокую производительность как для коротких подписей, так и для подробных текстовых описаний с сохранением сильного визуального понимания.
Производительность
Jina CLIP v1 демонстрирует значительные улучшения по сравнению с оригинальным CLIP OpenAI во всех тестах. В поиске только текста он достигает 165% прироста производительности с результатом 0,429 по сравнению с 0,162 у CLIP. Для задач, связанных с изображениями, он показывает последовательные улучшения: на 2% лучше в поиске текста в изображение (0,899), на 6% в поиске изображения в текст (0,803) и на 12% в поиске изображения в изображение (0,916). Модель особенно хороша в задачах визуальной классификации с нулевого выстрела, успешно классифицируя изображения без предварительного обучения по определенным доменам. При оценке по стандартным тестам, таким как MTEB для поиска текста, CIFAR-100 для задач с изображениями, а также Flickr8k/30k и MSCOCO Captions для кросс-модальной производительности, он неизменно превосходит специализированные одномодальные модели, сохраняя при этом конкурентоспособную производительность в кросс-модальных задачах.
Руководство
Для эффективного развертывания Jina CLIP v1 команды должны учитывать как ее возможности, так и требования к ресурсам. Модель обрабатывает изображения в плитках размером 224x224 пикселя, при этом каждая плитка потребляет 1000 токенов вычислительной мощности. Для оптимальной производительности реализуйте эффективную предварительную обработку изображений для соответствия этим размерам. Хотя модель отлично справляется как с обработкой коротких, так и длинных текстов, в настоящее время она поддерживает только ввод на английском языке. Командам следует тщательно продумать использование токенов: текст требует приблизительно 1,1 токена на слово, тогда как изображения обрабатываются плитками (например, изображение размером 750x500 пикселей требует 12 плиток, потребляя 12 000 токенов). Модель доступна как через Jina Embeddings API, так и в виде релиза с открытым исходным кодом на Hugging Face по лицензии Apache 2.0, что обеспечивает гибкость в вариантах развертывания. Для производственных сред рассмотрите возможность использования вариантов развертывания AWS Marketplace или Azure, которые обеспечивают оптимизированные настройки инфраструктуры.
Блоги, в которых упоминается эта модель