Новости
Модели
Продукты
keyboard_arrow_down
Глубокий поиск
Ищите, читайте и рассуждайте, пока не найдете лучший ответ.
Читатель
Читайте URL-адреса и ищите информацию в Интернете для получения более подходящей подготовки для получения степени магистра права.
Вложения
Мультимодальные многоязычные вложения мирового класса.
Реранкер
Нейронный ретривер мирового класса для максимального повышения релевантности поиска.
Более
keyboard_arrow_down
Классификатор
Классификация изображений и текста по нулевому и небольшому количеству кадров.
Сегментатор
Разрежьте длинный текст на куски и выполните токенизацию.

API-документы
Автоматическая генерация кода для вашего второго пилота IDE или LLM
open_in_new


Компания
keyboard_arrow_down
О нас
Связаться с отделом продаж
Стажерская программа
Присоединяйтесь к нам
open_in_new
Скачать логотип
open_in_new
Условия использования


Авторизоваться
login
warning
Эта модель устарела из-за появления новых моделей.

jina-clip-v1

Мультимодальные модели встраивания для изображений и английского текста
Выпуск Постarrow_forward
Лицензия
license
Apache-2.0
Дата выпуска
calendar_month
2024-06-05
Вход
image
Изображение
abc
Текст
arrow_forward
Выход
more_horiz
Вектор
Подробности модели
Параметры: 223M
Длина входного токена: 8K
Размер входного изображения: 224x224
Выходной размер: 768
Поддержка языков
🇺🇸 Английский
Похожие модели
link
jina-clip-v2
link
jina-embeddings-v3
link
jina-colbert-v2
Теги
multimodal-embedding
image-text-alignment
english-only
zero-shot-classification
cross-modal-search
long-text-support
unified-embeddings
text-to-text
text-to-image
visual-semantic
Доступно через
API ДжинаAWS SageMakerMicrosoft AzureОбнимающее лицо
Выберите модели для сравнения
Публикации (1)
ICML 2024
май 30, 2024
Jina CLIP: Your CLIP Model Is Also Your Text Retriever

Обзор

Jina CLIP v1 производит революцию в мультимодальном ИИ, став первой моделью, которая одинаково хорошо справляется как с задачами поиска текста в текст, так и с задачами поиска текста в изображение. В отличие от традиционных моделей CLIP, которые испытывают трудности с текстовыми сценариями, эта модель достигает высочайшей производительности во всех комбинациях поиска, сохраняя при этом удивительно компактный размер параметра 223M. Модель решает важнейшую отраслевую задачу, устраняя необходимость в отдельных моделях для обработки текста и изображений, снижая сложность системы и вычислительные издержки. Для команд, создающих поисковые системы, рекомендательные системы или инструменты анализа контента, Jina CLIP v1 предлагает единое эффективное решение, которое обрабатывает как текст, так и визуальный контент с исключительной точностью.

Методы

Архитектура модели представляет собой значительное новшество в дизайне мультимодального ИИ, объединяя адаптированный текстовый кодер Jina BERT v2 с передовым кодером изображений EVA-02 из Пекинской академии искусственного интеллекта. Текстовый кодер поддерживает последовательности до 12 288 токенов — более чем в 100 раз длиннее, чем предел в 77 токенов оригинального CLIP — в то время как кодер изображений эффективно обрабатывает 16 токенов патчей. Процесс обучения следует новому трехэтапному подходу: во-первых, выравнивание пар изображение-подпись с сохранением понимания текста посредством чередующегося обучения пар текста; во-вторых, включение более длинных текстовых описаний изображений, сгенерированных ИИ; и, наконец, использование жестких отрицательных текстовых триплетов для улучшения возможностей семантического различия. Эта уникальная методология обучения позволяет модели поддерживать высокую производительность как для коротких подписей, так и для подробных текстовых описаний с сохранением сильного визуального понимания.

Производительность

Jina CLIP v1 демонстрирует значительные улучшения по сравнению с оригинальным CLIP OpenAI во всех тестах. В поиске только текста он достигает 165% прироста производительности с результатом 0,429 по сравнению с 0,162 у CLIP. Для задач, связанных с изображениями, он показывает последовательные улучшения: на 2% лучше в поиске текста в изображение (0,899), на 6% в поиске изображения в текст (0,803) и на 12% в поиске изображения в изображение (0,916). Модель особенно хороша в задачах визуальной классификации с нулевого выстрела, успешно классифицируя изображения без предварительного обучения по определенным доменам. При оценке по стандартным тестам, таким как MTEB для поиска текста, CIFAR-100 для задач с изображениями, а также Flickr8k/30k и MSCOCO Captions для кросс-модальной производительности, он неизменно превосходит специализированные одномодальные модели, сохраняя при этом конкурентоспособную производительность в кросс-модальных задачах.

Руководство

Для эффективного развертывания Jina CLIP v1 команды должны учитывать как ее возможности, так и требования к ресурсам. Модель обрабатывает изображения в плитках размером 224x224 пикселя, при этом каждая плитка потребляет 1000 токенов вычислительной мощности. Для оптимальной производительности реализуйте эффективную предварительную обработку изображений для соответствия этим размерам. Хотя модель отлично справляется как с обработкой коротких, так и длинных текстов, в настоящее время она поддерживает только ввод на английском языке. Командам следует тщательно продумать использование токенов: текст требует приблизительно 1,1 токена на слово, тогда как изображения обрабатываются плитками (например, изображение размером 750x500 пикселей требует 12 плиток, потребляя 12 000 токенов). Модель доступна как через Jina Embeddings API, так и в виде релиза с открытым исходным кодом на Hugging Face по лицензии Apache 2.0, что обеспечивает гибкость в вариантах развертывания. Для производственных сред рассмотрите возможность использования вариантов развертывания AWS Marketplace или Azure, которые обеспечивают оптимизированные настройки инфраструктуры.
Блоги, в которых упоминается эта модель
апрель 08, 2025 • 21 минуты чтения
jina-reranker-m0: Многоязычный мультимодальный ранжировщик документов
Представляем jina-reranker-m0, наш новый мультиязычный мультимодальный ранжировщик для поиска визуальных документов, демонстрирующий передовую производительность в задачах поиска многоязычных длинных документов и программного кода.
Jina AI
Modern dot matrix text display on a dark blue background, conveying a digital feel.
декабрь 12, 2024 • 12 минуты чтения
Масштабирование вычислений во время тестирования для моделей встраивания
Качество результатов растет с увеличением вычислений — больше на обучение, больше на поиск. Хорошая предварительно обученная модель дает отличный старт, но вычисления во время тестирования продвигают вас еще дальше. Важно понимать эту новую парадигму масштабирования вычислений во время тестирования, даже для моделей встраивания.
Han Xiao
David Hockney artwork of a hand holding a rod with three colored spheres on a blue-toned background.
декабрь 04, 2024 • 13 минуты чтения
Нужно ли всё ещё разбивать текст на части, когда модели с длинным контекстом могут обрабатывать его целиком?
Сравнение эффективности моделей встраивания с длинным контекстом при использовании различных стратегий разбиения на чанки для поиска оптимального подхода под ваши задачи.
Michael Günther
Alex C-G
Artistic pixel art of two seagulls on colored pipes with speech bubbles; one reads "Too long?" and the other shows math equat
ноябрь 21, 2024 • 9 минуты чтения
Jina CLIP v2: Мультиязычные мультимодальные эмбеддинги для текста и изображений
Jina-CLIP v2 — мультимодальная модель эмбеддингов размером 0.9B с многоязычной поддержкой 89 языков, высоким разрешением изображений 512x512 и представлениями Matryoshka.
Jina AI
Digital number "2" displayed in a mosaic of colorful squares against a dark background, creating a futuristic vibe.
октябрь 29, 2024 • 11 минуты чтения
CLIP и не только: как Jina-CLIP развивает мультимодальный поиск
Узнайте, как Jina-CLIP улучшает модель CLIP от OpenAI, обеспечивая более высокую точность поиска и более разнообразные результаты благодаря унифицированным текстово-графическим эмбеддингам.
Bo Wang
Alex C-G
Abstract digital landscape with wave-like green and pink dunes against a dark background, conveying a tranquil atmosphere.
Офисы
location_on
Саннивейл, Калифорния
710 Lakeway Dr, Ste 200, Саннивейл, Калифорния 94085, США
location_on
Берлин, Германия (штаб-квартира)
Prinzessinnenstraße 19-20, 10969 Берлин, Германия
location_on
Пекин, Китай
Уровень 5, здание 6, ул. Хайдянь Вест, д. 48, Пекин, Китай
location_on
Шэньчжэнь, Китай
402, этаж 4, здание Fu'an Technology, Шэньчжэнь, Китай
Поиск Фонда
Глубокий поиск
Читатель
Вложения
Реранкер
Классификатор
Сегментатор
API-документация
Получить API-ключ Jina
Ограничение скорости
Статус API
Компания
О нас
Связаться с отделом продаж
отдел новостей
Стажерская программа
Присоединяйтесь к нам
open_in_new
Скачать логотип
open_in_new
Условия
Безопасность
Условия использования
Конфиденциальность
Управление файлами cookie
email
Jina AI © 2020-2025.