jina-clip-v2 - Поиск моделей фундамента

jina-clip-v2

Многоязычные мультимодальные вложения для текстов и изображений

Выпуск Пост

Лицензия

CC-BY-NC-4.0

Дата выпуска

2024-11-05

Вход

Изображение

Текст

Выход

Вектор

Подробности модели

Параметры: 865M

Длина входного токена: 8K

Размер входного изображения: 512x512

Выходной размер: 1024

Поддержка языков

🌍 Многоязычная поддержка

Похожие модели

jina-clip-v1

Теги

multimodal-embedding

image-text-alignment

multilingual

large-context

instruction-tuned

masked-region-learning

production

cross-lingual-retrieval

zero-shot-classification

modality-gap-aware

Доступно через

API Джина Коммерческая лицензия AWS SageMaker Microsoft Azure Google Облако Обнимающее лицо

График ввода-вывода 1

График ввода-вывода 2

Выберите модели для сравнения

jina-clip-v2

jina-clip-v1

Публикации (1)

ICLR 2025

декабрь 12, 2024

jina-clip-v2: Multilingual Multimodal Embeddings for Text and Images

Обзор

Jina CLIP v2 производит революцию в мультимодальном ИИ, преодолевая разрыв между визуальным и текстовым пониманием на 89 языках. Эта модель решает критические проблемы в глобальной электронной коммерции, управлении контентом и межкультурной коммуникации, обеспечивая точное сопоставление изображений и текста независимо от языковых барьеров. Для компаний, расширяющихся на международном уровне или управляющих многоязычным контентом, она устраняет необходимость в отдельных моделях для каждого языка или сложных конвейерах перевода. Модель особенно хороша в сценариях, требующих точного визуального поиска через языковые границы, таких как обнаружение продуктов на глобальном рынке или многоязычное управление цифровыми активами.

Методы

В своей основе Jina CLIP v2 использует сложную архитектуру с двумя кодировщиками, которая объединяет текстовый кодировщик Jina XLM-RoBERTa (561 млн параметров) с видеокодировщиком EVA02-L14 (304 млн параметров). Текстовый кодировщик обрабатывает контент на 89 языках с огромным контекстным окном из 696 320 токенов, в то время как видеокодер обрабатывает изображения с высоким разрешением до 512x512 пикселей. Модель представляет инновационное обучение представлению Matryoshka, которое позволяет динамически корректировать размерность встраивания с 1024 до 64 измерений, сохраняя производительность. Эта архитектура обрабатывает как текст, так и изображения через соответствующие кодировщики, проецируя их в общее семантическое пространство, где схожие концепции выравниваются независимо от их исходной модальности или языка.

Производительность

Модель достигает самой современной производительности с точностью 98,0% в задачах поиска изображений в текст Flickr30k, превосходя как своего предшественника, так и NLLB-CLIP-SigLIP. В многоязычных сценариях она демонстрирует улучшение до 4% по сравнению с NLLB-CLIP-SigLIP в кросс-языковых задачах поиска изображений, несмотря на то, что имеет меньше параметров, чем ее крупнейший конкурент. Модель сохраняет высокую производительность даже при сжатии вложений — уменьшение размеров на 75% по-прежнему сохраняет более 99% производительности в текстовых, графических и кросс-модальных задачах. В комплексных многоязычных бенчмарках MTEB она достигает 69,86% в задачах поиска и 67,77% в задачах семантического сходства, выступая на равных со специализированными моделями встраивания текста.

Руководство

Для оптимального развертывания пользователи должны учитывать несколько ключевых факторов. Для эффективной обработки модели требуется оборудование с поддержкой CUDA, а требования к памяти масштабируются на основе размера пакета и разрешения изображения. Чтобы оптимизировать затраты и производительность API, измените размер изображений до 512x512 пикселей перед обработкой — более крупные изображения автоматически разбиваются на плитки, что увеличивает использование токенов и время обработки. Модель отлично сопоставляет изображения с описательным текстом на разных языках, но может испытывать трудности с абстрактными концепциями или узкоспециализированным контентом, специфичным для домена. Она особенно эффективна для поиска товаров в электронной коммерции, систем рекомендаций контента и приложений визуального поиска, но может не подходить для задач, требующих детального визуального анализа деталей или узкоспециализированной экспертизы домена. При использовании функции представления Matryoshka рассмотрите компромисс между уменьшением размерности и производительностью — в то время как 64-мерные вложения сохраняют высокую производительность, критически важные приложения могут выиграть от более высоких размерностей.

Блоги, в которых упоминается эта модель

апрель 08, 2025 • 21 минуты чтения

jina-reranker-m0: Многоязычный мультимодальный ранжировщик документов

Представляем jina-reranker-m0, наш новый мультиязычный мультимодальный ранжировщик для поиска визуальных документов, демонстрирующий передовую производительность в задачах поиска многоязычных длинных документов и программного кода.