Новости
Модели
Продукты
keyboard_arrow_down
Глубокий поиск
Ищите, читайте и рассуждайте, пока не найдете лучший ответ.
Читатель
Читайте URL-адреса и ищите информацию в Интернете для получения более подходящей подготовки для получения степени магистра права.
Вложения
Мультимодальные многоязычные вложения мирового класса.
Реранкер
Нейронный ретривер мирового класса для максимального повышения релевантности поиска.
Более
keyboard_arrow_down
Классификатор
Классификация изображений и текста по нулевому и небольшому количеству кадров.
Сегментатор
Разрежьте длинный текст на куски и выполните токенизацию.

API-документы
Автоматическая генерация кода для вашего второго пилота IDE или LLM
open_in_new


Компания
keyboard_arrow_down
О нас
Связаться с отделом продаж
Стажерская программа
Присоединяйтесь к нам
open_in_new
Скачать логотип
open_in_new
Условия использования


Авторизоваться
login
copyright

jina-clip-v2

Многоязычные мультимодальные вложения для текстов и изображений
Выпуск Постarrow_forward
Лицензия
copyright
CC-BY-NC-4.0
Дата выпуска
calendar_month
2024-11-05
Вход
image
Изображение
abc
Текст
arrow_forward
Выход
more_horiz
Вектор
Подробности модели
Параметры: 865M
Длина входного токена: 8K
Размер входного изображения: 512x512
Выходной размер: 1024
Поддержка языков
🌍 Многоязычная поддержка
Похожие модели
link
jina-clip-v1
Теги
multimodal-embedding
image-text-alignment
multilingual
large-context
instruction-tuned
masked-region-learning
production
cross-lingual-retrieval
zero-shot-classification
modality-gap-aware
Доступно через
API ДжинаКоммерческая лицензияAWS SageMakerMicrosoft AzureGoogle ОблакоОбнимающее лицо
График ввода-вывода 1
График ввода-вывода 2
Выберите модели для сравнения
Публикации (1)
ICLR 2025
декабрь 12, 2024
jina-clip-v2: Multilingual Multimodal Embeddings for Text and Images

Обзор

Jina CLIP v2 производит революцию в мультимодальном ИИ, преодолевая разрыв между визуальным и текстовым пониманием на 89 языках. Эта модель решает критические проблемы в глобальной электронной коммерции, управлении контентом и межкультурной коммуникации, обеспечивая точное сопоставление изображений и текста независимо от языковых барьеров. Для компаний, расширяющихся на международном уровне или управляющих многоязычным контентом, она устраняет необходимость в отдельных моделях для каждого языка или сложных конвейерах перевода. Модель особенно хороша в сценариях, требующих точного визуального поиска через языковые границы, таких как обнаружение продуктов на глобальном рынке или многоязычное управление цифровыми активами.

Методы

В своей основе Jina CLIP v2 использует сложную архитектуру с двумя кодировщиками, которая объединяет текстовый кодировщик Jina XLM-RoBERTa (561 млн параметров) с видеокодировщиком EVA02-L14 (304 млн параметров). Текстовый кодировщик обрабатывает контент на 89 языках с огромным контекстным окном из 696 320 токенов, в то время как видеокодер обрабатывает изображения с высоким разрешением до 512x512 пикселей. Модель представляет инновационное обучение представлению Matryoshka, которое позволяет динамически корректировать размерность встраивания с 1024 до 64 измерений, сохраняя производительность. Эта архитектура обрабатывает как текст, так и изображения через соответствующие кодировщики, проецируя их в общее семантическое пространство, где схожие концепции выравниваются независимо от их исходной модальности или языка.

Производительность

Модель достигает самой современной производительности с точностью 98,0% в задачах поиска изображений в текст Flickr30k, превосходя как своего предшественника, так и NLLB-CLIP-SigLIP. В многоязычных сценариях она демонстрирует улучшение до 4% по сравнению с NLLB-CLIP-SigLIP в кросс-языковых задачах поиска изображений, несмотря на то, что имеет меньше параметров, чем ее крупнейший конкурент. Модель сохраняет высокую производительность даже при сжатии вложений — уменьшение размеров на 75% по-прежнему сохраняет более 99% производительности в текстовых, графических и кросс-модальных задачах. В комплексных многоязычных бенчмарках MTEB она достигает 69,86% в задачах поиска и 67,77% в задачах семантического сходства, выступая на равных со специализированными моделями встраивания текста.

Руководство

Для оптимального развертывания пользователи должны учитывать несколько ключевых факторов. Для эффективной обработки модели требуется оборудование с поддержкой CUDA, а требования к памяти масштабируются на основе размера пакета и разрешения изображения. Чтобы оптимизировать затраты и производительность API, измените размер изображений до 512x512 пикселей перед обработкой — более крупные изображения автоматически разбиваются на плитки, что увеличивает использование токенов и время обработки. Модель отлично сопоставляет изображения с описательным текстом на разных языках, но может испытывать трудности с абстрактными концепциями или узкоспециализированным контентом, специфичным для домена. Она особенно эффективна для поиска товаров в электронной коммерции, систем рекомендаций контента и приложений визуального поиска, но может не подходить для задач, требующих детального визуального анализа деталей или узкоспециализированной экспертизы домена. При использовании функции представления Matryoshka рассмотрите компромисс между уменьшением размерности и производительностью — в то время как 64-мерные вложения сохраняют высокую производительность, критически важные приложения могут выиграть от более высоких размерностей.
Блоги, в которых упоминается эта модель
апрель 08, 2025 • 21 минуты чтения
jina-reranker-m0: Многоязычный мультимодальный ранжировщик документов
Представляем jina-reranker-m0, наш новый мультиязычный мультимодальный ранжировщик для поиска визуальных документов, демонстрирующий передовую производительность в задачах поиска многоязычных длинных документов и программного кода.
Jina AI
Modern dot matrix text display on a dark blue background, conveying a digital feel.
январь 07, 2025 • 6 минуты чтения
Глобальное контрастное выравнивание текста и изображения и локальное выравнивание токенов и патчей
CLIP может визуализировать сходства между токенами и патчами, однако, это скорее постфактум интерпретационный трюк, чем надежное или официальное "внимание" модели. Вот почему.
Han Xiao
3D rendered scene with a black-screened laptop on a geometrical pedestal and patterned spheres, against a blue backdrop.
декабрь 16, 2024 • 2 минуты чтения
Re·Search: Ежегодник 2024 о достижениях в области поисковых технологий
Встречайте Re·Search — наш премиальный ежегодник, в котором собраны лучшие исследовательские статьи и базовые модели поиска за 2024 год. Издание отличает твердая обложка с выборочным УФ-лакированием, 160 полноцветных страниц и тщательно продуманный дизайн. Доступен по всему миру по цене $35, включая доставку.
Jina AI
Open red publication "ReSearch" volume 24 displayed on a white surface with a distinctive shadow casting over the pages.
декабрь 12, 2024 • 12 минуты чтения
Масштабирование вычислений во время тестирования для моделей встраивания
Качество результатов растет с увеличением вычислений — больше на обучение, больше на поиск. Хорошая предварительно обученная модель дает отличный старт, но вычисления во время тестирования продвигают вас еще дальше. Важно понимать эту новую парадигму масштабирования вычислений во время тестирования, даже для моделей встраивания.
Han Xiao
David Hockney artwork of a hand holding a rod with three colored spheres on a blue-toned background.
ноябрь 21, 2024 • 9 минуты чтения
Jina CLIP v2: Мультиязычные мультимодальные эмбеддинги для текста и изображений
Jina-CLIP v2 — мультимодальная модель эмбеддингов размером 0.9B с многоязычной поддержкой 89 языков, высоким разрешением изображений 512x512 и представлениями Matryoshka.
Jina AI
Digital number "2" displayed in a mosaic of colorful squares against a dark background, creating a futuristic vibe.
Офисы
location_on
Саннивейл, Калифорния
710 Lakeway Dr, Ste 200, Саннивейл, Калифорния 94085, США
location_on
Берлин, Германия (штаб-квартира)
Prinzessinnenstraße 19-20, 10969 Берлин, Германия
location_on
Пекин, Китай
Уровень 5, здание 6, ул. Хайдянь Вест, д. 48, Пекин, Китай
location_on
Шэньчжэнь, Китай
402, этаж 4, здание Fu'an Technology, Шэньчжэнь, Китай
Поиск Фонда
Глубокий поиск
Читатель
Вложения
Реранкер
Классификатор
Сегментатор
API-документация
Получить API-ключ Jina
Ограничение скорости
Статус API
Компания
О нас
Связаться с отделом продаж
отдел новостей
Стажерская программа
Присоединяйтесь к нам
open_in_new
Скачать логотип
open_in_new
Условия
Безопасность
Условия использования
Конфиденциальность
Управление файлами cookie
email
Jina AI © 2020-2025.