Новости
Модели
Продукты
keyboard_arrow_down
Читатель
Читайте URL-адреса и ищите информацию в Интернете для получения более подходящей подготовки для получения степени магистра права.
Вложения
Мультимодальные многоязычные вложения мирового класса.
Реранкер
Нейронный ретривер мирового класса для максимального повышения релевантности поиска.
Глубокий поиск
Ищите, читайте и рассуждайте, пока не найдете лучший ответ.
Более
keyboard_arrow_down
Классификатор
Классификация изображений и текста по нулевому и небольшому количеству кадров.
Сегментатор
Разрежьте длинный текст на куски и выполните токенизацию.

API-документы
Автоматическая генерация кода для вашего второго пилота IDE или LLM
open_in_new


Компания
keyboard_arrow_down
О нас
Связаться с отделом продаж
Стажерская программа
Присоединяйтесь к нам
open_in_new
Скачать логотип
open_in_new
Условия использования


Авторизоваться
login
Архитектура модели
Производительность кросс-модального поиска
Производительность текстового плотного поиска
Производительность Matryoshka-представлений
Начало работы
Заключение
star
Избранное
пресс-релиз
ноябрь 21, 2024

Jina CLIP v2: Мультиязычные мультимодальные эмбеддинги для текста и изображений

Jina-CLIP v2 — мультимодальная модель эмбеддингов размером 0.9B с многоязычной поддержкой 89 языков, высоким разрешением изображений 512x512 и представлениями Matryoshka.
Jina AI
Jina AI • 8 минуты чтения
jinaai/jina-clip-v2 · Hugging Face
Мы находимся на пути к развитию и демократизации искусственного интеллекта через открытый исходный код и открытую науку.
Jina AI - Ваша поисковая основа, заряженная суперсилой.
Лучшие в своем классе эмбеддинги, ранжировщики, LLM-ридеры, веб-скрейперы, классификаторы. Лучший поисковый ИИ для многоязычных и мультимодальных данных.
Ваша поисковая основа, заряженная суперсилой.

jina-clip-v2 API доступен во вкладке "Embeddings".

Мультимодальные эмбеддинги позволяют искать и понимать данные в разных модальностях через согласованное представление. Они служат основой нейронного информационного поиска и мультимодальных GenAI приложений. Сегодня мы рады представить jina-clip-v2, новые многоцелевые многоязычные мультимодальные эмбеддинги, построенные на основе jina-clip-v1 и недавно выпущенного jina-embeddings-3, с несколькими ключевыми улучшениями:

  • Улучшенная производительность: v2 показывает улучшение производительности на 3% по сравнению с v1 как в задачах поиска текст-изображение, так и текст-текст. Как и v1, текстовый энкодер v2 может служить эффективным многоязычным средством плотного поиска с длинным контекстом. Он работает наравне с нашей передовой моделью jina-embeddings-v3 (в настоящее время лучшие многоязычные эмбеддинги с менее чем 1B параметров по MTEB).
  • Многоязычная поддержка: Используя jina-embeddings-v3 в качестве текстовой башни, jina-clip-v2 поддерживает 89 языков для многоязычного поиска изображений, показывая улучшение до 4% по сравнению с nllb-clip-large-siglip в задачах многоязычного поиска изображений.
  • Более высокое разрешение изображений: v2 теперь поддерживает входное разрешение изображений 512x512, что значительно больше, чем 224x224 в v1. Это более высокое разрешение позволяет лучше обрабатывать детальные изображения, улучшает извлечение признаков и более точное распознавание мелких визуальных элементов.
  • Матрёшечные представления: v2 позволяет пользователям сокращать выходные размерности как текстовых, так и изображенческих эмбеддингов с 1024 до 64, уменьшая затраты на хранение и обработку при сохранении высокой производительности.

tagАрхитектура модели

jina-clip-v2 — это модель в стиле CLIP размером 0,9B, которая объединяет два мощных энкодера: текстовый энкодер Jina XLM-RoBERTa (основа jina-embeddings-v3) и визуальный энкодер EVA02-L14 (эффективный Vision Transformer, разработанный BAAI). Эти энкодеры совместно обучаются для создания согласованных представлений изображений и текста.

Feature Text Encoder Image Encoder
Base Model Jina XLM-RoBERTa EVA02-L
Parameters 561M 304M
Input Specification 8,192 tokens (max) 512×512 pixels
Min Output Dimensions 64 64
Max Output Dimensions 1,024 1,024
Layers 24 24
Attention Mechanism FlashAttention2 xFormers
Pooling Strategy Mean pooling CLS pooling
Additional Features 89 languages supported Patch size 14x14

tagПроизводительность кросс-модального поиска

Jina CLIP v2 обеспечивает многоязычную поддержку для 89 языков с высокой производительностью на основных языках, включая арабский, китайский, английский, французский, немецкий, японский, русский и испанский. В тестах многоязычного поиска изображений она показывает производительность, соответствующую или превосходящую NLLB-CLIP-SigLIP, немного более крупную (1,3B, на 44% больше чем jina-clip-v2) современную модель в стиле CLIP, которая использует предварительно обученный текстовый энкодер из моделей NLLB.

tagТолько английский текст и изображения

На стандартных тестах кросс-модального поиска (Flickr30k и COCO), jina-clip-v2 демонстрирует значительные улучшения по всем параметрам. Она достигает лучшего в своем классе результата 98,0% на Flickr30k в поиске изображение-текст, превосходя как своего предшественника, так и NLLB-CLIP-SigLIP. Модель показывает стабильный прирост во всех сценариях поиска, с заметными улучшениями до 3,3% по сравнению с v1 в поиске изображение-текст на COCO, сохраняя при этом конкурентоспособную производительность с NLLB-CLIP-SigLIP по различным тестам и направлениям модальностей.

Производительность Flickr30k Recall@5:

Task Model Score Relative to v1 Relative to NLLB
Image-to-text jina-clip-v2 98.0 +1.7% +0.9%
jina-clip-v1 96.4 - -0.7%
nllb-siglip-large 97.1 - -
Text-to-image jina-clip-v2 89.8 +0.9% -2.6%
jina-clip-v1 89.0 - -3.5%
nllb-siglip-large 92.2 - -

Производительность COCO Recall@5:

Task Model Score Relative to v1 Relative to NLLB
Image-to-text jina-clip-v2 81.5 +3.3% +2.9%
jina-clip-v1 78.9 - -0.4%
nllb-siglip-large 79.2 - -
Text-to-image jina-clip-v2 68.4 +2.9% -3.4%
jina-clip-v1 66.5 - -6.1%
nllb-siglip-large 70.8 - -

tagМногоязычный текст и изображения

На многоязычных кросс-модальных тестах jina-clip-v2 демонстрирует устойчивую производительность, особенно выделяясь в поиске изображение-текст, где она превосходит NLLB-SigLIP во всех наборах данных, с улучшением до +3,8% на Crossmodal 3600. Хотя NLLB-SigLIP показывает немного лучшие возможности поиска текст-изображение, разрыв в производительности остается небольшим, обычно в пределах 3%.

Производительность Image2Text Recall@5:

Benchmark Model Score Relative to NLLB
Crossmodal 3600 jina-clip-v2 83.23 +3.8%
nllb-siglip-large 80.16 -
Multilingual MS Coco jina-clip-v2 86.03 +0.8%
nllb-siglip-large 85.37 -
XTD10 jina-clip-v2 85.98 +0.7%
nllb-siglip-large 85.41 -

Производительность Text2Image Recall@5:

Benchmark Model Score Relative to NLLB
Crossmodal 3600 jina-clip-v2 81.43 -0.8%
nllb-siglip-large 82.07 -
Multilingual MS Coco jina-clip-v2 84.87 -3.1%
nllb-siglip-large 87.60 -
XTD10 jina-clip-v2 85.03 -3.0%
nllb-siglip-large 87.63 -

tagПроизводительность текстового плотного поиска

Как и его предшественник, текстовый энкодер jina-clip-v2 может служить эффективным многоязычным инструментом плотного поиска. В комплексных тестах Multilingual MTEB он показывает высокую производительность, достигая 69.86% в задачах поиска и 67.77% в задачах семантического сходства. Эти результаты демонстрируют его универсальность, конкурируя с нашей специализированной моделью текстовых эмбеддингов jina-embeddings-v3:

Task Model Score Relative to v3
Retrieval jina-clip-v2 69.86 -3.8%
jina-embeddings-v3 72.59 -
Semantic Similarity jina-clip-v2 67.77 -2.9%
jina-embeddings-v3 69.81 -

На английских задачах jina-clip-v2 показывает постоянное улучшение по сравнению как с предшественником, так и с NLLB-SigLIP, с особенно сильным преимуществом в производительности поиска (почти вдвое превышая показатель NLLB-SigLIP).

Task Model Score Relative to v1
STS jina-clip-v2 81.29 +0.5%
jina-clip-v1 80.92 -
nllb-siglip-large 74.65 -
Retrieval jina-clip-v2 49.33 +2.1%
jina-clip-v1 48.33 -
nllb-siglip-large 24.92 -

tagПроизводительность Matryoshka-представлений

И текстовый, и графический энкодеры поддерживают MRL, и их выходные размерности могут быть сокращены до 64 при сохранении высокой производительности. Наша оценка усечения эмбеддингов выявила замечательный потенциал сжатия. Даже агрессивное 75%-ное сокращение размерности сохранило более 99% производительности во всех текстовых, графических и кросс-модальных задачах.

tagКлассификация изображений

На 37 различных тестах классификации изображений графический энкодер показывает высокую устойчивость к сокращению размерности. Сжатие с 1024 до 64 измерений (сокращение на 94%) приводит только к 8%-ному снижению точности top-5 и 12.5% в top-1, что подчеркивает его потенциал для эффективного развертывания с минимальной потерей производительности.

Для классификации изображений мы использовали 19 тестов из набора данных VTAB, VOC 2007, SUN397, STL10, Rendered SST2, ObjectNet, MNIST, German Traffic Sign Recognition Benchmark (GTSRB), Fine-Grained Visual Classification of Aircraft (FGVC-Aircraft), FER 2013, Country211, Cars196, ImageNet-A, ImageNet-O,ImageNet1k, ImageNet Sketch и ImageNet v2.

tagКроссмодальный поиск

Несмотря на значительное 94% сокращение до всего 64 измерений, кроссмодальный поиск с использованием как усеченных изображений, так и текстовых эмбеддингов остался удивительно эффективным, сохранив 93% производительности в поиске изображений по тексту и 90% в поиске текста по изображениям.

Мы использовали шесть тестов, три из которых многоязычные: Crossmodal-3600 (36 языков), flickr30k (только английский), flickr8k (только английский), MS COCO Captions (только английский), Multilingual MS COCO Captions (10 языков), XTD 200 (27 языков)

tagПоиск только по тексту

На англоязычных тестах MTEB, 64-мерные текстовые эмбеддинги (сжатые из 1024) отлично сохранили семантическое сходство, потеряв всего 2,1%, в то время как поиск показал умеренное снижение на 17,5%.

tagНачало работы

tagЧерез API

Код демонстрирует, как генерировать эмбеддинги с помощью Python-библиотеки requests. Передайте текстовую строку с изображением в формате base64 или URL, а также желаемый размер измерения (по умолчанию 1024, показано 768 ниже).

import requests
import numpy as np
from numpy.linalg import norm

cos_sim = lambda a,b: (a @ b.T) / (norm(a)*norm(b))

url = 'https://api.jina.ai/v1/embeddings'

headers = {
  'Content-Type': 'application/json',
  'Authorization': 'Bearer <YOUR_JINA_AI_API_KEY>'
}

data = {
  'input': [
     {"text": "Bridge close-shot"},
     {"url": "https://fastly.picsum.photos/id/84/1280/848.jpg?hmac=YFRYDI4UsfbeTzI8ZakNOR98wVU7a-9a2tGF542539s"}],
  'model': 'jina-clip-v2',
  'encoding_type': 'float',
  'dimensions': '768' 
}

response = requests.post(url, headers=headers, json=data)
sim = cos_sim(np.array(response.json()['data'][0]['embedding']), np.array(response.json()['data'][1]['embedding']))
print(f"Cosine text<->image: {sim}")

Не забудьте заменить <YOUR_JINA_AI_API_KEY> на активированный ключ API Jina. Вы можете получить бесплатный ключ API с миллионом бесплатных токенов здесь.

tagЦенообразование токенов изображений

Наш API учитывает как текстовые, так и токены изображений. Для изображений потребление токенов основано на количестве тайлов 512x512 пикселей, необходимых для покрытия всей площади изображения. Каждый тайл стоит 4000 токенов для обработки, включая частично заполненные тайлы. Для оптимальной экономической эффективности мы рекомендуем пользователям API изменять размер изображений до 512x512 перед отправкой запросов.

Разрешение изображения Необходимые тайлы Стоимость в токенах
512x512 1 4,000
720x720 4 16,000
1080x1080 9 36,000
Для квадратных изображений измените размер до 512x512 для лучшей экономической эффективности. Для задач, чувствительных к соотношению сторон, масштабируйте самую длинную сторону до 512, центрируйте изображение и заполните черным цветом. Для общих целей прямое изменение размера до 512x512 работает хорошо.

tagЧерез маркетплейсы CSP

Jina CLIP v2 доступен напрямую на AWS, Azure и GCP по указанным там ценам.

AWS Marketplace: Jina CLIP v2
Microsoft Azure Marketplace
Google Cloud console
Тратьте разумно, закупайте быстрее и используйте зарезервированные расходы Google Cloud с помощью Google Cloud Marketplace. Просматривайте каталог из более чем 2000 SaaS, виртуальных машин, стеков разработки и приложений Kubernetes, оптимизированных для работы в Google Cloud.

tagЧерез VectorDB

Векторная база данных для создания интеллектуального ИИ | Pinecone
Ищите похожие совпадения среди миллиардов элементов за миллисекунды. Это поиск нового поколения на расстоянии одного API-вызова.
Pinecone Docs
Мультимодальные Embeddings | Weaviate
Интеграция Weaviate с API Jina AI позволяет получить прямой доступ к возможностям их моделей из Weaviate.
Weaviate
Jina Embeddings - Qdrant
Qdrant — это векторная база данных с открытым исходным кодом и движок векторного поиска, написанный на Rust. Он обеспечивает быстрый и масштабируемый сервис поиска по векторной схожести с удобным API.
editQdrant

tagЗаключение

Основываясь на нашем релизе jina-clip-v1 в июне, который расширил модель CLIP от OpenAI с поддержкой текстового ввода до 8192 токенов, и передовой многоязычной модели jina-embeddings-v3, jina-clip-v2 привносит три основных улучшения: многоязычную поддержку 89 языков, увеличенное разрешение изображений до 512x512 и обучение представлений по принципу матрёшки для более компактных эмбеддингов.

CLIP-подобные модели зарекомендовали себя как основа для мультимодальных приложений общего назначения. С помощью jina-clip-v2 мы поднимаем эти возможности на новый уровень, преодолевая языковые барьеры для обеспечения более точного кросс-модального понимания и поиска. Мы верим, что этот релиз выполняет обещание сделать мультимодальный поиск и извлечение информации более мощными и доступными для разработчиков по всему миру.

Категории:
star
Избранное
пресс-релиз
rss_feed
Офисы
location_on
Саннивейл, Калифорния
710 Lakeway Dr, Ste 200, Саннивейл, Калифорния 94085, США
location_on
Берлин, Германия (штаб-квартира)
Prinzessinnenstraße 19-20, 10969 Берлин, Германия
location_on
Пекин, Китай
Уровень 5, здание 6, ул. Хайдянь Вест, д. 48, Пекин, Китай
location_on
Шэньчжэнь, Китай
402, этаж 4, здание Fu'an Technology, Шэньчжэнь, Китай
Поиск Фонда
Читатель
Вложения
Реранкер
Глубокий поиск
Классификатор
Сегментатор
API-документация
Получить API-ключ Jina
Ограничение скорости
Статус API
Компания
О нас
Связаться с отделом продаж
отдел новостей
Стажерская программа
Присоединяйтесь к нам
open_in_new
Скачать логотип
open_in_new
Условия
Безопасность
Условия использования
Конфиденциальность
Управление файлами cookie
email
Jina AI © 2020-2025.