

jina-clip-v2 API доступен во вкладке "Embeddings".
Мультимодальные эмбеддинги позволяют искать и понимать данные в разных модальностях через согласованное представление. Они служат основой нейронного информационного поиска и мультимодальных GenAI приложений. Сегодня мы рады представить jina-clip-v2, новые многоцелевые многоязычные мультимодальные эмбеддинги, построенные на основе jina-clip-v1 и недавно выпущенного jina-embeddings-3
, с несколькими ключевыми улучшениями:
- Улучшенная производительность: v2 показывает улучшение производительности на 3% по сравнению с v1 как в задачах поиска текст-изображение, так и текст-текст. Как и v1, текстовый энкодер v2 может служить эффективным многоязычным средством плотного поиска с длинным контекстом. Он работает наравне с нашей передовой моделью jina-embeddings-v3 (в настоящее время лучшие многоязычные эмбеддинги с менее чем 1B параметров по MTEB).
- Многоязычная поддержка: Используя jina-embeddings-v3 в качестве текстовой башни, jina-clip-v2 поддерживает 89 языков для многоязычного поиска изображений, показывая улучшение до 4% по сравнению с
nllb-clip-large-siglip
в задачах многоязычного поиска изображений. - Более высокое разрешение изображений: v2 теперь поддерживает входное разрешение изображений 512x512, что значительно больше, чем 224x224 в v1. Это более высокое разрешение позволяет лучше обрабатывать детальные изображения, улучшает извлечение признаков и более точное распознавание мелких визуальных элементов.
- Матрёшечные представления: v2 позволяет пользователям сокращать выходные размерности как текстовых, так и изображенческих эмбеддингов с 1024 до 64, уменьшая затраты на хранение и обработку при сохранении высокой производительности.
tagАрхитектура модели
jina-clip-v2 — это модель в стиле CLIP размером 0,9B, которая объединяет два мощных энкодера: текстовый энкодер Jina XLM-RoBERTa
(основа jina-embeddings-v3) и визуальный энкодер EVA02-L14
(эффективный Vision Transformer, разработанный BAAI). Эти энкодеры совместно обучаются для создания согласованных представлений изображений и текста.
Feature | Text Encoder | Image Encoder |
---|---|---|
Base Model | Jina XLM-RoBERTa | EVA02-L |
Parameters | 561M | 304M |
Input Specification | 8,192 tokens (max) | 512×512 pixels |
Min Output Dimensions | 64 | 64 |
Max Output Dimensions | 1,024 | 1,024 |
Layers | 24 | 24 |
Attention Mechanism | FlashAttention2 | xFormers |
Pooling Strategy | Mean pooling | CLS pooling |
Additional Features | 89 languages supported | Patch size 14x14 |
tagПроизводительность кросс-модального поиска
Jina CLIP v2 обеспечивает многоязычную поддержку для 89 языков с высокой производительностью на основных языках, включая арабский, китайский, английский, французский, немецкий, японский, русский и испанский. В тестах многоязычного поиска изображений она показывает производительность, соответствующую или превосходящую NLLB-CLIP-SigLIP, немного более крупную (1,3B, на 44% больше чем jina-clip-v2) современную модель в стиле CLIP, которая использует предварительно обученный текстовый энкодер из моделей NLLB.
tagТолько английский текст и изображения
На стандартных тестах кросс-модального поиска (Flickr30k и COCO), jina-clip-v2 демонстрирует значительные улучшения по всем параметрам. Она достигает лучшего в своем классе результата 98,0% на Flickr30k в поиске изображение-текст, превосходя как своего предшественника, так и NLLB-CLIP-SigLIP. Модель показывает стабильный прирост во всех сценариях поиска, с заметными улучшениями до 3,3% по сравнению с v1 в поиске изображение-текст на COCO, сохраняя при этом конкурентоспособную производительность с NLLB-CLIP-SigLIP по различным тестам и направлениям модальностей.
Производительность Flickr30k Recall@5:
Task | Model | Score | Relative to v1 | Relative to NLLB |
---|---|---|---|---|
Image-to-text | jina-clip-v2 | 98.0 | +1.7% | +0.9% |
jina-clip-v1 | 96.4 | - | -0.7% | |
nllb-siglip-large | 97.1 | - | - | |
Text-to-image | jina-clip-v2 | 89.8 | +0.9% | -2.6% |
jina-clip-v1 | 89.0 | - | -3.5% | |
nllb-siglip-large | 92.2 | - | - |
Производительность COCO Recall@5:
Task | Model | Score | Relative to v1 | Relative to NLLB |
---|---|---|---|---|
Image-to-text | jina-clip-v2 | 81.5 | +3.3% | +2.9% |
jina-clip-v1 | 78.9 | - | -0.4% | |
nllb-siglip-large | 79.2 | - | - | |
Text-to-image | jina-clip-v2 | 68.4 | +2.9% | -3.4% |
jina-clip-v1 | 66.5 | - | -6.1% | |
nllb-siglip-large | 70.8 | - | - |
tagМногоязычный текст и изображения
На многоязычных кросс-модальных тестах jina-clip-v2 демонстрирует устойчивую производительность, особенно выделяясь в поиске изображение-текст, где она превосходит NLLB-SigLIP во всех наборах данных, с улучшением до +3,8% на Crossmodal 3600. Хотя NLLB-SigLIP показывает немного лучшие возможности поиска текст-изображение, разрыв в производительности остается небольшим, обычно в пределах 3%.
Производительность Image2Text Recall@5:
Benchmark | Model | Score | Relative to NLLB |
---|---|---|---|
Crossmodal 3600 | jina-clip-v2 | 83.23 | +3.8% |
nllb-siglip-large | 80.16 | - | |
Multilingual MS Coco | jina-clip-v2 | 86.03 | +0.8% |
nllb-siglip-large | 85.37 | - | |
XTD10 | jina-clip-v2 | 85.98 | +0.7% |
nllb-siglip-large | 85.41 | - |
Производительность Text2Image Recall@5:
Benchmark | Model | Score | Relative to NLLB |
---|---|---|---|
Crossmodal 3600 | jina-clip-v2 | 81.43 | -0.8% |
nllb-siglip-large | 82.07 | - | |
Multilingual MS Coco | jina-clip-v2 | 84.87 | -3.1% |
nllb-siglip-large | 87.60 | - | |
XTD10 | jina-clip-v2 | 85.03 | -3.0% |
nllb-siglip-large | 87.63 | - |
tagПроизводительность текстового плотного поиска
Как и его предшественник, текстовый энкодер jina-clip-v2 может служить эффективным многоязычным инструментом плотного поиска. В комплексных тестах Multilingual MTEB он показывает высокую производительность, достигая 69.86% в задачах поиска и 67.77% в задачах семантического сходства. Эти результаты демонстрируют его универсальность, конкурируя с нашей специализированной моделью текстовых эмбеддингов jina-embeddings-v3:
Task | Model | Score | Relative to v3 |
---|---|---|---|
Retrieval | jina-clip-v2 | 69.86 | -3.8% |
jina-embeddings-v3 | 72.59 | - | |
Semantic Similarity | jina-clip-v2 | 67.77 | -2.9% |
jina-embeddings-v3 | 69.81 | - |
На английских задачах jina-clip-v2 показывает постоянное улучшение по сравнению как с предшественником, так и с NLLB-SigLIP, с особенно сильным преимуществом в производительности поиска (почти вдвое превышая показатель NLLB-SigLIP).
Task | Model | Score | Relative to v1 |
---|---|---|---|
STS | jina-clip-v2 | 81.29 | +0.5% |
jina-clip-v1 | 80.92 | - | |
nllb-siglip-large | 74.65 | - | |
Retrieval | jina-clip-v2 | 49.33 | +2.1% |
jina-clip-v1 | 48.33 | - | |
nllb-siglip-large | 24.92 | - |
tagПроизводительность Matryoshka-представлений
И текстовый, и графический энкодеры поддерживают MRL, и их выходные размерности могут быть сокращены до 64 при сохранении высокой производительности. Наша оценка усечения эмбеддингов выявила замечательный потенциал сжатия. Даже агрессивное 75%-ное сокращение размерности сохранило более 99% производительности во всех текстовых, графических и кросс-модальных задачах.
tagКлассификация изображений
На 37 различных тестах классификации изображений графический энкодер показывает высокую устойчивость к сокращению размерности. Сжатие с 1024 до 64 измерений (сокращение на 94%) приводит только к 8%-ному снижению точности top-5 и 12.5% в top-1, что подчеркивает его потенциал для эффективного развертывания с минимальной потерей производительности.
tagКроссмодальный поиск
Несмотря на значительное 94% сокращение до всего 64 измерений, кроссмодальный поиск с использованием как усеченных изображений, так и текстовых эмбеддингов остался удивительно эффективным, сохранив 93% производительности в поиске изображений по тексту и 90% в поиске текста по изображениям.
tagПоиск только по тексту
На англоязычных тестах MTEB, 64-мерные текстовые эмбеддинги (сжатые из 1024) отлично сохранили семантическое сходство, потеряв всего 2,1%, в то время как поиск показал умеренное снижение на 17,5%.
tagНачало работы
tagЧерез API
Код демонстрирует, как генерировать эмбеддинги с помощью Python-библиотеки requests
. Передайте текстовую строку с изображением в формате base64 или URL, а также желаемый размер измерения (по умолчанию 1024, показано 768 ниже).
import requests
import numpy as np
from numpy.linalg import norm
cos_sim = lambda a,b: (a @ b.T) / (norm(a)*norm(b))
url = 'https://api.jina.ai/v1/embeddings'
headers = {
'Content-Type': 'application/json',
'Authorization': 'Bearer <YOUR_JINA_AI_API_KEY>'
}
data = {
'input': [
{"text": "Bridge close-shot"},
{"url": "https://fastly.picsum.photos/id/84/1280/848.jpg?hmac=YFRYDI4UsfbeTzI8ZakNOR98wVU7a-9a2tGF542539s"}],
'model': 'jina-clip-v2',
'encoding_type': 'float',
'dimensions': '768'
}
response = requests.post(url, headers=headers, json=data)
sim = cos_sim(np.array(response.json()['data'][0]['embedding']), np.array(response.json()['data'][1]['embedding']))
print(f"Cosine text<->image: {sim}")
Не забудьте заменить <YOUR_JINA_AI_API_KEY> на активированный ключ API Jina. Вы можете получить бесплатный ключ API с миллионом бесплатных токенов здесь.
tagЦенообразование токенов изображений
Наш API учитывает как текстовые, так и токены изображений. Для изображений потребление токенов основано на количестве тайлов 512x512 пикселей, необходимых для покрытия всей площади изображения. Каждый тайл стоит 4000 токенов для обработки, включая частично заполненные тайлы. Для оптимальной экономической эффективности мы рекомендуем пользователям API изменять размер изображений до 512x512 перед отправкой запросов.
Разрешение изображения | Необходимые тайлы | Стоимость в токенах |
---|---|---|
512x512 | 1 | 4,000 |
720x720 | 4 | 16,000 |
1080x1080 | 9 | 36,000 |
tagЧерез маркетплейсы CSP
Jina CLIP v2 доступен напрямую на AWS, Azure и GCP по указанным там ценам.

tagЧерез VectorDB



tagЗаключение
Основываясь на нашем релизе jina-clip-v1 в июне, который расширил модель CLIP от OpenAI с поддержкой текстового ввода до 8192 токенов, и передовой многоязычной модели jina-embeddings-v3, jina-clip-v2 привносит три основных улучшения: многоязычную поддержку 89 языков, увеличенное разрешение изображений до 512x512 и обучение представлений по принципу матрёшки для более компактных эмбеддингов.
CLIP-подобные модели зарекомендовали себя как основа для мультимодальных приложений общего назначения. С помощью jina-clip-v2 мы поднимаем эти возможности на новый уровень, преодолевая языковые барьеры для обеспечения более точного кросс-модального понимания и поиска. Мы верим, что этот релиз выполняет обещание сделать мультимодальный поиск и извлечение информации более мощными и доступными для разработчиков по всему миру.