


Сегодня мы выпускаем jina-embeddings-v4, нашу новую универсальную модель векторного представления (embedding model) с 3,8 миллиардами параметров для текста и изображений. Она включает в себя набор LoRA-адаптеров, оптимизированных для наиболее популярных задач извлечения информации, включая извлечение запросов и документов, семантическое сопоставление и поиск кода. jina-embeddings-v4 демонстрирует современную производительность извлечения информации в многомодальных и многоязычных задачах по MTEB, MMTEB, CoIR, LongEmbed, STS, Jina-VDR, CLIP и ViDoRe, с особым упором на обработку визуально насыщенного контента, такого как таблицы, диаграммы, схемы и их сочетания. Модель поддерживает как одно-векторные, так и много-векторные векторные представления (embeddings).

jina-embeddings-v4 — наша самая амбициозная модель векторного представления (embedding model) на сегодняшний день. Будучи моделью с открытым исходным кодом, jina-embeddings-v4 превосходит ведущие модели векторного представления (embedding model) с закрытым исходным кодом от крупных поставщиков, обеспечивая на 12% лучшую производительность, чем text-embedding-3-large
от OpenAI, в многоязычном поиске (66,49 против 59,27), на 28% лучше в задачах с длинными документами (67,11 против 52,42), на 15% лучше, чем voyage-3
, в поиске кода (71,59 против 67,23), и соответствует производительности gemini-embedding-001
от Google. Это делает v4 самой мощной универсальной моделью векторного представления (embedding model) с открытым исходным кодом, предлагая исследователям и разработчикам многомодальные возможности корпоративного уровня с полной прозрачностью процесса обучения, архитектурных решений и весов модели, как указано в нашем подробном техническом отчете.

tagНовая архитектура
Qwen2.5-VL-3B-Instruct
(3,8 млрд параметров). Текстовые и графические входные данные обрабатываются по общему пути: изображения сначала преобразуются в последовательности 词元 (tokens) с помощью визуального кодировщика, затем обе модальности совместно обрабатываются декодером языковой модели со слоями контекстного внимания. Три LoRA-адаптера для конкретных задач (по 60 миллионов параметров каждый) обеспечивают специализированную оптимизацию для задач извлечения, сопоставления текста и кода, не изменяя замороженные веса основы. Архитектура поддерживает два режима вывода: (1) одно-векторные векторные представления (Embeddings) (2048 измерений, усекаемые до 128), генерируемые с помощью усредненного пулинга для эффективного поиска сходства, и (2) много-векторные векторные представления (Embeddings) (128 измерений на 词元 (token)) с помощью проекционных слоев для стратегий извлечения с поздним взаимодействием.Обновление с jina-embeddings-v3 доjina-embeddings-v4 представляет собой сдвиг парадигмы от текстовых к мультимодальным 向量模型 (Embeddings). В то время как v3 была сосредоточена на оптимизации текстовых 向量模型 (Embeddings) с помощью task-specific LoRA adapters, v4 отвечает растущим требованиям к встраиванию как текстового, так и визуального контента в унифицированные представления.
Аспект | <strong>jina-embeddings-v3</strong> | <strong>jina-embeddings-v4</strong> |
---|---|---|
Backbone Model | jina-XLM-RoBERTa | Qwen2.5-VL-3B-Instruct |
Parameters (Base) | 559M | 3.8B |
Parameters (with adapters) | 572M | 3.8B + 60M per adapter |
Modalities | Text only | Text + Images (multimodal) |
Max Input Length | 8,192 tokens | 32,768 tokens |
Image Processing | None | Up to 20 megapixels, visually rich documents |
Multilingual Support | 89 languages | 29+ languages |
Vector Types | Single-vector only | Single-vector + Multi-vector (late interaction) |
Single-vector Dimensions | 1024 (MRL truncatable to 32) | 2048 (MRL truncatable to 128) |
Multi-vector Dimensions | Not available | 128 per token |
Task LoRA Specializations | • Asymmetric retrieval • Semantic similarity • Classification • Separation |
• Asymmetric retrieval • Semantic similarity • Code retrieval |
Training Stages | 3-stage: Pre-training → Embedding fine-tuning → Adapter training | 2-stage: Joint pair training → Task-specific adapter training |
Loss Functions | InfoNCE, CoSent, Extended triplet loss | Joint InfoNCE + KL divergence for single/multi-vector |
Positional Encoding | RoPE (rotary base frequency tuning) | M-RoPE (Multimodal Rotary Position Embedding) |
Cross-modal Processing | N/A | Unified encoder (reduced modality gap) |
MRL Support | Yes | Yes |
Attention Implementation | FlashAttention2 | FlashAttention2 |
tagBackbone
Самым значительным архитектурным изменением в v4 является изменение backbone с XLM-RoBERTa
на Qwen2.5-VL-3B-Instruct
. Это решение было обусловлено основной целью v4 - создать универсальную модель 向量模型 (Embedding), которая позволяет осуществлять "истинную мультимодальную обработку", при которой изображения преобразуются в последовательности 词元 (Tokens) и обрабатываются вместе с текстом, устраняя modality gap, присутствующий в архитектурах с двойным кодировщиком.
Выбор backbone соответствует нескольким ключевым целям проектирования: превосходство Qwen2.5-VL в понимании документов напрямую поддерживает силу v4 в обработке визуально богатого контента, такого как таблицы, диаграммы и скриншоты. Возможности динамического разрешения позволяют v4 обрабатывать изображения, измененные до 20 мегапикселей, как указано в архитектуре. Усовершенствованное позиционное кодирование обеспечивает основу, которая позволяет v4 достичь превосходного кросс-модального выравнивания с оценкой выравнивания 0,71 по сравнению с 0,15 для OpenAI CLIP.
tagLoRA Adapters
V4 упрощает переход от пяти задач v3 к трем основным задачам, отражая уроки, извлеченные об эффективности и внедрении пользователями:
- Asymmetric retrieval (консолидация query/passage adapters v3)
- Symmetric similarity (эквивалент text-matching v3 для задач STS)
- Code retrieval (полученный из v2-code, отсутствующий в v3)
Эта консолидация удаляет адаптеры классификации и разделения v3, фокусируя v4 на наиболее эффективных вариантах использования 向量模型 (Embedding) - retrieval и STS.
tagOutput Embeddings
V4 представляет систему с двойным выходом, поддерживающую как single-vector, так и multi-vector 向量模型 (Embeddings), тогда как v3 предоставляла только single-vector выходы. Это относится к различным сценариям retrieval:
- Single-vector mode: 向量模型 (Embeddings) размерностью 2048 (усекаемые до 128 через MRL) для эффективного поиска по сходству
- Multi-vector mode: 128 измерений на 词元 (Token) для late-interaction retrieval
Этот двойной подход обеспечивает большую эффективность с multi-vector представлениями, особенно при retrieval визуально богатых документов, сохраняя при этом эффективность для стандартных задач сходства. Последовательное преимущество multi-vector над single-vector mode в 7-10% по производительности в визуальных задачах предполагает, что late interaction обеспечивает принципиально лучшее семантическое сопоставление для мультимодального контента.
tagParameter Size
Хотя v4 в 6,7 раза больше, чем v3 (3,8B против 570M параметров), улучшения производительности только для текста на самом деле скромные, что говорит о том, что масштабирование параметров в первую очередь было обусловлено мультимодальными требованиями, а не улучшением текста. На основных текстовых бенчмарках v4 достигает 66,49 на MMTEB по сравнению с 58,58 у v3 (улучшение на 14%) и 55,97 на MTEB-EN по сравнению с 54,33 у v3 (улучшение на 3%). Для code retrieval v4 набирает 71,59 на CoIR по сравнению с 55,07 у v3 (улучшение на 30%), в то время как производительность длинных документов показывает v4 на уровне 67,11 против 55,66 у v3 на LongEmbed (улучшение на 21%). Существенное масштабирование становится оправданным при рассмотрении мультимодальных возможностей v4: достижение 84,11 nDCG@5 на визуальном document retrieval (Jina-VDR) и 90,17 на бенчмарках ViDoRe - возможностей, полностью отсутствующих в v3. Таким образом, увеличение параметров представляет собой нашу инвестицию в мультимодальную функциональность, сохраняя при этом конкурентоспособную текстовую производительность, при этом унифицированная архитектура устраняет необходимость в отдельных текстовых и визуальных моделях, достигая при этом кросс-модального выравнивания 0,71 по сравнению с 0,15 для традиционных подходов с двойным кодировщиком.
tagGetting Started
Для быстрой проверки попробуйте нашу демонстрацию text-to-image в Search Foundation toolbox. Мы подготовили коллекцию изображений документов с нашего веб-сайта, и вы также можете добавить свои собственные URL-адреса изображений. Просто введите свой запрос и нажмите Enter, чтобы увидеть ранжированные результаты. Вы можете извлечь его либо как OCR, либо как content-based image retrieval - также не стесняйтесь пробовать запросы не на английском языке.
The demo is available at: https://jina.ai/api-dashboard/m0-image-rerank Please note that using this demo will consume your primary API key's tokens. Also the demo might seem a bit slow since it needs to download all images on the server from those URLs, and no cache is implemented for images.
tagVia API
В коде ниже показано, как использовать jina-embeddings-v4. Вы можете передать текстовую строку, изображение в кодировке base64 или URL-адрес изображения. Новые пользователи могут получить ключ Jina API с 10 миллионами бесплатных 词元 (Tokens).
curl https://api.jina.ai/v1/embeddings \
-H "Content-Type: application/json" \
-H "Authorization: Bearer JINA_API_KEY" \
-d @- <<EOFEOF
{
"model": "jina-embeddings-v4",
"task": "text-matching",
"input": [
{
"text": "A beautiful sunset over the beach"
},
{
"text": "Un beau coucher de soleil sur la plage"
},
{
"text": "海滩上美丽的日落"
},
{
"text": "浜辺に沈む美しい夕日"
},
{
"image": "https://i.ibb.co/nQNGqL0/beach1.jpg"
},
{
"image": "https://i.ibb.co/r5w8hG8/beach2.jpg"
},
{
"image": "iVBORw0KGgoAAAANSUhEUgAAABwAAAA4CAIAAABhUg/jAAAAMklEQVR4nO3MQREAMAgAoLkoFreTiSzhy4MARGe9bX99lEqlUqlUKpVKpVKpVCqVHksHaBwCA2cPf0cAAAAASUVORK5CYII="
}
]
}
EOFEOF
Из-за ограниченности ресурсов GPU наш API для создания векторных представлений (Embedding) в настоящее время поддерживает документы длиной до 8 тысяч токенов (Tokens), несмотря на то, что jina-embeddings-v4 изначально способен обрабатывать до 32 тысяч токенов. Для приложений, требующих более длинного контекста (например, Late Chunking) свыше 8 тысяч токенов, мы рекомендуем развертывать наши модели через CSP или самостоятельно размещать модель.
tagЧерез торговые площадки CSP
jina-embeddings-v4 скоро будет доступен непосредственно на AWS, Azure и GCP по указанным там ценам.
tagЧерез HuggingFace
Для исследовательских и экспериментальных целей вы можете использовать модель локально со страницы Hugging Face. Мы подготовили блокнот Google Colab, демонстрирующий, как это работает.

tagЗаключение
jina-embeddings-v4 представляет собой наш самый значительный скачок вперед — универсальную модель векторного представления (embedding) с 3,8 миллиардами параметров, которая обрабатывает текст и изображения по единому пути, поддерживая как плотное извлечение, так и извлечение с поздним взаимодействием, превосходя при этом проприетарные модели от Google, OpenAI и Voyage AI, особенно в извлечении документов с большим количеством визуального контента. Но эта возможность возникла не изолированно; это кульминация четырех поколений решения фундаментальных ограничений.
Когда мы начинали с jina-embeddings-v1
в начале 2022 года, все предполагали, что больше данных означает лучшую производительность. Мы доказали обратное — фильтрация 1,5 миллиарда пар до 385 миллионов высококачественных примеров превзошла гораздо большие наборы данных. Урок: курирование бьет коллекцию.

Но пользователи продолжали наталкиваться на предел BERT в 512 токенов. Обучение на более длинных последовательностях казалось дорогостоящим, пока jina-embeddings-v2
не раскрыл элегантное решение: обучать короткие, развертывать длинные. Линейные смещения внимания ALiBi позволяют моделям, обученным на 512 токенах, беспрепятственно обрабатывать 8192 токена при выводе. Мы получили больше возможностей за меньшие вычислительные ресурсы.

Успех jina-embeddings-v2
выявил еще одно ограничение — для разных задач нужны разные оптимизации. Вместо создания отдельных моделей jina-embeddings-v3 использовал крошечные 60M LoRA адаптеры для настройки базовой модели 570M для любой задачи. Одна модель стала пятью специализированными моделями.

Даже с учетом специализации задач мы оставались только в текстовом формате, в то время как пользователям было необходимо визуальное понимание. Стандартные модели на основе CLIP, такие как jina-clip-v1 и jina-clip-v2, используют отдельные кодировщики, создавая "разрыв модальности", когда схожий контент в разных форматах оказывается далеко друг от друга. Как и в нашей недавно выпущенной jina-reranker-m0 (重排器 (Reranker)), в jina-embeddings-v4 это было полностью устранено — единый путь обработки всего, устраняя разрыв, а не перекрывая его.

Как jina-embeddings-v4, так и jina-reranker-m0 разделяют фундаментальный сдвиг: использование больших языковых моделей (LLM) в качестве основы вместо моделей только с кодировщиком. Это не случайно — это отражает глубокое преимущество, которое большинство упускает из виду: модели только с кодировщиком создают "разрывы модальности", где изображения кластеризуются отдельно от текста. Модели только с декодировщиком открывают возможности, которые были недостижимы с архитектурами только с кодировщиком, включая истинное представление смешанной модальности и объяснимость.
Наша ключевая идея: векторные модели (embeddings) и генерация — это понимание семантики. Большие языковые модели (LLM), преуспевающие в генерации, естественно преуспевают и в представлении данных. Мы считаем, что будущее за унифицированными архитектурами, где векторное представление и переранжирование (reranking) возникают из одной и той же базовой модели поиска — и именно к этому стремится Jina AI.