Jina Embeddings v4: Универсальные векторные модели (Embeddings) для мультимодального многоязыкового поиска

jina-embeddings-v4: Universal Embeddings for Multimodal Multilingual Retrieval

We introduce jina-embeddings-v4, a 3.8 billion parameter multimodal embedding model that unifies text and image representations through a novel architecture supporting both single-vector and multi-vector embeddings in the late interaction style. The model incorporates task-specific Low-Rank Adaptation (LoRA) adapters to optimize performance across diverse retrieval scenarios, including query-based information retrieval, cross-modal semantic similarity, and programming code search. Comprehensive evaluations demonstrate that jina-embeddings-v4 achieves state-of-the-art performance on both single- modal and cross-modal retrieval tasks, with particular strength in processing visually rich content such as tables, charts, diagrams, and mixed-media formats. To facilitate evaluation of this capability, we also introduce Jina-VDR, a novel benchmark specifically designed for visually rich image retrieval.

arXiv.orgMichael Günther

Сегодня мы выпускаем jina-embeddings-v4, нашу новую универсальную модель векторного представления (embedding model) с 3,8 миллиардами параметров для текста и изображений. Она включает в себя набор LoRA-адаптеров, оптимизированных для наиболее популярных задач извлечения информации, включая извлечение запросов и документов, семантическое сопоставление и поиск кода. jina-embeddings-v4 демонстрирует современную производительность извлечения информации в многомодальных и многоязычных задачах по MTEB, MMTEB, CoIR, LongEmbed, STS, Jina-VDR, CLIP и ViDoRe, с особым упором на обработку визуально насыщенного контента, такого как таблицы, диаграммы, схемы и их сочетания. Модель поддерживает как одно-векторные, так и много-векторные векторные представления (embeddings).

Производительность jina-embeddings-v4 при извлечении визуальных документов и в многомодальных задачах. Распределения boxplot показывают средние оценки и изменчивость производительности моделей векторного представления (embedding model) по шести категориям тестов: ViDoRe (извлечение визуальных документов), Jina-VDR (комплексное извлечение визуальных документов), Wikimedia Commons Retrieval (многоязыковое сопоставление документов и описаний), GitHub README Retrieval (извлечение документации по коду), Tweet Stock Retrieval (анализ финансовых графиков) и CLIP Benchmark (общее извлечение текста в изображение). Варианты Jina-embeddings-v4 (выделены бирюзовым цветом) демонстрируют современную производительность в задачах с визуально насыщенными документами, при этом многовекторная версия достигает самых высоких оценок в специализированных тестах визуальных документов (90,2 на ViDoRe, 80,2 на Jina-VDR), сохраняя при этом конкурентоспособную производительность в общих задачах многомодального извлечения (84,1 на CLIP Benchmark). Модели ранжируются по средней производительности в каждой категории тестов, при этом отдельные точки данных показывают распределение оценок по нескольким задачам оценки.

jina-embeddings-v4 — наша самая амбициозная модель векторного представления (embedding model) на сегодняшний день. Будучи моделью с открытым исходным кодом, jina-embeddings-v4 превосходит ведущие модели векторного представления (embedding model) с закрытым исходным кодом от крупных поставщиков, обеспечивая на 12% лучшую производительность, чем text-embedding-3-large от OpenAI, в многоязычном поиске (66,49 против 59,27), на 28% лучше в задачах с длинными документами (67,11 против 52,42), на 15% лучше, чем voyage-3, в поиске кода (71,59 против 67,23), и соответствует производительности gemini-embedding-001 от Google. Это делает v4 самой мощной универсальной моделью векторного представления (embedding model) с открытым исходным кодом, предлагая исследователям и разработчикам многомодальные возможности корпоративного уровня с полной прозрачностью процесса обучения, архитектурных решений и весов модели, как указано в нашем подробном техническом отчете.

Производительность jina-embeddings-v4 по пяти тестам извлечения информации. На диаграмме показаны распределения boxplot со средними оценками для каждой модели по тестам извлечения текста, извлечения кода, многоязычного извлечения, извлечения длинного контекста и семантической текстовой схожести (STS). jina-embeddings-v4 (выделена бирюзовым цветом) демонстрирует конкурентоспособную или современную производительность во всех категориях оценки, с особенно сильными результатами в извлечении текста и STS. Модели ранжируются по средней производительности в каждой категории тестов, при этом отдельные точки данных показывают распределение оценок по нескольким задачам оценки.

tagНовая архитектура

Архитектура jina-embeddings-v4. Модель построена на основе Qwen2.5-VL-3B-Instruct (3,8 млрд параметров). Текстовые и графические входные данные обрабатываются по общему пути: изображения сначала преобразуются в последовательности 词元 (tokens) с помощью визуального кодировщика, затем обе модальности совместно обрабатываются декодером языковой модели со слоями контекстного внимания. Три LoRA-адаптера для конкретных задач (по 60 миллионов параметров каждый) обеспечивают специализированную оптимизацию для задач извлечения, сопоставления текста и кода, не изменяя замороженные веса основы. Архитектура поддерживает два режима вывода: (1) одно-векторные векторные представления (Embeddings) (2048 измерений, усекаемые до 128), генерируемые с помощью усредненного пулинга для эффективного поиска сходства, и (2) много-векторные векторные представления (Embeddings) (128 измерений на 词元 (token)) с помощью проекционных слоев для стратегий извлечения с поздним взаимодействием.

Обновление с jina-embeddings-v3 доjina-embeddings-v4 представляет собой сдвиг парадигмы от текстовых к мультимодальным 向量模型 (Embeddings). В то время как v3 была сосредоточена на оптимизации текстовых 向量模型 (Embeddings) с помощью task-specific LoRA adapters, v4 отвечает растущим требованиям к встраиванию как текстового, так и визуального контента в унифицированные представления.

Аспект	<strong>jina-embeddings-v3</strong>	<strong>jina-embeddings-v4</strong>
Backbone Model	jina-XLM-RoBERTa	Qwen2.5-VL-3B-Instruct
Parameters (Base)	559M	3.8B
Parameters (with adapters)	572M	3.8B + 60M per adapter
Modalities	Text only	Text + Images (multimodal)
Max Input Length	8,192 tokens	32,768 tokens
Image Processing	None	Up to 20 megapixels, visually rich documents
Multilingual Support	89 languages	29+ languages
Vector Types	Single-vector only	Single-vector + Multi-vector (late interaction)
Single-vector Dimensions	1024 (MRL truncatable to 32)	2048 (MRL truncatable to 128)
Multi-vector Dimensions	Not available	128 per token
Task LoRA Specializations	• Asymmetric retrieval • Semantic similarity • Classification • Separation	• Asymmetric retrieval • Semantic similarity • Code retrieval
Training Stages	3-stage: Pre-training → Embedding fine-tuning → Adapter training	2-stage: Joint pair training → Task-specific adapter training
Loss Functions	InfoNCE, CoSent, Extended triplet loss	Joint InfoNCE + KL divergence for single/multi-vector
Positional Encoding	RoPE (rotary base frequency tuning)	M-RoPE (Multimodal Rotary Position Embedding)
Cross-modal Processing	N/A	Unified encoder (reduced modality gap)
MRL Support	Yes	Yes
Attention Implementation	FlashAttention2	FlashAttention2

tagBackbone

Самым значительным архитектурным изменением в v4 является изменение backbone с XLM-RoBERTa на Qwen2.5-VL-3B-Instruct. Это решение было обусловлено основной целью v4 - создать универсальную модель 向量模型 (Embedding), которая позволяет осуществлять "истинную мультимодальную обработку", при которой изображения преобразуются в последовательности 词元 (Tokens) и обрабатываются вместе с текстом, устраняя modality gap, присутствующий в архитектурах с двойным кодировщиком.

Выбор backbone соответствует нескольким ключевым целям проектирования: превосходство Qwen2.5-VL в понимании документов напрямую поддерживает силу v4 в обработке визуально богатого контента, такого как таблицы, диаграммы и скриншоты. Возможности динамического разрешения позволяют v4 обрабатывать изображения, измененные до 20 мегапикселей, как указано в архитектуре. Усовершенствованное позиционное кодирование обеспечивает основу, которая позволяет v4 достичь превосходного кросс-модального выравнивания с оценкой выравнивания 0,71 по сравнению с 0,15 для OpenAI CLIP.

tagLoRA Adapters

V4 упрощает переход от пяти задач v3 к трем основным задачам, отражая уроки, извлеченные об эффективности и внедрении пользователями:

Asymmetric retrieval (консолидация query/passage adapters v3)
Symmetric similarity (эквивалент text-matching v3 для задач STS)
Code retrieval (полученный из v2-code, отсутствующий в v3)

Эта консолидация удаляет адаптеры классификации и разделения v3, фокусируя v4 на наиболее эффективных вариантах использования 向量模型 (Embedding) - retrieval и STS.

tagOutput Embeddings

V4 представляет систему с двойным выходом, поддерживающую как single-vector, так и multi-vector 向量模型 (Embeddings), тогда как v3 предоставляла только single-vector выходы. Это относится к различным сценариям retrieval:

Single-vector mode: 向量模型 (Embeddings) размерностью 2048 (усекаемые до 128 через MRL) для эффективного поиска по сходству
Multi-vector mode: 128 измерений на 词元 (Token) для late-interaction retrieval

Этот двойной подход обеспечивает большую эффективность с multi-vector представлениями, особенно при retrieval визуально богатых документов, сохраняя при этом эффективность для стандартных задач сходства. Последовательное преимущество multi-vector над single-vector mode в 7-10% по производительности в визуальных задачах предполагает, что late interaction обеспечивает принципиально лучшее семантическое сопоставление для мультимодального контента.

tagParameter Size

Хотя v4 в 6,7 раза больше, чем v3 (3,8B против 570M параметров), улучшения производительности только для текста на самом деле скромные, что говорит о том, что масштабирование параметров в первую очередь было обусловлено мультимодальными требованиями, а не улучшением текста. На основных текстовых бенчмарках v4 достигает 66,49 на MMTEB по сравнению с 58,58 у v3 (улучшение на 14%) и 55,97 на MTEB-EN по сравнению с 54,33 у v3 (улучшение на 3%). Для code retrieval v4 набирает 71,59 на CoIR по сравнению с 55,07 у v3 (улучшение на 30%), в то время как производительность длинных документов показывает v4 на уровне 67,11 против 55,66 у v3 на LongEmbed (улучшение на 21%). Существенное масштабирование становится оправданным при рассмотрении мультимодальных возможностей v4: достижение 84,11 nDCG@5 на визуальном document retrieval (Jina-VDR) и 90,17 на бенчмарках ViDoRe - возможностей, полностью отсутствующих в v3. Таким образом, увеличение параметров представляет собой нашу инвестицию в мультимодальную функциональность, сохраняя при этом конкурентоспособную текстовую производительность, при этом унифицированная архитектура устраняет необходимость в отдельных текстовых и визуальных моделях, достигая при этом кросс-модального выравнивания 0,71 по сравнению с 0,15 для традиционных подходов с двойным кодировщиком.

tagGetting Started

Для быстрой проверки попробуйте нашу демонстрацию text-to-image в Search Foundation toolbox. Мы подготовили коллекцию изображений документов с нашего веб-сайта, и вы также можете добавить свои собственные URL-адреса изображений. Просто введите свой запрос и нажмите Enter, чтобы увидеть ранжированные результаты. Вы можете извлечь его либо как OCR, либо как content-based image retrieval - также не стесняйтесь пробовать запросы не на английском языке.

0:00

/0:22

The demo is available at: https://jina.ai/api-dashboard/m0-image-rerank Please note that using this demo will consume your primary API key's tokens. Also the demo might seem a bit slow since it needs to download all images on the server from those URLs, and no cache is implemented for images.

tagVia API

В коде ниже показано, как использовать jina-embeddings-v4. Вы можете передать текстовую строку, изображение в кодировке base64 или URL-адрес изображения. Новые пользователи могут получить ключ Jina API с 10 миллионами бесплатных 词元 (Tokens).

curl https://api.jina.ai/v1/embeddings \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer JINA_API_KEY" \
  -d @- <<EOFEOF
  {
    "model": "jina-embeddings-v4",
    "task": "text-matching",
    "input": [
        {
            "text": "A beautiful sunset over the beach"
        },
        {
            "text": "Un beau coucher de soleil sur la plage"
        },
        {
            "text": "海滩上美丽的日落"
        },
        {
            "text": "浜辺に沈む美しい夕日"
        },
        {
            "image": "https://i.ibb.co/nQNGqL0/beach1.jpg"
        },
        {
            "image": "https://i.ibb.co/r5w8hG8/beach2.jpg"
        },
        {
            "image": "iVBORw0KGgoAAAANSUhEUgAAABwAAAA4CAIAAABhUg/jAAAAMklEQVR4nO3MQREAMAgAoLkoFreTiSzhy4MARGe9bX99lEqlUqlUKpVKpVKpVCqVHksHaBwCA2cPf0cAAAAASUVORK5CYII="
        }
    ]
  }
EOFEOF

Из-за ограниченности ресурсов GPU наш API для создания векторных представлений (Embedding) в настоящее время поддерживает документы длиной до 8 тысяч токенов (Tokens), несмотря на то, что jina-embeddings-v4 изначально способен обрабатывать до 32 тысяч токенов. Для приложений, требующих более длинного контекста (например, Late Chunking) свыше 8 тысяч токенов, мы рекомендуем развертывать наши модели через CSP или самостоятельно размещать модель.

tagЧерез торговые площадки CSP

jina-embeddings-v4 скоро будет доступен непосредственно на AWS, Azure и GCP по указанным там ценам.

tagЧерез HuggingFace

Для исследовательских и экспериментальных целей вы можете использовать модель локально со страницы Hugging Face. Мы подготовили блокнот Google Colab, демонстрирующий, как это работает.

tagЗаключение

jina-embeddings-v4 представляет собой наш самый значительный скачок вперед — универсальную модель векторного представления (embedding) с 3,8 миллиардами параметров, которая обрабатывает текст и изображения по единому пути, поддерживая как плотное извлечение, так и извлечение с поздним взаимодействием, превосходя при этом проприетарные модели от Google, OpenAI и Voyage AI, особенно в извлечении документов с большим количеством визуального контента. Но эта возможность возникла не изолированно; это кульминация четырех поколений решения фундаментальных ограничений.

Когда мы начинали с jina-embeddings-v1 в начале 2022 года, все предполагали, что больше данных означает лучшую производительность. Мы доказали обратное — фильтрация 1,5 миллиарда пар до 385 миллионов высококачественных примеров превзошла гораздо большие наборы данных. Урок: курирование бьет коллекцию.

Jina Embeddings: A Novel Set of High-Performance Sentence Embedding Models

Jina Embeddings constitutes a set of high-performance sentence embedding models adept at translating textual inputs into numerical representations, capturing the semantics of the text. These models excel in applications like dense retrieval and semantic textual similarity. This paper details the development of Jina Embeddings, starting with the creation of high-quality pairwise and triplet datasets. It underlines the crucial role of data cleaning in dataset preparation, offers in-depth insights into the model training process, and concludes with a comprehensive performance evaluation using the Massive Text Embedding Benchmark (MTEB). Furthermore, to increase the model’s awareness of grammatical negation, we construct a novel training and evaluation dataset of negated and non-negated statements, which we make publicly available to the community.

arXiv.orgMichael Günther

Но пользователи продолжали наталкиваться на предел BERT в 512 токенов. Обучение на более длинных последовательностях казалось дорогостоящим, пока jina-embeddings-v2 не раскрыл элегантное решение: обучать короткие, развертывать длинные. Линейные смещения внимания ALiBi позволяют моделям, обученным на 512 токенах, беспрепятственно обрабатывать 8192 токена при выводе. Мы получили больше возможностей за меньшие вычислительные ресурсы.

Jina Embeddings 2: 8192-Token General-Purpose Text Embeddings for Long Documents

Text embedding models have emerged as powerful tools for transforming sentences into fixed-sized feature vectors that encapsulate semantic information. While these models are essential for tasks like information retrieval, semantic clustering, and text re-ranking, most existing open-source models, especially those built on architectures like BERT, struggle to represent lengthy documents and often resort to truncation. One common approach to mitigate this challenge involves splitting documents into smaller paragraphs for embedding. However, this strategy results in a much larger set of vectors, consequently leading to increased memory consumption and computationally intensive vector searches with elevated latency. To address these challenges, we introduce Jina Embeddings 2, an open-source text embedding model capable of accommodating up to 8192 tokens. This model is designed to transcend the conventional 512-token limit and adeptly process long documents. Jina Embeddings 2 not only achieves state-of-the-art performance on a range of embedding-related tasks in the MTEB benchmark but also matches the performance of OpenAI’s proprietary ada-002 model. Additionally, our experiments indicate that an extended context can enhance performance in tasks such as NarrativeQA.

arXiv.orgMichael Günther

Успех jina-embeddings-v2 выявил еще одно ограничение — для разных задач нужны разные оптимизации. Вместо создания отдельных моделей jina-embeddings-v3 использовал крошечные 60M LoRA адаптеры для настройки базовой модели 570M для любой задачи. Одна модель стала пятью специализированными моделями.

jina-embeddings-v3: Multilingual Embeddings With Task LoRA

We introduce jina-embeddings-v3, a novel text embedding model with 570 million parameters, achieves state-of-the-art performance on multilingual data and long-context retrieval tasks, supporting context lengths of up to 8192 tokens. The model includes a set of task-specific Low-Rank Adaptation (LoRA) adapters to generate high-quality embeddings for query-document retrieval, clustering, classification, and text matching. Evaluation on the MTEB benchmark shows that jina-embeddings-v3 outperforms the latest proprietary embeddings from OpenAI and Cohere on English tasks, while achieving superior performance compared to multilingual-e5-large-instruct across all multilingual tasks. With a default output dimension of 1024, users can flexibly reduce the embedding dimensions to as low as 32 without compromising performance, enabled by Matryoshka Representation Learning.

arXiv.orgSaba Sturua

Даже с учетом специализации задач мы оставались только в текстовом формате, в то время как пользователям было необходимо визуальное понимание. Стандартные модели на основе CLIP, такие как jina-clip-v1 и jina-clip-v2, используют отдельные кодировщики, создавая "разрыв модальности", когда схожий контент в разных форматах оказывается далеко друг от друга. Как и в нашей недавно выпущенной jina-reranker-m0 (重排器 (Reranker)), в jina-embeddings-v4 это было полностью устранено — единый путь обработки всего, устраняя разрыв, а не перекрывая его.

jina-embeddings-v4: Universal Embeddings for Multimodal Multilingual Retrieval

arXiv.orgMichael Günther

Как jina-embeddings-v4, так и jina-reranker-m0 разделяют фундаментальный сдвиг: использование больших языковых моделей (LLM) в качестве основы вместо моделей только с кодировщиком. Это не случайно — это отражает глубокое преимущество, которое большинство упускает из виду: модели только с кодировщиком создают "разрывы модальности", где изображения кластеризуются отдельно от текста. Модели только с декодировщиком открывают возможности, которые были недостижимы с архитектурами только с кодировщиком, включая истинное представление смешанной модальности и объяснимость.

Наша ключевая идея: векторные модели (embeddings) и генерация — это понимание семантики. Большие языковые модели (LLM), преуспевающие в генерации, естественно преуспевают и в представлении данных. Мы считаем, что будущее за унифицированными архитектурами, где векторное представление и переранжирование (reranking) возникают из одной и той же базовой модели поиска — и именно к этому стремится Jina AI.