Новости
Модели
API
keyboard_arrow_down
Читатель
Читайте URL-адреса и ищите информацию в Интернете для получения более подходящей подготовки для получения степени магистра права.
Вложения
Мультимодальные многоязычные вложения мирового класса.
Реранкер
Нейронный ретривер мирового класса для максимального повышения релевантности поиска.
Elastic Inference Service
Запускайте модели Jina непосредственно в Elasticsearch.
MCP terminalCLIarticlellms.txtsmart_toyАгентыdata_objectСхемаmenu_bookДокументы



Авторизоваться
login
Вложения
Лицензия на исследования Qwen
open_in_new Выпуск Пост

jina-embeddings-v4

Универсальная модель встраивания для мультимодального и многоязычного поиска
Лицензия
Qwen Research License
Дата выпуска
calendar_month
2025-06-24
Вход
abc
Текст
image
Изображение
picture_as_pdf
PDF
arrow_forward
Выход
more_horiz
Вектор
apps
Многовекторный
Размеры Матрешки help_outline
128
256
512
1024
2048
Позднее фрагментирование help_outline
check_circle
Yes
Подробности модели
Параметры: 3.8B
Длина входного токена: 32K
Размер входного изображения: 768×28×28
Выходной размер: 2048
Базовая модель help_outline
open_in_new
Qwen2.5-VL-3B-Instruct
Обученные языки help_outline
34 языки
Поддерживаемые языки help_outline
29 языки
Квантования help_outline
GGUF
Похожие модели
link
jina-embeddings-v3
link
jina-clip-v2
Поддерживаемые задачи
search Извлечение
compare_arrows Сопоставление текста
code Код
Теги
multimodal-embedding
document retrieval
multilingual
multi-vector
long-context
production
matryoshka
Доступно через
API ДжинаОбнимающее лицо
График ввода-вывода 1

Текст

jina-embeddings-v4

Задача

Вектор

График ввода-вывода 2

Изображение

jina-embeddings-v4

Задача

Вектор

График ввода-вывода 3

несколько

Вектор

Текст

jina-embeddings-v4

Задача

График ввода-вывода 4

несколько

Вектор

Изображение

jina-embeddings-v4

Задача

Выберите модели для сравнения
Публикации (1)
EMNLP 2025
июнь 24, 2025
jina-embeddings-v4: Universal Embeddings for Multimodal Multilingual Retrieval

Обзор

Jina Embeddings V4 — это мультимодальная модель встраивания с 3,8 миллиардами параметров, которая обеспечивает унифицированные возможности представления текста и изображений. Модель, созданная на основе Qwen2.5-VL-3B-Instruct, имеет архитектуру, которая поддерживает как одновекторные, так и многовекторные встраивания в стиле позднего взаимодействия, устраняя ограничения, обнаруженные в традиционных моделях с двойным кодировщиком в стиле CLIP. Модель включает в себя три специализированных адаптера LoRA для конкретных задач (по 60 млн параметров каждый), которые оптимизируют производительность в различных сценариях поиска, включая асимметричный поиск документов по запросу, семантическое сходство текста и поиск кода без изменения фиксированных весов в остове. Модель демонстрирует высокую производительность при обработке визуально насыщенного контента, такого как таблицы, диаграммы, скриншоты и смешанные форматы медиа, посредством унифицированного пути обработки, который сокращает разрыв модальности, присутствующий в традиционных архитектурах. Поддерживая многоязычность, модель может обрабатывать входные тексты объемом до 32 768 токенов с изображениями, размер которых уменьшен до 20 мегапикселей, что делает ее пригодной для различных приложений поиска документов и кросс-модального поиска на разных языках и в разных доменах.

Методы

Jina Embeddings V4 реализует унифицированную архитектуру мультимодальной языковой модели, которая отличается от подходов с двойным кодировщиком в стиле CLIP. Модель обрабатывает входные данные по общему пути, где изображения сначала преобразуются в последовательности токенов с помощью кодировщика зрения, затем модальности текста и изображения обрабатываются вместе декодером языковой модели с контекстными слоями внимания. Эта архитектура поддерживает два режима вывода для различных вариантов использования: одновекторные вложения, которые производят 2048-мерные векторы, усекаемые до 128 измерений с помощью обучения представлению Matryoshka, генерируемого с помощью объединения средних значений для эффективного поиска сходства; и многовекторные вложения, которые выводят 128 измерений на токен с помощью проекционных слоев для поиска в стиле позднего взаимодействия. Модель включает три специализированных адаптера LoRA, которые обеспечивают специализированную оптимизацию: адаптер поиска использует асимметричное кодирование на основе префиксов с обучением жестких отрицаний для сценариев запрос-документ, адаптер сопоставления текста использует потерю CoSENT для задач семантического сходства, а адаптер кода фокусируется на приложениях поиска естественного языка в код. Обучение происходит в два этапа: начальное парное обучение с использованием контрастной потери InfoNCE с парами текст-текст и текст-изображение из более чем 300 источников, за которым следует тонкая настройка трех адаптеров LoRA для конкретной задачи с использованием методов на основе триплетов и специализированных функций потерь, адаптированных к требованиям каждого домена.

Производительность

Jina Embeddings V4 достигает конкурентоспособной производительности в нескольких категориях бенчмарков. В визуальном поиске документов он набирает 72,19 баллов в среднем на бенчмарке JinaVDR по сравнению с 64,50 для ColPali-v1.2 и 84,11 баллов в среднем на ViDoRe по сравнению с 83,90 для ColPali, при этом многовекторный режим достигает 90,17 баллов на ViDoRe. В кросс-модальном поиске модель набирает 84,11 баллов на CLIP Benchmark по сравнению с jina-clip-v2 (81,12) и nllb-clip-large-siglip (83,19). В задачах поиска текста он достигает 55,97 баллов на MTEB-en и 66,49 баллов на MMTEB, с заметной производительностью при обработке длинных документов на уровне 67,11 баллов на LongEmbed по сравнению с 55,66 баллов у его предшественника. Модель демонстрирует надежную производительность семантического сходства текста с 85,89 на английских задачах STS и 72,70 на многоязычных тестах STS. Возможности извлечения кода достигают 71,59 на тесте CoIR, хотя специализированные модели, такие как voyage-code-3 (77,33), достигают более высоких результатов в этой области. Модель показывает улучшенное кросс-модальное выравнивание с оценкой 0,71 по сравнению с 0,15 для OpenAI CLIP, решая проблему разрыва модальности в мультимодальных моделях. Многовекторный режим последовательно превосходит одновекторный режим на визуально насыщенных задачах, в то время как одновекторный режим обеспечивает эффективную производительность для стандартных сценариев извлечения.

Руководство

Для эффективного использования Jina Embeddings V4 выберите подходящий адаптер LoRA в зависимости от конкретных требований вашего приложения. Используйте адаптер «извлечение» для асимметричных сценариев извлечения запроса-документа, где запросы и документы имеют разные структуры, гарантируя применение правильных префиксов для различения содержимого запроса и отрывка. Адаптер «сопоставление текста» подходит для задач семантического сходства и симметричного извлечения, где целью является поиск похожего содержимого, а не ответов на запросы, что делает его подходящим для кластеризации документов, обнаружения дубликатов и систем рекомендаций по содержимому. Для приложений, связанных с программированием, адаптер «код» оптимизирован для извлечения естественного языка в код, поиска сходства кода в код и сценариев ответа на технические вопросы. Выбирайте режимы вывода в зависимости от ваших требований к производительности и эффективности: одновекторные встраивания предлагают эффективный поиск по сходству и подходят для сред с ограниченными возможностями хранения, с усекаемыми измерениями, позволяющими сократить с 2048 до 128-512 измерений с приемлемыми компромиссами качества, в то время как многовекторные встраивания обеспечивают более высокую точность для сложных задач поиска, особенно при работе с визуально насыщенными документами, где оценка позднего взаимодействия фиксирует подробные отношения. Унифицированная архитектура модели позволяет обрабатывать смешанные текстово-изображенные входные данные без необходимости использования отдельных кодировщиков или предварительной обработки OCR для визуальных документов. Возможности кросс-модального выравнивания модели и многоязыковая поддержка делают ее пригодной для международных приложений. Для производственных развертываний при планировании требований к памяти учитывайте накладные расходы в 60 млн параметров на адаптер LoRA, отмечая, что все три адаптера могут поддерживаться одновременно с менее чем 2% дополнительного объема памяти, что обеспечивает гибкое переключение задач во время вывода.
Блоги, в которых упоминается эта модель
июнь 30, 2025 • 8 минуты чтения
jina-embeddings-v4 的量化感知训练
Квантование позволяет получить векторные представления (Embeddings) меньшего размера. Мы покажем вам, что точно настроенное квантование позволяет получить даже векторные представления (Embeddings) без потерь.
Andrei Ungureanu
Scott Martens
Bo Wang
Retro-style digital screen displaying four pixelated images: a cat, a woman, an abstract figure, and a man's portrait, with l
март 11, 2026 • 7 минуты чтения
Бутстрэппинг аудиоэмбеддингов на базе мультимодальных LLM
Превратите любую мультимодальную LLM в малую векторную модель аудио, которая превосходит CLAP, используя в 25 раз меньше данных.
Han Xiao
Abstract illustration of a sound wave or heartbeat, formed by blue, orange, and gray dots on a white background.
февраль 19, 2026 • 7 минуты чтения
jina-embeddings-v5-text: новые SOTA компактные мультиязычные векторные модели
Две многоязычные модели Embeddings объемом менее 1 млрд параметров с лучшей в своем классе производительностью, доступные в Elastic Inference Service, Llama.cpp и MLX.
Han Xiao
Abstract digital artwork in black and white, featuring scattered dots forming letters in a halftone effect. The central lette
сентябрь 30, 2025 • 8 минуты чтения
Векторные модели — это падчерица в мире ИИ
Модели 向量模型 не самый гламурный аспект AI-индустрии, но генераторы изображений и чат-боты не могли бы существовать без них.
Scott Martens
Humorous office cartoon depicting a team gathered around robots; signs labeled "embeddings", "tools", "reasoning", and "lol"
сентябрь 09, 2025 • 11 минуты чтения
Мультимодальные 向量模型 в Llama.cpp и GGUF
Мы добавили мультимодальные向量模型 в llama.cpp и GGUF и попутно обнаружили несколько неожиданных проблем.
Andrei Ungureanu
Alex C-G
Cartoon llama in the center of a white background, emitting laser-like beams from its eyes. The illustration creates a playfu
Поиск Фонда
Читатель
Вложения
Реранкер
Elastic Inference Service
open_in_new
Получить API-ключ Jina
Ограничение скорости
Статус API
Компания
О нас
отдел новостей
Загрузить логотип Jina
open_in_new
Скачать логотип Elastic
open_in_new
Условия
Безопасность
Условия использования
Конфиденциальность
Управление файлами cookie
Эластичный © 2020-2026.