Новости
Модели
Продукты
keyboard_arrow_down
Читатель
Читайте URL-адреса и ищите информацию в Интернете для получения более подходящей подготовки для получения степени магистра права.
Вложения
Мультимодальные многоязычные вложения мирового класса.
Реранкер
Нейронный ретривер мирового класса для максимального повышения релевантности поиска.
Глубокий поиск
Ищите, читайте и рассуждайте, пока не найдете лучший ответ.
Более
keyboard_arrow_down
Классификатор
Классификация изображений и текста по нулевому и небольшому количеству кадров.
Сегментатор
Разрежьте длинный текст на куски и выполните токенизацию.

API-документы
Автоматическая генерация кода для вашего второго пилота IDE или LLM
open_in_new


Компания
keyboard_arrow_down
О нас
Связаться с отделом продаж
Стажерская программа
Присоединяйтесь к нам
open_in_new
Скачать логотип
open_in_new
Условия использования


Авторизоваться
login
copyright

jina-embeddings-v4

Универсальная модель встраивания для мультимодального и многоязычного поиска
Выпуск Постarrow_forward
Лицензия
copyright
CC-BY-NC-4.0
Дата выпуска
calendar_month
2025-06-24
Вход
abc
Текст
image
Изображение
picture_as_pdf
PDF
arrow_forward
Выход
more_horiz
Вектор
apps
Многовекторный
Подробности модели
Параметры: 3.8B
Длина входного токена: 32K
Размер входного изображения: 768×28×28
Выходной размер: 2048
Поддержка языков
🌍 Многоязычная поддержка
Похожие модели
link
jina-embeddings-v3
link
jina-clip-v2
Теги
multimodal-embedding
document retrieval
multilingual
multi-vector
long-context
production
matryoshka
Доступно через
API ДжинаКоммерческая лицензияОбнимающее лицо
График ввода-вывода 1
График ввода-вывода 2
График ввода-вывода 3
График ввода-вывода 4
Выберите модели для сравнения
Публикации (1)
arXiv
июнь 24, 2025
jina-embeddings-v4: Universal Embeddings for Multimodal Multilingual Retrieval

Обзор

Jina Embeddings V4 — это мультимодальная модель встраивания с 3,8 миллиардами параметров, которая обеспечивает унифицированные возможности представления текста и изображений. Модель, созданная на основе Qwen2.5-VL-3B-Instruct, имеет архитектуру, которая поддерживает как одновекторные, так и многовекторные встраивания в стиле позднего взаимодействия, устраняя ограничения, обнаруженные в традиционных моделях с двойным кодировщиком в стиле CLIP. Модель включает в себя три специализированных адаптера LoRA для конкретных задач (по 60 млн параметров каждый), которые оптимизируют производительность в различных сценариях поиска, включая асимметричный поиск документов по запросу, семантическое сходство текста и поиск кода без изменения фиксированных весов в остове. Модель демонстрирует высокую производительность при обработке визуально насыщенного контента, такого как таблицы, диаграммы, скриншоты и смешанные форматы медиа, посредством унифицированного пути обработки, который сокращает разрыв модальности, присутствующий в традиционных архитектурах. Поддерживая многоязычность, модель может обрабатывать входные тексты объемом до 32 768 токенов с изображениями, размер которых уменьшен до 20 мегапикселей, что делает ее пригодной для различных приложений поиска документов и кросс-модального поиска на разных языках и в разных доменах.

Методы

Jina Embeddings V4 реализует унифицированную архитектуру мультимодальной языковой модели, которая отличается от подходов с двойным кодировщиком в стиле CLIP. Модель обрабатывает входные данные по общему пути, где изображения сначала преобразуются в последовательности токенов с помощью кодировщика зрения, затем модальности текста и изображения обрабатываются вместе декодером языковой модели с контекстными слоями внимания. Эта архитектура поддерживает два режима вывода для различных вариантов использования: одновекторные вложения, которые производят 2048-мерные векторы, усекаемые до 128 измерений с помощью обучения представлению Matryoshka, генерируемого с помощью объединения средних значений для эффективного поиска сходства; и многовекторные вложения, которые выводят 128 измерений на токен с помощью проекционных слоев для поиска в стиле позднего взаимодействия. Модель включает три специализированных адаптера LoRA, которые обеспечивают специализированную оптимизацию: адаптер поиска использует асимметричное кодирование на основе префиксов с обучением жестких отрицаний для сценариев запрос-документ, адаптер сопоставления текста использует потерю CoSENT для задач семантического сходства, а адаптер кода фокусируется на приложениях поиска естественного языка в код. Обучение происходит в два этапа: начальное парное обучение с использованием контрастной потери InfoNCE с парами текст-текст и текст-изображение из более чем 300 источников, за которым следует тонкая настройка трех адаптеров LoRA для конкретной задачи с использованием методов на основе триплетов и специализированных функций потерь, адаптированных к требованиям каждого домена.

Производительность

Jina Embeddings V4 достигает конкурентоспособной производительности в нескольких категориях бенчмарков. В визуальном поиске документов он набирает 72,19 баллов в среднем на бенчмарке JinaVDR по сравнению с 64,50 для ColPali-v1.2 и 84,11 баллов в среднем на ViDoRe по сравнению с 83,90 для ColPali, при этом многовекторный режим достигает 90,17 баллов на ViDoRe. В кросс-модальном поиске модель набирает 84,11 баллов на CLIP Benchmark по сравнению с jina-clip-v2 (81,12) и nllb-clip-large-siglip (83,19). В задачах поиска текста он достигает 55,97 баллов на MTEB-en и 66,49 баллов на MMTEB, с заметной производительностью при обработке длинных документов на уровне 67,11 баллов на LongEmbed по сравнению с 55,66 баллов у его предшественника. Модель демонстрирует надежную производительность семантического сходства текста с 85,89 на английских задачах STS и 72,70 на многоязычных тестах STS. Возможности извлечения кода достигают 71,59 на тесте CoIR, хотя специализированные модели, такие как voyage-code-3 (77,33), достигают более высоких результатов в этой области. Модель показывает улучшенное кросс-модальное выравнивание с оценкой 0,71 по сравнению с 0,15 для OpenAI CLIP, решая проблему разрыва модальности в мультимодальных моделях. Многовекторный режим последовательно превосходит одновекторный режим на визуально насыщенных задачах, в то время как одновекторный режим обеспечивает эффективную производительность для стандартных сценариев извлечения.

Руководство

Для эффективного использования Jina Embeddings V4 выберите подходящий адаптер LoRA в зависимости от конкретных требований вашего приложения. Используйте адаптер «извлечение» для асимметричных сценариев извлечения запроса-документа, где запросы и документы имеют разные структуры, гарантируя применение правильных префиксов для различения содержимого запроса и отрывка. Адаптер «сопоставление текста» подходит для задач семантического сходства и симметричного извлечения, где целью является поиск похожего содержимого, а не ответов на запросы, что делает его подходящим для кластеризации документов, обнаружения дубликатов и систем рекомендаций по содержимому. Для приложений, связанных с программированием, адаптер «код» оптимизирован для извлечения естественного языка в код, поиска сходства кода в код и сценариев ответа на технические вопросы. Выбирайте режимы вывода в зависимости от ваших требований к производительности и эффективности: одновекторные встраивания предлагают эффективный поиск по сходству и подходят для сред с ограниченными возможностями хранения, с усекаемыми измерениями, позволяющими сократить с 2048 до 128-512 измерений с приемлемыми компромиссами качества, в то время как многовекторные встраивания обеспечивают более высокую точность для сложных задач поиска, особенно при работе с визуально насыщенными документами, где оценка позднего взаимодействия фиксирует подробные отношения. Унифицированная архитектура модели позволяет обрабатывать смешанные текстово-изображенные входные данные без необходимости использования отдельных кодировщиков или предварительной обработки OCR для визуальных документов. Возможности кросс-модального выравнивания модели и многоязыковая поддержка делают ее пригодной для международных приложений. Для производственных развертываний при планировании требований к памяти учитывайте накладные расходы в 60 млн параметров на адаптер LoRA, отмечая, что все три адаптера могут поддерживаться одновременно с менее чем 2% дополнительного объема памяти, что обеспечивает гибкое переключение задач во время вывода.
Блоги, в которых упоминается эта модель
июнь 30, 2025 • 8 минуты чтения
jina-embeddings-v4 的量化感知训练
Квантование позволяет получить векторные представления (Embeddings) меньшего размера. Мы покажем вам, что точно настроенное квантование позволяет получить даже векторные представления (Embeddings) без потерь.
Andrei Ungureanu
Scott Martens
Bo Wang
июнь 25, 2025 • 12 минуты чтения
Jina Embeddings v4: Универсальные векторные модели (Embeddings) для мультимодального многоязыкового поиска
Jina Embeddings v4 — это универсальная модель векторного представления (Embeddings) с 3,8 миллиардами параметров для мультимодального и многоязыкового поиска, которая поддерживает вывод как одно-, так и многовекторных векторных представлений (Embeddings).
Jina AI
Word "Embeddings" followed by a numeric or symbol representation, displayed in multiple colors on a technology-themed, colorf
март 07, 2025 • 14 минуты чтения
Модели встраивания с длинным контекстом слепы за пределами 4 тыс. токенов
Мы исследовали модели эмбеддингов на новых задачах поиска "иголки в стоге сена" и обнаружили, что при работе с текстами длиной более 4 тысяч токенов они действуют наугад — даже при точных лексических совпадениях или расширении запроса они не могут отличить значимый сигнал от шума в длинном контексте.
Saahil Ognawala
Alex C-G
Vertical repetition of the word 'HAYSTACK' with a solitary 'NEEDLE' on a yellowish background.
январь 22, 2025 • 10 минуты чтения
Что нам следует извлечь из ModernBERT?
ModernBERT задает направление для будущих BERT-подобных моделей благодаря увеличенным тренировочным данным, эффективному подбору параметров и глубокой, но компактной архитектуре.
Nan Wang
Alex C-G
Futuristic illustration with a central white circle surrounded by white dots on a dotted background.
Офисы
location_on
Саннивейл, Калифорния
710 Lakeway Dr, Ste 200, Саннивейл, Калифорния 94085, США
location_on
Берлин, Германия (штаб-квартира)
Prinzessinnenstraße 19-20, 10969 Берлин, Германия
location_on
Пекин, Китай
Уровень 5, здание 6, ул. Хайдянь Вест, д. 48, Пекин, Китай
location_on
Шэньчжэнь, Китай
402, этаж 4, здание Fu'an Technology, Шэньчжэнь, Китай
Поиск Фонда
Читатель
Вложения
Реранкер
Глубокий поиск
Классификатор
Сегментатор
API-документация
Получить API-ключ Jina
Ограничение скорости
Статус API
Компания
О нас
Связаться с отделом продаж
отдел новостей
Стажерская программа
Присоединяйтесь к нам
open_in_new
Скачать логотип
open_in_new
Условия
Безопасность
Условия использования
Конфиденциальность
Управление файлами cookie
email
Jina AI © 2020-2025.