Доступно через
График ввода-вывода 1
График ввода-вывода 2
График ввода-вывода 3
График ввода-вывода 4
Выберите модели для сравнения
Публикации (1)
Обзор
Jina Embeddings V4 — это мультимодальная модель встраивания с 3,8 миллиардами параметров, которая обеспечивает унифицированные возможности представления текста и изображений. Модель, созданная на основе Qwen2.5-VL-3B-Instruct, имеет архитектуру, которая поддерживает как одновекторные, так и многовекторные встраивания в стиле позднего взаимодействия, устраняя ограничения, обнаруженные в традиционных моделях с двойным кодировщиком в стиле CLIP. Модель включает в себя три специализированных адаптера LoRA для конкретных задач (по 60 млн параметров каждый), которые оптимизируют производительность в различных сценариях поиска, включая асимметричный поиск документов по запросу, семантическое сходство текста и поиск кода без изменения фиксированных весов в остове. Модель демонстрирует высокую производительность при обработке визуально насыщенного контента, такого как таблицы, диаграммы, скриншоты и смешанные форматы медиа, посредством унифицированного пути обработки, который сокращает разрыв модальности, присутствующий в традиционных архитектурах. Поддерживая многоязычность, модель может обрабатывать входные тексты объемом до 32 768 токенов с изображениями, размер которых уменьшен до 20 мегапикселей, что делает ее пригодной для различных приложений поиска документов и кросс-модального поиска на разных языках и в разных доменах.
Методы
Jina Embeddings V4 реализует унифицированную архитектуру мультимодальной языковой модели, которая отличается от подходов с двойным кодировщиком в стиле CLIP. Модель обрабатывает входные данные по общему пути, где изображения сначала преобразуются в последовательности токенов с помощью кодировщика зрения, затем модальности текста и изображения обрабатываются вместе декодером языковой модели с контекстными слоями внимания. Эта архитектура поддерживает два режима вывода для различных вариантов использования: одновекторные вложения, которые производят 2048-мерные векторы, усекаемые до 128 измерений с помощью обучения представлению Matryoshka, генерируемого с помощью объединения средних значений для эффективного поиска сходства; и многовекторные вложения, которые выводят 128 измерений на токен с помощью проекционных слоев для поиска в стиле позднего взаимодействия. Модель включает три специализированных адаптера LoRA, которые обеспечивают специализированную оптимизацию: адаптер поиска использует асимметричное кодирование на основе префиксов с обучением жестких отрицаний для сценариев запрос-документ, адаптер сопоставления текста использует потерю CoSENT для задач семантического сходства, а адаптер кода фокусируется на приложениях поиска естественного языка в код. Обучение происходит в два этапа: начальное парное обучение с использованием контрастной потери InfoNCE с парами текст-текст и текст-изображение из более чем 300 источников, за которым следует тонкая настройка трех адаптеров LoRA для конкретной задачи с использованием методов на основе триплетов и специализированных функций потерь, адаптированных к требованиям каждого домена.
Производительность
Jina Embeddings V4 достигает конкурентоспособной производительности в нескольких категориях бенчмарков. В визуальном поиске документов он набирает 72,19 баллов в среднем на бенчмарке JinaVDR по сравнению с 64,50 для ColPali-v1.2 и 84,11 баллов в среднем на ViDoRe по сравнению с 83,90 для ColPali, при этом многовекторный режим достигает 90,17 баллов на ViDoRe. В кросс-модальном поиске модель набирает 84,11 баллов на CLIP Benchmark по сравнению с jina-clip-v2 (81,12) и nllb-clip-large-siglip (83,19). В задачах поиска текста он достигает 55,97 баллов на MTEB-en и 66,49 баллов на MMTEB, с заметной производительностью при обработке длинных документов на уровне 67,11 баллов на LongEmbed по сравнению с 55,66 баллов у его предшественника. Модель демонстрирует надежную производительность семантического сходства текста с 85,89 на английских задачах STS и 72,70 на многоязычных тестах STS. Возможности извлечения кода достигают 71,59 на тесте CoIR, хотя специализированные модели, такие как voyage-code-3 (77,33), достигают более высоких результатов в этой области. Модель показывает улучшенное кросс-модальное выравнивание с оценкой 0,71 по сравнению с 0,15 для OpenAI CLIP, решая проблему разрыва модальности в мультимодальных моделях. Многовекторный режим последовательно превосходит одновекторный режим на визуально насыщенных задачах, в то время как одновекторный режим обеспечивает эффективную производительность для стандартных сценариев извлечения.
Руководство
Для эффективного использования Jina Embeddings V4 выберите подходящий адаптер LoRA в зависимости от конкретных требований вашего приложения. Используйте адаптер «извлечение» для асимметричных сценариев извлечения запроса-документа, где запросы и документы имеют разные структуры, гарантируя применение правильных префиксов для различения содержимого запроса и отрывка. Адаптер «сопоставление текста» подходит для задач семантического сходства и симметричного извлечения, где целью является поиск похожего содержимого, а не ответов на запросы, что делает его подходящим для кластеризации документов, обнаружения дубликатов и систем рекомендаций по содержимому. Для приложений, связанных с программированием, адаптер «код» оптимизирован для извлечения естественного языка в код, поиска сходства кода в код и сценариев ответа на технические вопросы. Выбирайте режимы вывода в зависимости от ваших требований к производительности и эффективности: одновекторные встраивания предлагают эффективный поиск по сходству и подходят для сред с ограниченными возможностями хранения, с усекаемыми измерениями, позволяющими сократить с 2048 до 128-512 измерений с приемлемыми компромиссами качества, в то время как многовекторные встраивания обеспечивают более высокую точность для сложных задач поиска, особенно при работе с визуально насыщенными документами, где оценка позднего взаимодействия фиксирует подробные отношения. Унифицированная архитектура модели позволяет обрабатывать смешанные текстово-изображенные входные данные без необходимости использования отдельных кодировщиков или предварительной обработки OCR для визуальных документов. Возможности кросс-модального выравнивания модели и многоязыковая поддержка делают ее пригодной для международных приложений. Для производственных развертываний при планировании требований к памяти учитывайте накладные расходы в 60 млн параметров на адаптер LoRA, отмечая, что все три адаптера могут поддерживаться одновременно с менее чем 2% дополнительного объема памяти, что обеспечивает гибкое переключение задач во время вывода.
Блоги, в которых упоминается эта модель