jina-embeddings-v3

Эта модель устарела из-за появления новых моделей.

jina-embeddings-v3

Модель многоязыкового встраивания Frontier с производительностью SOTA

Выпуск Пост

Лицензия

CC-BY-NC-4.0

Дата выпуска

2024-09-18

Вход

Текст

Выход

Вектор

Подробности модели

Параметры: 570M

Длина входного токена: 8K

Выходной размер: 1024

Поддержка языков

🌍 Многоязычная поддержка

Похожие модели

jina-embeddings-v2-base-en

jina-embeddings-v2-base-zh

jina-embeddings-v2-base-de

jina-embeddings-v2-base-es

jina-embeddings-v2-base-code

Теги

text-embedding

multilingual

high-dimension

long-context

production

base-model

matryoshka

lora-adapters

Доступно через

API Джина Коммерческая лицензия AWS SageMaker Microsoft Azure Google Облако Обнимающее лицо

График ввода-вывода

Выберите модели для сравнения

jina-embeddings-v3

jina-embeddings-v2-base-en

jina-embeddings-v2-base-zh

jina-embeddings-v2-base-de

jina-embeddings-v2-base-es

jina-embeddings-v2-base-code

Публикации (3)

ACL 2025

декабрь 17, 2024

AIR-Bench: Automated Heterogeneous Information Retrieval Benchmark

ECIR 2025

сентябрь 18, 2024

jina-embeddings-v3: Multilingual Embeddings With Task LoRA

SIGIR 2025

сентябрь 07, 2024

Late Chunking: Contextual Chunk Embeddings Using Long-Context Embedding Models

Обзор

Jina Embeddings v3 — это новаторская многоязычная модель встраивания текста, которая преобразует то, как организации справляются с пониманием и поиском текста на разных языках. По своей сути, она решает критическую задачу поддержания высокой производительности на разных языках и задачах, сохраняя при этом управляемость вычислительных требований. Модель особенно блестит в производственных средах, где важна эффективность — она достигает самой современной производительности всего с 570 млн параметров, что делает ее доступной для команд, которые не могут позволить себе вычислительные издержки более крупных моделей. Организации, которым необходимо создавать масштабируемые многоязычные поисковые системы или анализировать контент, несмотря на языковые барьеры, найдут эту модель особенно ценной.

Методы

Архитектура модели представляет собой значительное новшество в технологии встраивания, построенное на основе jina-XLM-RoBERTa с 24 слоями и улучшенное с помощью адаптеров Low-Rank Adaptation (LoRA) для конкретных задач. Адаптеры LoRA — это специализированные компоненты нейронной сети, которые оптимизируют модель для различных задач, таких как поиск, классификация или кластеризация, без значительного увеличения количества параметров — они добавляют менее 3% к общему количеству параметров. Модель включает в себя Matryoshka Representation Learning (MRL), что позволяет гибко сокращать встраивания с 1024 до 32 измерений, сохраняя производительность. Обучение включало трехэтапный процесс: начальное предварительное обучение на многоязычном тексте из 89 языков, тонкую настройку на парных текстах для качества встраивания и специализированное обучение адаптера для оптимизации задач. Модель поддерживает длину контекста до 8192 токенов с помощью Rotary Position Embeddings (RoPE) с инновационной методикой регулировки базовой частоты, которая повышает производительность как для коротких, так и для длинных текстов.

Производительность

Модель демонстрирует исключительное соотношение эффективности и производительности в реальных тестах, превосходя как альтернативы с открытым исходным кодом, так и фирменные решения от OpenAI и Cohere в задачах на английском языке, при этом превосходя в многоязычных сценариях. Самое удивительное, что она достигает лучших результатов, чем e5-mistral-7b-instruct, которая имеет в 12 раз больше параметров, что подчеркивает ее замечательную эффективность. В оценках MTEB она достигает среднего балла 65,52 по всем задачам, с особенно высокими показателями точности классификации (82,58) и сходства предложений (85,80). Модель сохраняет стабильную производительность на разных языках, набрав 64,44 балла на многоязычных задачах. При использовании MRL для сокращения размерности она сохраняет высокую производительность даже в более низких размерностях - например, сохраняя 92% своей производительности поиска при 64 измерениях по сравнению с полными 1024 измерениями.

Руководство

Для эффективного развертывания Jina Embeddings v3 команды должны рассмотреть свой конкретный вариант использования, чтобы выбрать подходящий адаптер задач: retrieval.query и retrieval.passage для поисковых приложений, разделение для задач кластеризации, классификация для категоризации и сопоставление текста для семантического сходства. Для оптимальной производительности модели требуется оборудование с поддержкой CUDA, хотя ее эффективная архитектура означает, что ей требуется значительно меньше памяти GPU, чем более крупным альтернативам. Для производственного развертывания интеграция AWS SageMaker обеспечивает оптимизированный путь к масштабируемости. Модель отлично работает в многоязычных приложениях, но может потребовать дополнительной оценки для языков с низкими ресурсами. Хотя она поддерживает длинные документы до 8192 токенов, оптимальная производительность достигается с помощью функции позднего фрагментирования для очень длинных текстов. Командам следует избегать использования модели для задач, требующих генерации в реальном времени или сложных рассуждений — она предназначена для встраивания и извлечения, а не для генерации текста или прямых ответов на вопросы.

Блоги, в которых упоминается эта модель

сентябрь 18, 2024 • 10 минуты чтения

Jina Embeddings v3: Передовая мультиязычная модель для создания эмбеддингов

jina-embeddings-v3 - это передовая многоязычная модель текстовых эмбеддингов с 570M параметров и длиной токена 8192, превосходящая по показателям последние проприетарные эмбеддинги от OpenAI и Cohere на бенчмарке MTEB.