Новости
Модели
Продукты
keyboard_arrow_down
Читатель
Читайте URL-адреса и ищите информацию в Интернете для получения более подходящей подготовки для получения степени магистра права.
Вложения
Мультимодальные многоязычные вложения мирового класса.
Реранкер
Нейронный ретривер мирового класса для максимального повышения релевантности поиска.
Глубокий поиск
Ищите, читайте и рассуждайте, пока не найдете лучший ответ.
Более
keyboard_arrow_down
Классификатор
Классификация изображений и текста по нулевому и небольшому количеству кадров.
Сегментатор
Разрежьте длинный текст на куски и выполните токенизацию.

API-документы
Автоматическая генерация кода для вашего второго пилота IDE или LLM
open_in_new


Компания
keyboard_arrow_down
О нас
Связаться с отделом продаж
Стажерская программа
Присоединяйтесь к нам
open_in_new
Скачать логотип
open_in_new
Условия использования


Авторизоваться
login
warning
Эта модель устарела из-за появления новых моделей.

jina-embeddings-v2-base-en

На одном уровне с text-embedding-ada002 от OpenAI.
Выпуск Постarrow_forward
Лицензия
license
Apache-2.0
Дата выпуска
calendar_month
2023-10-28
Вход
abc
Текст
arrow_forward
Выход
more_horiz
Вектор
Подробности модели
Параметры: 137M
Длина входного токена: 8K
Выходной размер: 768
Поддержка языков
🇺🇸 Английский
Похожие модели
link
jina-embedding-b-en-v1
link
jina-embeddings-v3
Теги
text-embeddings
english
long-context
production-ready
multi-task-learning
semantic-search
document-retrieval
high-performance
bert-based
fine-tunable
rag-optimized
8k-context
Доступно через
API ДжинаAWS SageMakerMicrosoft AzureОбнимающее лицо
Выберите модели для сравнения
Публикации (3)
arXiv
сентябрь 07, 2024
Late Chunking: Contextual Chunk Embeddings Using Long-Context Embedding Models
arXiv
февраль 26, 2024
Multi-Task Contrastive Learning for 8192-Token Bilingual Text Embeddings
arXiv
октябрь 30, 2023
Jina Embeddings 2: 8192-Token General-Purpose Text Embeddings for Long Documents

Обзор

Jina Embeddings v2 Base English — это новаторская модель встраивания текста с открытым исходным кодом, которая решает критическую задачу обработки длинных документов, сохраняя при этом высокую точность. Организации, испытывающие трудности с анализом обширных юридических документов, исследовательских работ или финансовых отчетов, найдут эту модель особенно ценной. Она выделяется тем, что обрабатывает документы длиной до 8192 токенов — в 16 раз больше, чем традиционные модели — и при этом соответствует производительности фирменных решений OpenAI. Благодаря компактному размеру 0,27 ГБ и эффективному использованию ресурсов она предлагает доступное решение для групп, стремящихся реализовать расширенный анализ документов без чрезмерных вычислительных затрат.

Методы

Архитектура модели объединяет базовую модель BERT Small с инновационным симметричным двунаправленным механизмом ALiBi (Attention with Linear Biases), устраняя необходимость в традиционных позиционных встраиваниях. Этот архитектурный выбор позволяет модели экстраполировать далеко за пределы ее длины обучения в 512 токенов, обрабатывая последовательности до 8192 токенов без ухудшения производительности. Процесс обучения включал два ключевых этапа: первоначальное предварительное обучение на наборе данных C4, за которым следовало уточнение на курируемой коллекции Jina AI из более чем 40 специализированных наборов данных. Эти разнообразные данные обучения, включая сложные отрицательные примеры и разнообразные пары предложений, обеспечивают надежную производительность в различных областях и вариантах использования. Модель создает 768-мерные плотные векторы, которые фиксируют тонкие семантические отношения, достигаемые с помощью относительно скромных 137M параметров.

Производительность

В реальных тестах Jina Embeddings v2 Base English демонстрирует исключительные возможности в нескольких бенчмарках. Он превосходит text-embedding-ada-002 от OpenAI по нескольким ключевым показателям: классификация (73,45% против 70,93%), переранжирование (85,38% против 84,89%), поиск (56,98% против 56,32%) и резюмирование (31,6% против 30,8%). Эти цифры транслируются в практические преимущества в таких задачах, как классификация документов, где модель демонстрирует превосходную способность категоризировать сложные тексты, и в поисковых приложениях, где она лучше понимает запросы пользователей и находит релевантные документы. Однако пользователи должны учитывать, что производительность может меняться при работе с узкоспециализированным доменно-специфическим контентом, не представленным в обучающих данных.

Руководство

Для эффективного развертывания Jina Embeddings v2 Base English командам следует учесть несколько практических аспектов. Для оптимальной производительности модели требуется оборудование с поддержкой CUDA, хотя ее эффективная архитектура означает, что она может работать на графических процессорах потребительского уровня. Она доступна по нескольким каналам: прямая загрузка с Hugging Face, развертывание AWS Marketplace или API Jina AI с 10 млн бесплатных токенов. Для производственных развертываний AWS SageMaker в регионе us-east-1 предлагает наиболее масштабируемое решение. Модель отлично подходит для анализа текста общего назначения, но может быть не лучшим выбором для узкоспециализированной научной терминологии или жаргона, специфичного для предметной области, без тонкой настройки. При обработке длинных документов рассмотрите возможность разбиения их на осмысленные семантические фрагменты, а не на произвольные разделения, чтобы сохранить целостность контекста. Для достижения оптимальных результатов реализуйте надлежащую предварительную обработку текста и обеспечьте чистые, хорошо отформатированные входные данные.
Блоги, в которых упоминается эта модель
декабрь 17, 2024 • 12 минуты чтения
Текстовые эмбеддинги не сохраняют порядок слов и как это исправить
Модели текстовых эмбеддингов испытывают трудности с захватом тонких лингвистических нюансов, таких как порядок слов, направленные отношения, временные последовательности, причинно-следственные связи, сравнения и отрицания. Понимание этих проблем является ключом к улучшению производительности моделей.
Bo Wang
Alex C-G
Three abstract figures in white, gray, and pink on matching cubes placed on a colorful checkered surface against a green back
октябрь 25, 2024 • 19 минуты чтения
Поиск оптимальных точек перелома в длинных документах с помощью малых языковых моделей
Мы обучили три небольшие языковые модели для лучшего разделения длинных документов на фрагменты и вот основные выводы, которые мы сделали.
Andrei Ungureanu
Alex C-G
A pattern of yellow file icons on a blue background with one icon displaying a smiley face creating an emotive contrast.
октябрь 15, 2024 • 9 минуты чтения
Проверка фактов с помощью нового Grounding API в Jina Reader
С помощью нового g.jina.ai вы можете легко обосновывать утверждения, чтобы снизить галлюцинации LLM или улучшить достоверность контента, написанного людьми.
Jina AI
Jina developer interface showing "Jina AI was founded in 2020" with controls labeled true and false, and web address on top.
сентябрь 27, 2024 • 15 минуты чтения
Миграция с Jina Embeddings v2 на v3
Мы собрали несколько советов, которые помогут вам мигрировать с Jina Embeddings v2 на v3.
Alex C-G
Scott Martens
A digital upgrade theme with "V3" and a white "2", set against a green and black binary code background, with "Upgrade" centr
сентябрь 18, 2024 • 10 минуты чтения
Jina Embeddings v3: Передовая мультиязычная модель для создания эмбеддингов
jina-embeddings-v3 - это передовая многоязычная модель текстовых эмбеддингов с 570M параметров и длиной токена 8192, превосходящая по показателям последние проприетарные эмбеддинги от OpenAI и Cohere на бенчмарке MTEB.
Jina AI
Dynamic image showing the characters "V3" formed by bright green dots varying in size on a black background.
Офисы
location_on
Саннивейл, Калифорния
710 Lakeway Dr, Ste 200, Саннивейл, Калифорния 94085, США
location_on
Берлин, Германия (штаб-квартира)
Prinzessinnenstraße 19-20, 10969 Берлин, Германия
location_on
Пекин, Китай
Уровень 5, здание 6, ул. Хайдянь Вест, д. 48, Пекин, Китай
location_on
Шэньчжэнь, Китай
402, этаж 4, здание Fu'an Technology, Шэньчжэнь, Китай
Поиск Фонда
Читатель
Вложения
Реранкер
Глубокий поиск
Классификатор
Сегментатор
API-документация
Получить API-ключ Jina
Ограничение скорости
Статус API
Компания
О нас
Связаться с отделом продаж
отдел новостей
Стажерская программа
Присоединяйтесь к нам
open_in_new
Скачать логотип
open_in_new
Условия
Безопасность
Условия использования
Конфиденциальность
Управление файлами cookie
email
Jina AI © 2020-2025.