Новости
Модели
Продукты
keyboard_arrow_down
Читатель
Читайте URL-адреса и ищите информацию в Интернете для получения более подходящей подготовки для получения степени магистра права.
Вложения
Мультимодальные многоязычные вложения мирового класса.
Реранкер
Нейронный ретривер мирового класса для максимального повышения релевантности поиска.
Глубокий поиск
Ищите, читайте и рассуждайте, пока не найдете лучший ответ.
Более
keyboard_arrow_down
Классификатор
Классификация изображений и текста по нулевому и небольшому количеству кадров.
Сегментатор
Разрежьте длинный текст на куски и выполните токенизацию.

API-документы
Автоматическая генерация кода для вашего второго пилота IDE или LLM
open_in_new


Компания
keyboard_arrow_down
О нас
Связаться с отделом продаж
Стажерская программа
Присоединяйтесь к нам
open_in_new
Скачать логотип
open_in_new
Условия использования


Авторизоваться
login
warning
Эта модель устарела из-за появления новых моделей.

jina-embedding-b-en-v1

Первая версия модели Jina Embedding, OG.
Лицензия
license
Apache-2.0
Дата выпуска
calendar_month
2023-06-17
Вход
abc
Текст
arrow_forward
Выход
more_horiz
Вектор
Подробности модели
Параметры: 110M
Длина входного токена: 512
Выходной размер: 768
Поддержка языков
🇺🇸 Английский
Похожие модели
link
jina-embeddings-v2-base-en
link
jina-embeddings-v3
Теги
text-embedding
english
base-model
legacy
bert-based
production
Доступно через
Обнимающее лицо
Выберите модели для сравнения
Публикации (1)
EMNLP 2023
июль 20, 2023
Jina Embeddings: A Novel Set of High-Performance Sentence Embedding Models

Обзор

Jina Embedding B v1 — это специализированная модель встраивания текста, разработанная для преобразования английского текста в многомерные числовые представления с сохранением семантического значения. Модель удовлетворяет критическую потребность в эффективных и точных встраиваниях текста в производственных средах, что особенно ценно для организаций, которым требуется баланс между вычислительной эффективностью и качеством встраивания. Благодаря 110 млн параметров, генерирующих 768-мерные встраивания, она служит практическим решением для групп, внедряющих семантический поиск, кластеризацию документов или системы рекомендаций по контенту, не требуя при этом значительных вычислительных ресурсов.

Методы

Модель использует архитектуру на основе кодировщика T5, улучшенную с помощью объединения средних значений для генерации представлений фиксированной длины. Обученная на тщательно подобранном наборе данных Linnaeus-Clean, который содержит 385 миллионов высококачественных пар предложений, отфильтрованных из исходных 1,6 миллиарда пар, модель прошла двухфазный процесс обучения. На первом этапе использовалось контрастное обучение с потерей InfoNCE на текстовых парах, а на втором этапе было включено обучение триплетами для уточнения способности модели различать похожий и разный контент. Этот инновационный подход к обучению в сочетании со строгой фильтрацией данных, включая обнаружение языка и проверку согласованности, позволяет модели эффективно улавливать тонкие семантические отношения.

Производительность

В реальных оценках Jina Embedding B v1 демонстрирует впечатляющие возможности, особенно в задачах семантического текстового сходства. Модель достигает самой современной производительности на STS12 с результатом 0,751, превосходя такие устоявшиеся модели, как all-mpnet-base-v2 и all-minilm-l6-v2. Она показывает высокую производительность в различных тестах, сохраняя при этом эффективное время вывода. Однако пользователи должны учитывать, что модель специально оптимизирована для англоязычного контента и может не работать оптимально на многоязычных или специфичных для кода задачах. С тех пор модель была заменена на jina-embeddings-v2-base-en и jina-embeddings-v3, которые предлагают улучшенную производительность в более широком диапазоне вариантов использования.

Руководство

Для оптимального развертывания модели требуется графический процессор с поддержкой CUDA, хотя его умеренный размер позволяет эффективно выводить данные на стандартном оборудовании. Модель принимает входные последовательности длиной до 512 токенов и особенно хорошо подходит для производственных сред, где решающее значение имеет последовательная и надежная генерация встраивания. Она лучше всего работает с контентом на английском языке и идеально подходит для таких приложений, как семантический поиск, сравнение схожести документов и системы рекомендаций по контенту. Командам следует рассмотреть возможность использования более новых версий v2 или v3 для новых проектов, поскольку они предлагают улучшенную производительность и более широкую языковую поддержку. Модель не рекомендуется для задач, требующих многоязычного понимания или специальных знаний в области за пределами общего английского текста.
Офисы
location_on
Саннивейл, Калифорния
710 Lakeway Dr, Ste 200, Саннивейл, Калифорния 94085, США
location_on
Берлин, Германия (штаб-квартира)
Prinzessinnenstraße 19-20, 10969 Берлин, Германия
location_on
Пекин, Китай
Уровень 5, здание 6, ул. Хайдянь Вест, д. 48, Пекин, Китай
location_on
Шэньчжэнь, Китай
402, этаж 4, здание Fu'an Technology, Шэньчжэнь, Китай
Поиск Фонда
Читатель
Вложения
Реранкер
Глубокий поиск
Классификатор
Сегментатор
API-документация
Получить API-ключ Jina
Ограничение скорости
Статус API
Компания
О нас
Связаться с отделом продаж
отдел новостей
Стажерская программа
Присоединяйтесь к нам
open_in_new
Скачать логотип
open_in_new
Условия
Безопасность
Условия использования
Конфиденциальность
Управление файлами cookie
email
Jina AI © 2020-2025.