Доступно через
Выберите модели для сравнения
Публикации (1)
Обзор
Jina Embedding B v1 — это специализированная модель встраивания текста, разработанная для преобразования английского текста в многомерные числовые представления с сохранением семантического значения. Модель удовлетворяет критическую потребность в эффективных и точных встраиваниях текста в производственных средах, что особенно ценно для организаций, которым требуется баланс между вычислительной эффективностью и качеством встраивания. Благодаря 110 млн параметров, генерирующих 768-мерные встраивания, она служит практическим решением для групп, внедряющих семантический поиск, кластеризацию документов или системы рекомендаций по контенту, не требуя при этом значительных вычислительных ресурсов.
Методы
Модель использует архитектуру на основе кодировщика T5, улучшенную с помощью объединения средних значений для генерации представлений фиксированной длины. Обученная на тщательно подобранном наборе данных Linnaeus-Clean, который содержит 385 миллионов высококачественных пар предложений, отфильтрованных из исходных 1,6 миллиарда пар, модель прошла двухфазный процесс обучения. На первом этапе использовалось контрастное обучение с потерей InfoNCE на текстовых парах, а на втором этапе было включено обучение триплетами для уточнения способности модели различать похожий и разный контент. Этот инновационный подход к обучению в сочетании со строгой фильтрацией данных, включая обнаружение языка и проверку согласованности, позволяет модели эффективно улавливать тонкие семантические отношения.
Производительность
В реальных оценках Jina Embedding B v1 демонстрирует впечатляющие возможности, особенно в задачах семантического текстового сходства. Модель достигает самой современной производительности на STS12 с результатом 0,751, превосходя такие устоявшиеся модели, как all-mpnet-base-v2 и all-minilm-l6-v2. Она показывает высокую производительность в различных тестах, сохраняя при этом эффективное время вывода. Однако пользователи должны учитывать, что модель специально оптимизирована для англоязычного контента и может не работать оптимально на многоязычных или специфичных для кода задачах. С тех пор модель была заменена на jina-embeddings-v2-base-en и jina-embeddings-v3, которые предлагают улучшенную производительность в более широком диапазоне вариантов использования.
Руководство
Для оптимального развертывания модели требуется графический процессор с поддержкой CUDA, хотя его умеренный размер позволяет эффективно выводить данные на стандартном оборудовании. Модель принимает входные последовательности длиной до 512 токенов и особенно хорошо подходит для производственных сред, где решающее значение имеет последовательная и надежная генерация встраивания. Она лучше всего работает с контентом на английском языке и идеально подходит для таких приложений, как семантический поиск, сравнение схожести документов и системы рекомендаций по контенту. Командам следует рассмотреть возможность использования более новых версий v2 или v3 для новых проектов, поскольку они предлагают улучшенную производительность и более широкую языковую поддержку. Модель не рекомендуется для задач, требующих многоязычного понимания или специальных знаний в области за пределами общего английского текста.