Двуязычные модели Jina Embeddings v2 теперь в открытом доступе на Hugging Face

Jina AI опубликовала свои передовые модели двуязычных эмбеддингов с открытым исходным кодом для языковых пар немецкий-английский и китайский-английский через Hugging Face.

В этом руководстве мы рассмотрим минимальную установку и использование, которые охватят:

Загрузку моделей Jina Embedding с Hugging Face.
Использование моделей для получения кодировок текстов на немецком и английском языках.
Создание простейшей поисковой системы на основе эмбеддингов для межъязыковых запросов.

Мы покажем вам, как использовать Jina Embeddings для написания запросов на английском языке, которые находят соответствующие тексты на немецком языке, и наоборот.

Это руководство также подходит для китайской модели. Просто следуйте инструкциям в разделе (ближе к концу) под названием Querying in Chinese, чтобы получить китайско-английскую двуязычную модель и пример документа на китайском языке.

tagДвуязычные модели эмбеддингов

Двуязычная модель эмбеддингов — это модель, которая отображает тексты на двух языках — немецком и английском в этом руководстве, китайском и английском для китайской модели — в одно пространство эмбеддингов. И делает это таким образом, что если немецкий текст и английский текст означают одно и то же, их соответствующие векторы эмбеддингов будут близки друг к другу.

Такие модели очень хорошо подходят для приложений межъязыкового поиска информации, что мы и покажем в этом руководстве, но также могут служить основой для чат-ботов на основе RAG, многоязычной категоризации текстов, обобщения, анализа тональности и любых других приложений, использующих эмбеддинги. Используя такие модели, вы можете обрабатывать тексты на обоих языках, как будто они написаны на одном языке.

Хотя многие крупные языковые модели заявляют о поддержке множества различных языков, они поддерживают не все языки одинаково хорошо. Возникает все больше вопросов о предвзятости, вызванной доминированием английского языка в Интернете и искажением входных данных из-за широкого распространения машинно-переведенных текстов. Сосредоточившись на двух языках, мы можем лучше контролировать качество эмбеддингов для обоих, минимизируя предвзятость, создавая при этом гораздо меньшие модели с аналогичной или более высокой производительностью, чем гигантские модели, которые якобы поддерживают десятки языков.

Двуязычные модели Jina Embeddings v2 поддерживают контекст до 8192 входных токенов, что позволяет им не только поддерживать два языка, но и обрабатывать относительно большие фрагменты текста по сравнению с аналогичными моделями. Это делает их идеальными для более сложных случаев использования, где необходимо обрабатывать гораздо больше текстовой информации в эмбеддинги.

tagСледуйте руководству в Google Colab

К этому руководству прилагается блокнот, который вы можете запустить в Google Colab или локально на своей системе.

tagУстановка необходимых компонентов

Убедитесь, что в текущем окружении установлены необходимые библиотеки. Вам понадобится последняя версия transformers, поэтому даже если она уже установлена, выполните:

pip install -U transformers

В этом руководстве мы будем использовать библиотеку FAISS от Meta для векторного поиска и сравнения. Для ее установки выполните:

pip install faiss-cpu

Мы также будем использовать Beautiful Soup для обработки входных данных в этом руководстве, поэтому убедитесь, что она установлена:

pip install bs4

tagДоступ к Hugging Face

Вам потребуется доступ к Hugging Face, а именно аккаунт и токен доступа для загрузки моделей.

Если у вас нет аккаунта на Hugging Face:

Перейдите на https://huggingface.co/ и вы должны увидеть кнопку "Sign Up" в правом верхнем углу страницы. Нажмите на нее и следуйте инструкциям для создания нового аккаунта.