Берлин, Германия - 15 января 2023 – Перекликаясь со знаменитым "Ich bin ein Berliner" Джона Кеннеди, в Jina AI мы рады наводить мосты между языками по-своему. Сегодня мы с гордостью представляем нашу последнюю инновацию: jina-embeddings-v2-base-de, модель эмбеддингов для немецкого и английского языков. Эта современная двуязычная модель представляет собой значительный шаг вперед в представлении языков, поддерживая контекст длиной в 8 192 токена. Её отличительной особенностью является замечательная эффективность: она достигает высочайшей производительности, при этом занимая всего 1/7 размера по сравнению с аналогичными моделями.
Эмбеддинги крайне важны для немецких компаний, стремящихся выйти на рынок США. Согласно German American Business Outlook (GABO) 2022, примерно треть немецких компаний генерирует более 20% своих глобальных продаж и прибыли в США, причем 93% ожидают увеличения продаж в США. Эта тенденция продолжается, поскольку 93% планируют увеличить инвестиции своих компаний в США в течение следующих трех лет, при этом 85% ожидают роста чистых продаж и значительного фокуса на цифровой трансформации. Качественные эмбеддинги могут играть ключевую роль в этой экспансии, способствуя лучшему пониманию предпочтений клиентов, обеспечивая более эффективную коммуникацию и позиционируя продукты с учетом культурных особенностей.
Наш прорыв особенно полезен для немецких компаний, стремящихся внедрить двуязычные приложения в англоязычных странах. С jina-embeddings-v2-base-de мы с нетерпением ждем, как немецкие компании будут внедрять инновации и процветать в increasingly connected мире.
tagОсобенности модели
- Современная производительность: jina-embeddings-v2-base-de стабильно занимает лидирующие позиции в соответствующих бенчмарках и лидирует среди моделей с открытым исходным кодом аналогичного размера.
- Двуязычная модель: Эта модель кодирует тексты как на немецком, так и на английском языках, позволяя использовать любой из языков в качестве запроса или целевого документа в приложениях для поиска. Тексты с эквивалентным значением на обоих языках отображаются в одном пространстве эмбеддингов, формируя основу для многоязычных приложений.
- Расширенный контекст: Длина в 8192 токена позволяет jina-embeddings-v2-base-de поддерживать более длинные тексты и фрагменты документов, значительно превосходя модели, поддерживающие только несколько сотен токенов за раз.
- Компактный размер: jina-embeddings-v2-base-de создана для высокой производительности на стандартном компьютерном оборудовании. Имея всего 161 миллион параметров, вся модель занимает 322МБ и помещается в память обычных компьютеров. Сами эмбеддинги имеют 768 измерений, что является относительно небольшим размером вектора по сравнению со многими моделями, экономя пространство и время выполнения для приложений.
- Минимизация предвзятости: Недавние исследования показывают, что многоязычные модели без специфического языкового обучения демонстрируют сильную предвзятость к английским грамматическим структурам в эмбеддингах. Модели эмбеддингов должны захватывать смысл, а не отдавать предпочтение парам предложений, которые просто поверхностно похожи.
- Простая интеграция: Модели Jina Embeddings v2 имеют нативную интеграцию с основными векторными базами данных, включая MongoDB, Qdrant и Weaviate, а также с фреймворками RAG и LLM, такими как Haystack и LlamaIndex.
tagВедущая производительность в немецком NLP
Мы протестировали jina-embeddings-v2-base-de в сравнении с четырьмя известными базовыми моделями, которые также поддерживают немецкий и английский языки. Среди них:
- Multilingual-E5-large и Multilingual-E5-base от Microsoft
- Cross English & German RoBERTa для Sentence Embeddings от T-Systems
- Sentence-BERT (
distiluse-base-multilingual-cased-v2
)
Наши бенчмарки включают задачи MTEB для английского языка и наш собственный бенчмарк. Учитывая отсутствие комплексного набора тестов для немецких эмбеддингов, мы взяли на себя инициативу разработать свой собственный, вдохновленный MTEB. Мы с гордостью делимся здесь нашими результатами и достижениями.

tagКомпактный размер, превосходные результаты
jina-embeddings-v2-base-de демонстрирует исключительную производительность, особенно в задачах на немецком языке. Она превосходит базовую модель E5, занимая менее трети её размера. Более того, она не уступает модели E5 large, которая в семь раз больше, демонстрируя свою эффективность и мощность. Эта эффективность делает jina-embeddings-v2-base-de революционным решением, особенно в сравнении с другими популярными двух- и многоязычными моделями эмбеддингов.
tagПревосходные результаты в немецко-английском кросс-языковом поиске
Наша модель не только отличается размером и эффективностью; она также является лидером в задачах кросс-языкового поиска между английским и немецким языками. Это видно по её результатам в различных ключевых бенчмарках:
- WikiCLIR, для поиска с английского на немецкий
- STS17, часть оценки MTEB для поиска с английского на немецкий
- STS22, для поиска с немецкого на английский, также часть MTEB
- BUCC, для поиска с немецкого на английский, включенный в MTEB
Производительность в этих бенчмарках, особенно в тестах оценки MTEB (за исключением WikiCLIR), подчеркивает эффективность jina-embeddings-v2-base-de в обработке сложных двуязычных задач.

tagПолучить доступ к API
Наши предложения для корпоративных пользователей, которые ценят конфиденциальность и соответствие требованиям к данным, включая jina-embeddings-v2-base-de, доступны через API Jina Embeddings:
- Посетите Jina Embeddings API и нажмите на выпадающий список моделей
- Выберите jina-embeddings-v2-base-de


Скоро мы сделаем эту модель доступной в маркетплейсе AWS Sagemaker для пользователей Amazon cloud и для скачивания на HuggingFace.
tagJina 8K Embeddings: Краеугольный камень разнообразных AI-приложений
Эмбеддинги играют решающую роль в широком спектре AI-приложений, включая поиск информации, контроль качества данных, классификацию и рекомендации. Они являются фундаментальными для улучшения множества AI-задач.
Jina AI стремится развивать передовые технологии эмбеддингов, сохраняя наши ключевые AI-компоненты прозрачными, доступными и недорогими для предприятий всех типов и размеров, которые ценят конфиденциальность и соответствие требованиям к данным. Помимо jina-embeddings-v2-base-de, Jina AI выпустила передовые модели эмбеддингов для китайского языка и высокопроизводительные одноязычные модели для английского языка. Это часть нашей миссии по созданию более инклюзивных и глобально применимых AI-технологий.
Мы ценим ваши отзывы. Присоединяйтесь к нашему сообществу, чтобы оставить отзыв и быть в курсе наших достижений. Вместе мы создаем более надежное и инклюзивное будущее AI.
