Новости
Модели
Продукты
keyboard_arrow_down
Читатель
Читайте URL-адреса и ищите информацию в Интернете для получения более подходящей подготовки для получения степени магистра права.
Вложения
Мультимодальные многоязычные вложения мирового класса.
Реранкер
Нейронный ретривер мирового класса для максимального повышения релевантности поиска.
Глубокий поиск
Ищите, читайте и рассуждайте, пока не найдете лучший ответ.
Более
keyboard_arrow_down
Классификатор
Классификация изображений и текста по нулевому и небольшому количеству кадров.
Сегментатор
Разрежьте длинный текст на куски и выполните токенизацию.

API-документы
Автоматическая генерация кода для вашего второго пилота IDE или LLM
open_in_new


Компания
keyboard_arrow_down
О нас
Связаться с отделом продаж
Стажерская программа
Присоединяйтесь к нам
open_in_new
Скачать логотип
open_in_new
Условия использования


Авторизоваться
login
warning
Эта модель устарела из-за появления новых моделей.

jina-embeddings-v2-base-de

Немецко-английские двуязычные встраивания с производительностью SOTA
Выпуск Постarrow_forward
Лицензия
license
Apache-2.0
Дата выпуска
calendar_month
2024-01-15
Вход
abc
Текст
arrow_forward
Выход
more_horiz
Вектор
Подробности модели
Параметры: 161M
Длина входного токена: 8K
Выходной размер: 768
Поддержка языков
🇺🇸 Английский
🇩🇪 Deutsch
Похожие модели
link
jina-embeddings-v2-base-en
Теги
german-language
text-embedding
monolingual
large-context
production
semantic-search
document-retrieval
fine-tunable
Доступно через
API ДжинаAWS SageMakerMicrosoft AzureОбнимающее лицо
Выберите модели для сравнения
Публикации (1)
arXiv
февраль 26, 2024
Multi-Task Contrastive Learning for 8192-Token Bilingual Text Embeddings

Обзор

Jina Embeddings v2 Base German решает важную задачу в международном бизнесе: преодоление языкового разрыва между немецким и английским рынками. Для немецких компаний, выходящих на англоязычные территории, где треть предприятий генерирует более 20% своих мировых продаж, точное двуязычное понимание имеет важное значение. Эта модель преобразует то, как организации обрабатывают кросс-языковой контент, обеспечивая бесперебойное понимание и поиск текста как на немецком, так и на английском языках, что делает ее бесценной для компаний, внедряющих международные системы документирования, платформы поддержки клиентов или решения по управлению контентом. В отличие от традиционных подходов, основанных на переводе, эта модель напрямую сопоставляет эквивалентные значения на обоих языках с одним и тем же пространством встраивания, обеспечивая более точные и эффективные двуязычные операции.

Методы

Модель достигает своих впечатляющих двуязычных возможностей благодаря инновационной архитектуре, которая обрабатывает как немецкий, так и английский текст в едином 768-мерном пространстве встраивания. В своей основе она использует нейронную сеть на основе трансформатора с 161 миллионом параметров, тщательно обученную понимать семантические отношения в обоих языках. Что делает эту архитектуру особенно эффективной, так это ее подход минимизации смещения, специально разработанный для того, чтобы избежать распространенной ошибки предпочтения английских грамматических структур — проблемы, выявленной в недавнем исследовании с многоязычными моделями. Расширенное контекстное окно модели из 8192 токенов позволяет ей обрабатывать целые документы или несколько страниц текста за один проход, сохраняя семантическую согласованность в длинном контенте на обоих языках.

Производительность

В реальных тестах Jina Embeddings v2 Base German демонстрирует исключительную эффективность и точность, особенно в задачах поиска между языками. Модель превосходит базовую модель E5 от Microsoft, будучи менее чем в треть от ее размера, и соответствует производительности E5 large, несмотря на то, что она в семь раз меньше. В ключевых тестах, включая WikiCLIR для поиска с английского на немецкий, STS17 и STS22 для двунаправленного понимания языка и BUCC для точного двуязычного выравнивания текста, модель постоянно демонстрирует превосходные возможности. Ее компактный размер 322 МБ позволяет развертывать ее на стандартном оборудовании, сохраняя при этом самую современную производительность, что делает ее особенно эффективной для производственных сред, где вычислительные ресурсы являются важным фактором.

Руководство

Для эффективного развертывания Jina Embeddings v2 Base German организациям следует рассмотреть несколько практических аспектов. Модель легко интегрируется с популярными векторными базами данных, такими как MongoDB, Qdrant и Weaviate, что упрощает создание масштабируемых двуязычных поисковых систем. Для оптимальной производительности реализуйте надлежащую предварительную обработку текста для эффективной обработки ограничения в 8192 токена — обычно это вмещает около 15–20 страниц текста. Хотя модель отлично подходит как для немецкого, так и для английского контента, она особенно эффективна при использовании для задач поиска на разных языках, где языки запросов и документов могут различаться. Организациям следует рассмотреть возможность внедрения стратегий кэширования для часто используемого контента и использования пакетной обработки для крупномасштабной индексации документов. Интеграция модели с AWS SageMaker обеспечивает надежный путь к развертыванию в рабочей среде, хотя команды должны отслеживать использование токенов и внедрять соответствующие ограничения скорости для приложений с высоким трафиком. При использовании модели для приложений RAG рассмотрите возможность внедрения определения языка для оптимизации построения подсказок на основе языка ввода.
Блоги, в которых упоминается эта модель
сентябрь 27, 2024 • 15 минуты чтения
Миграция с Jina Embeddings v2 на v3
Мы собрали несколько советов, которые помогут вам мигрировать с Jina Embeddings v2 на v3.
Alex C-G
Scott Martens
A digital upgrade theme with "V3" and a white "2", set against a green and black binary code background, with "Upgrade" centr
май 15, 2024 • 11 минуты чтения
Бинарные эмбеддинги: вся мощь ИИ при 3,125% объема данных
32 бита — это слишком много точности для такой надежной и неточной вещи, как AI-модель. Поэтому мы избавились от 31 из них! Бинарные эмбеддинги меньше, быстрее и высокопроизводительны.
Sofia Vasileva
Scott Martens
Futuristic digital 3D model of a coffee grinder with blue neon lights on a black background, featuring numerical data.
апрель 29, 2024 • 7 минуты чтения
Jina Embeddings и Reranker в Azure: масштабируемые AI-решения для бизнеса
Теперь Jina Embeddings и Rerankers доступны в Azure Marketplace. Предприятия, для которых приоритетом являются конфиденциальность и безопасность, могут легко интегрировать современные модели Jina AI прямо в свою существующую экосистему Azure.
Susana Guzmán
Futuristic black background with a purple 3D grid, featuring the "Embeddings" and "Reranker" logos with a stylized "A".
январь 31, 2024 • 16 минуты чтения
Глубокое погружение в токенизацию
Токенизация в LLM означает разделение входных текстов на более мелкие части для обработки. Так почему же за embeddings берут плату по токенам?
Scott Martens
Colorful speckled grid pattern with a mix of small multicolored dots on a black background, creating a mosaic effect.
январь 26, 2024 • 13 минуты чтения
Двуязычные модели Jina Embeddings v2 теперь в открытом доступе на Hugging Face
Билингвальные модели эмбеддингов с открытым исходным кодом от Jina AI для немецко-английской и китайско-английской языковых пар теперь доступны на Hugging Face. Рассмотрим процесс установки и кросс-языкового поиска.
Scott Martens
Colorful "EMBEDDINGS" text above a pile of yellow smileys on a black background with decorative lines at the top.
Офисы
location_on
Саннивейл, Калифорния
710 Lakeway Dr, Ste 200, Саннивейл, Калифорния 94085, США
location_on
Берлин, Германия (штаб-квартира)
Prinzessinnenstraße 19-20, 10969 Берлин, Германия
location_on
Пекин, Китай
Уровень 5, здание 6, ул. Хайдянь Вест, д. 48, Пекин, Китай
location_on
Шэньчжэнь, Китай
402, этаж 4, здание Fu'an Technology, Шэньчжэнь, Китай
Поиск Фонда
Читатель
Вложения
Реранкер
Глубокий поиск
Классификатор
Сегментатор
API-документация
Получить API-ключ Jina
Ограничение скорости
Статус API
Компания
О нас
Связаться с отделом продаж
отдел новостей
Стажерская программа
Присоединяйтесь к нам
open_in_new
Скачать логотип
open_in_new
Условия
Безопасность
Условия использования
Конфиденциальность
Управление файлами cookie
email
Jina AI © 2020-2025.