В нашей недавней статье Multi-Task Contrastive Learning for 8192-Token Bilingual Text Embeddings мы подробно описали разработку моделей двуязычных текстовых эмбеддингов немецко-английских и испано-английских.


Наш подход использует многозадачное контрастное обучение и продвинутый конвейер обработки данных, фокусируясь на двуязычных возможностях с поддержкой длины контекста до 8192 токенов. Этот метод позволяет нашим моделям эффективно понимать целевые языки и проводить кросс-язычные оценки.


В дополнение к двуязычным моделям, описанным в статье, мы также разработали двуязычные китайско-английские и одноязычные английские модели. Эти дополнения демонстрируют наше стремление охватить широкий спектр языковых потребностей и расширить наши возможности в области обработки языков.


Наши двуязычные модели характеризуются эффективностью, работая с оптимизированными размерами словаря, что требует меньше параметров и памяти. Эта эффективность подчеркивает наше стремление создавать мощные, но ресурсоэффективные инструменты для обработки языка.
После публикации нашей статьи мы расширили Massive Text Embedding Benchmark (MTEB), включив в него тесты для наших англо-немецких и англо-испанских эмбеддинг-моделей. Это расширение является частью наших усилий по стимулированию дальнейших исследований и достижений в технологиях текстовых эмбеддингов для неанглийских языков.
В Jina AI наша цель — улучшить обработку и понимание множества языков, внося вклад в область NLP с помощью наших разработок в области двуязычных и одноязычных моделей текстовых эмбеддингов.