Новости
Модели
Продукты
keyboard_arrow_down
Читатель
Читайте URL-адреса и ищите информацию в Интернете для получения более подходящей подготовки для получения степени магистра права.
Вложения
Мультимодальные многоязычные вложения мирового класса.
Реранкер
Нейронный ретривер мирового класса для максимального повышения релевантности поиска.
Глубокий поиск
Ищите, читайте и рассуждайте, пока не найдете лучший ответ.
Более
keyboard_arrow_down
Классификатор
Классификация изображений и текста по нулевому и небольшому количеству кадров.
Сегментатор
Разрежьте длинный текст на куски и выполните токенизацию.

API-документы
Автоматическая генерация кода для вашего второго пилота IDE или LLM
open_in_new


Компания
keyboard_arrow_down
О нас
Связаться с отделом продаж
Стажерская программа
Присоединяйтесь к нам
open_in_new
Скачать логотип
open_in_new
Условия использования


Авторизоваться
login
пресс-релиз
февраль 28, 2024

Революционный подход к двуязычным текстовым эмбеддингам с помощью контрастивного обучения на основе мультизадачности

В нашей новой статье рассматривается, как наши испано-английские и немецко-английские модели используют многозадачное контрастивное обучение и сложный конвейер обработки данных для достижения понимания языка и межъязыковой эффективности для текстов длиной до 8192 токенов
Composite image of four colorful, stylized landmarks: Brandenburg Gate, St. Peter's Basilica, Tiananmen, and Golden Gate Brid
Jina AI
Jina AI • 3 минуты чтения

В нашей недавней статье Multi-Task Contrastive Learning for 8192-Token Bilingual Text Embeddings мы подробно описали разработку моделей двуязычных текстовых эмбеддингов немецко-английских и испано-английских.

Multi-Task Contrastive Learning for 8192-Token Bilingual Text Embeddings
We introduce a novel suite of state-of-the-art bilingual text embedding models that are designed to support English and another target language. These models are capable of processing lengthy text inputs with up to 8192 tokens, making them highly versatile for a range of natural language processing tasks such as text retrieval, clustering, and semantic textual similarity (STS) calculations. By focusing on bilingual models and introducing a unique multi-task learning objective, we have significantly improved the model performance on STS tasks, which outperforms the capabilities of existing multilingual models in both target language understanding and cross-lingual evaluation tasks. Moreover, our bilingual models are more efficient, requiring fewer parameters and less memory due to their smaller vocabulary needs. Furthermore, we have expanded the Massive Text Embedding Benchmark (MTEB) to include benchmarks for German and Spanish embedding models. This integration aims to stimulate further research and advancement in text embedding technologies for these languages.
arXiv.orgIsabelle Mohr
Embedding API
Start with 1M free tokens. Top-performing, 8192 context length bilingual embeddings for your search and RAG systems.

Наш подход использует многозадачное контрастное обучение и продвинутый конвейер обработки данных, фокусируясь на двуязычных возможностях с поддержкой длины контекста до 8192 токенов. Этот метод позволяет нашим моделям эффективно понимать целевые языки и проводить кросс-язычные оценки.

Aquí Se Habla Español: Top-Quality Spanish-English Embeddings and 8k Context
Jina AI's new bilingual Spanish-English embedding model brings the state-of-the-art in AI to half a billion Spanish speakers.
GitHub
Ich bin ein Berliner: German-English Bilingual Embeddings with 8K Token Length
Jina AI introduces a German/English bilingual embedding model, featuring an extensive 8,192-token length, specifically designed to support German businesses thriving in the U.S. market.
GitHub

В дополнение к двуязычным моделям, описанным в статье, мы также разработали двуязычные китайско-английские и одноязычные английские модели. Эти дополнения демонстрируют наше стремление охватить широкий спектр языковых потребностей и расширить наши возможности в области обработки языков.

8K Token-Length Bilingual Embeddings Break Language Barriers in Chinese and English
The first bilingual Chinese-English embedding model with 8192 token-length.
Discord
Jina AI Launches World's First Open-Source 8K Text Embedding, Rivaling OpenAI
Jina AI introduces jina-embeddings-v2, the world's first open-source model boasting an 8K context length. Matching the prowess of OpenAI's proprietary models, this innovation is now publicly accessible on Huggingface, signaling a significant milestone in the landscape of text embeddings.

Наши двуязычные модели характеризуются эффективностью, работая с оптимизированными размерами словаря, что требует меньше параметров и памяти. Эта эффективность подчеркивает наше стремление создавать мощные, но ресурсоэффективные инструменты для обработки языка.

После публикации нашей статьи мы расширили Massive Text Embedding Benchmark (MTEB), включив в него тесты для наших англо-немецких и англо-испанских эмбеддинг-моделей. Это расширение является частью наших усилий по стимулированию дальнейших исследований и достижений в технологиях текстовых эмбеддингов для неанглийских языков.

В Jina AI наша цель — улучшить обработку и понимание множества языков, внося вклад в область NLP с помощью наших разработок в области двуязычных и одноязычных моделей текстовых эмбеддингов.

Категории:
пресс-релиз
rss_feed
Офисы
location_on
Саннивейл, Калифорния
710 Lakeway Dr, Ste 200, Саннивейл, Калифорния 94085, США
location_on
Берлин, Германия (штаб-квартира)
Prinzessinnenstraße 19-20, 10969 Берлин, Германия
location_on
Пекин, Китай
Уровень 5, здание 6, ул. Хайдянь Вест, д. 48, Пекин, Китай
location_on
Шэньчжэнь, Китай
402, этаж 4, здание Fu'an Technology, Шэньчжэнь, Китай
Поиск Фонда
Читатель
Вложения
Реранкер
Глубокий поиск
Классификатор
Сегментатор
API-документация
Получить API-ключ Jina
Ограничение скорости
Статус API
Компания
О нас
Связаться с отделом продаж
отдел новостей
Стажерская программа
Присоединяйтесь к нам
open_in_new
Скачать логотип
open_in_new
Условия
Безопасность
Условия использования
Конфиденциальность
Управление файлами cookie
email
Jina AI © 2020-2025.