Новости
Модели
API
keyboard_arrow_down
Читатель
Читайте URL-адреса и ищите информацию в Интернете для получения более подходящей подготовки для получения степени магистра права.
Вложения
Мультимодальные многоязычные вложения мирового класса.
Реранкер
Нейронный ретривер мирового класса для максимального повышения релевантности поиска.
MCP terminalCLIarticlellms.txtsmart_toyАгентыdata_objectСхемаmenu_bookДокументы



Авторизоваться
login
пресс-релиз
февраль 28, 2024

Революционный подход к двуязычным текстовым эмбеддингам с помощью контрастивного обучения на основе мультизадачности

В нашей новой статье рассматривается, как наши испано-английские и немецко-английские модели используют многозадачное контрастивное обучение и сложный конвейер обработки данных для достижения понимания языка и межъязыковой эффективности для текстов длиной до 8192 токенов
Composite image of four colorful, stylized landmarks: Brandenburg Gate, St. Peter's Basilica, Tiananmen, and Golden Gate Brid
Jina AI
Jina AI • 3 минуты чтения

В нашей недавней статье Multi-Task Contrastive Learning for 8192-Token Bilingual Text Embeddings мы подробно описали разработку моделей двуязычных текстовых эмбеддингов немецко-английских и испано-английских.

Multi-Task Contrastive Learning for 8192-Token Bilingual Text Embeddings
We introduce a novel suite of state-of-the-art bilingual text embedding models that are designed to support English and another target language. These models are capable of processing lengthy text inputs with up to 8192 tokens, making them highly versatile for a range of natural language processing tasks such as text retrieval, clustering, and semantic textual similarity (STS) calculations. By focusing on bilingual models and introducing a unique multi-task learning objective, we have significantly improved the model performance on STS tasks, which outperforms the capabilities of existing multilingual models in both target language understanding and cross-lingual evaluation tasks. Moreover, our bilingual models are more efficient, requiring fewer parameters and less memory due to their smaller vocabulary needs. Furthermore, we have expanded the Massive Text Embedding Benchmark (MTEB) to include benchmarks for German and Spanish embedding models. This integration aims to stimulate further research and advancement in text embedding technologies for these languages.
arXiv.orgIsabelle Mohr
Embedding API
Start with 1M free tokens. Top-performing, 8192 context length bilingual embeddings for your search and RAG systems.

Наш подход использует многозадачное контрастное обучение и продвинутый конвейер обработки данных, фокусируясь на двуязычных возможностях с поддержкой длины контекста до 8192 токенов. Этот метод позволяет нашим моделям эффективно понимать целевые языки и проводить кросс-язычные оценки.

Aquí Se Habla Español: Top-Quality Spanish-English Embeddings and 8k Context
Jina AI's new bilingual Spanish-English embedding model brings the state-of-the-art in AI to half a billion Spanish speakers.
GitHub
Ich bin ein Berliner: German-English Bilingual Embeddings with 8K Token Length
Jina AI introduces a German/English bilingual embedding model, featuring an extensive 8,192-token length, specifically designed to support German businesses thriving in the U.S. market.
GitHub

В дополнение к двуязычным моделям, описанным в статье, мы также разработали двуязычные китайско-английские и одноязычные английские модели. Эти дополнения демонстрируют наше стремление охватить широкий спектр языковых потребностей и расширить наши возможности в области обработки языков.

8K Token-Length Bilingual Embeddings Break Language Barriers in Chinese and English
The first bilingual Chinese-English embedding model with 8192 token-length.
Discord
Jina AI Launches World's First Open-Source 8K Text Embedding, Rivaling OpenAI
Jina AI introduces jina-embeddings-v2, the world's first open-source model boasting an 8K context length. Matching the prowess of OpenAI's proprietary models, this innovation is now publicly accessible on Huggingface, signaling a significant milestone in the landscape of text embeddings.

Наши двуязычные модели характеризуются эффективностью, работая с оптимизированными размерами словаря, что требует меньше параметров и памяти. Эта эффективность подчеркивает наше стремление создавать мощные, но ресурсоэффективные инструменты для обработки языка.

После публикации нашей статьи мы расширили Massive Text Embedding Benchmark (MTEB), включив в него тесты для наших англо-немецких и англо-испанских эмбеддинг-моделей. Это расширение является частью наших усилий по стимулированию дальнейших исследований и достижений в технологиях текстовых эмбеддингов для неанглийских языков.

В Jina AI наша цель — улучшить обработку и понимание множества языков, внося вклад в область NLP с помощью наших разработок в области двуязычных и одноязычных моделей текстовых эмбеддингов.

Категории:
пресс-релиз
rss_feed

Читать далее
февраль 19, 2026 • 7 минуты чтения
jina-embeddings-v5-text: New SOTA Small Multilingual Embeddings
Han Xiao
Abstract digital artwork in black and white, featuring scattered dots forming letters in a halftone effect. The central lette
декабрь 04, 2025 • 7 минуты чтения
Jina-VLM: Маленькая многоязычная модель Vision Language Model
Jina AI
Artistic representation of "Vln" in vibrant, rainbow-like colors on a minimalistic white background, with a focus on color di
октябрь 03, 2025 • 7 минуты чтения
Jina Reranker v3: 0.6B Listwise Reranker для SOTA Мультиязычного Поиска
Jina AI
Light blue background with stylized text in the center, composed of small dots or squares, evoking a modern and minimalistic
Офисы
location_on
Саннивейл, Калифорния
710 Lakeway Dr, Ste 200, Саннивейл, Калифорния 94085, США
location_on
Берлин, Германия
Prinzessinnenstraße 19-20, 10969 Берлин, Германия
Поиск Фонда
Читатель
Вложения
Реранкер
Получить API-ключ Jina
Ограничение скорости
Статус API
Компания
О нас
Связаться с отделом продаж
отдел новостей
Стажерская программа
Загрузить логотип Jina
open_in_new
Скачать логотип Elastic
open_in_new
Условия
Безопасность
Условия использования
Конфиденциальность
Управление файлами cookie
email
Jina AI от Elastic © 2020-2026.