Преодоление языковых разрывов в многоязычных эмбеддингах с помощью контрастного обучения

Один из ключевых вызовов в многоязычных моделях — это "языковой разрыв" («language gap») — явление, когда фразы с одинаковым значением на разных языках не так тесно выровнены или сгруппированы, как должны быть. В идеале текст на одном языке и его эквивалент на другом должны иметь схожие представления — то есть эмбеддинги, которые очень близки друг к другу — позволяя кросс-языковым приложениям одинаково работать с текстами на разных языках. Однако модели часто неявно учитывают язык текста, создавая "языковой разрыв", который приводит к субоптимальной производительности при работе с разными языками.

В этой статье мы исследуем этот языковой разрыв и то, как он влияет на производительность моделей текстовых эмбеддингов. Мы провели эксперименты для оценки семантического выравнивания перефразировок на одном языке и переводов между разными языковыми парами, используя нашу модель jina-xlm-roberta и новейшую jina-embeddings-v3. Эти эксперименты показывают, насколько хорошо фразы с похожими или идентичными значениями группируются вместе при различных условиях обучения.

Мы также экспериментировали с методами обучения для улучшения кросс-языкового семантического выравнивания, в частности с внедрением параллельных многоязычных данных во время контрастного обучения. В этой статье мы поделимся нашими выводами и результатами.

tagОбучение многоязычной модели создает и уменьшает языковой разрыв

Обучение моделей текстовых эмбеддингов обычно включает многоэтапный процесс с двумя основными частями:

Masked Language Modeling (MLM): Предварительное обучение обычно включает очень большие объемы текста, в которых некоторые токены случайно маскируются. Модель обучается предсказывать эти маскированные токены. Эта процедура учит модель шаблонам языка или языков в обучающих данных, включая зависимости выбора между токенами, которые могут возникать из синтаксиса, лексической семантики и прагматических ограничений реального мира.
Contrastive Learning: После предварительного обучения модель дополнительно обучается на отобранных или полуотобранных данных, чтобы сближать эмбеддинги семантически похожих текстов и (опционально) отдалять непохожие. Это обучение может использовать пары, триплеты или даже группы текстов, семантическое сходство которых уже известно или хотя бы надежно оценено. Оно может включать несколько подэтапов, и существует множество стратегий обучения для этой части процесса, при этом часто публикуются новые исследования, и нет четкого консенсуса относительно оптимального подхода.

Чтобы понять, как возникает языковой разрыв и как его можно устранить, нам нужно рассмотреть роль обоих этапов.

tagПредварительное обучение с маскированием языка

Некоторые кросс-языковые способности моделей текстовых эмбеддингов приобретаются во время предварительного обучения.

Родственные и заимствованные слова позволяют модели изучать некоторое кросс-языковое семантическое выравнивание из больших объемов текстовых данных. Например, английское слово banana и французское слово banane (и немецкое Banane) достаточно частотны и похожи по написанию, что модель эмбеддингов может узнать, что слова, похожие на "banan-", имеют схожие паттерны распределения в разных языках. Она может использовать эту информацию, чтобы в некоторой степени узнать, что другие слова, которые не выглядят одинаково в разных языках, также имеют схожие значения, и даже понять, как переводятся грамматические структуры.

Однако это происходит без явного обучения.

Мы протестировали модель jina-xlm-roberta, предварительно обученный базис jina-embeddings-v3, чтобы увидеть, насколько хорошо она изучила кросс-языковые эквивалентности из предварительного обучения с маскированием языка. Мы построили двумерные UMAP представления предложений набора английских предложений, переведенных на немецкий, голландский, упрощенный китайский и японский языки. Результаты показаны на рисунке ниже:

Multilingual scatterplot showing word embeddings' alignment across five languages on UMAP dimensions.

💡

Двумерная UMAP проекция выбранных английских предложений и их переводов на немецкий, голландский, китайский и японский языки. Серые линии соединяют неанглийские предложения с английскими предложениями, с которых они были переведены.

Эти предложения сильно склонны формировать языково-специфичные кластеры в пространстве эмбеддингов jina-xlm-roberta, хотя вы можете видеть несколько выбросов в этой проекции, которые могут быть побочным эффектом двумерной проекции.

Вы можете видеть, что предварительное обучение очень сильно сгруппировало вместе эмбеддинги предложений на одном языке. Это проекция в два измерения распределения в пространстве гораздо более высокой размерности, поэтому все еще возможно, что, например, немецкое предложение, которое является хорошим переводом английского, может все еще быть немецким предложением, чей эмбеддинг ближе всего к эмбеддингу его английского источника. Но это показывает, что эмбеддинг английского предложения, вероятно, ближе к другому английскому предложению, чем к семантически идентичному или почти идентичному немецкому.

Обратите также внимание, как немецкий и голландский образуют гораздо более близкие кластеры, чем другие пары языков. Это не удивительно для двух относительно близкородственных языков. Немецкий и голландский достаточно похожи, что они иногда частично взаимопонятны.

Японский и китайский также кажутся ближе друг к другу, чем к другим языкам. Хотя они не связаны друг с другом таким же образом, в письменном японском обычно используются кандзи (漢字), или ханьцзы по-китайски. Японский разделяет большинство этих письменных символов с китайским, и оба языка имеют много слов, написанных одним или несколькими кандзи/ханьцзы вместе. С точки зрения MLM, это такое же видимое сходство, как между голландским и немецким.

Мы можем увидеть этот "языковой разрыв" проще, рассмотрев только два языка с двумя предложениями в каждом:

Graph illustrating linguistic relationships with color-coded lines, data points for English and German phrases, and an "MLM P

Поскольку MLM естественным образом группирует тексты по языкам, "my dog is blue" и "my cat is red" сгруппированы вместе, далеко от их немецких эквивалентов. В отличие от "разрыва модальностей", обсуждаемого в предыдущем блог-посте, мы считаем, что это возникает из-за поверхностных сходств и различий между языками: похожих написаний, использования одинаковых последовательностей символов в печати и, возможно, сходств в морфологии и синтаксической структуре — общих порядков слов и общих способов построения слов.

Короче говоря, в какой бы степени модель ни изучала кросс-языковые эквивалентности в предварительном обучении MLM, этого недостаточно, чтобы преодолеть сильное смещение в сторону группировки текстов по языкам. Это оставляет большой языковой разрыв.

tagКонтрастное обучение

В идеале мы хотим, чтобы модель эмбеддингов была безразлична к языку и кодировала в своих эмбеддингах только общие значения. В такой модели мы бы не видели группировку по языкам и не имели бы языкового разрыва. Предложения на одном языке должны быть очень близки к хорошим переводам и далеки от других предложений, которые означают что-то другое, даже на том же языке, как показано на рисунке ниже:

Graph displays "Clustering by Meaning" with multilingual labels, emphasizing abstract concepts on a dark backdrop.

Предварительное обучение MLM этого не достигает, поэтому мы используем дополнительные методы контрастного обучения для улучшения семантического представления текстов в эмбеддингах.

Контрастное обучение включает использование пар текстов, которые заведомо схожи или различны по значению, и триплетов, где одна пара заведомо более схожа, чем другая. Веса корректируются во время обучения, чтобы отразить эти известные отношения между парами и триплетами текстов.

В нашем наборе данных для контрастного обучения представлено 30 языков, но 97% пар и триплетов находятся только на одном языке, и только 3% включают кросс-языковые пары или триплеты. Но этих 3% достаточно для получения драматического результата: эмбеддинги показывают очень слабую языковую кластеризацию, и семантически похожие тексты производят близкие эмбеддинги независимо от их языка, как показано в UMAP проекции эмбеддингов из jina-embeddings-v3.

Scatter plot on black background showing language distribution post-contrastive training with UMAP dimensions.

Чтобы подтвердить это, мы измерили корреляцию Спирмена для представлений, сгенерированных моделями jina-xlm-roberta и jina-embeddings-v3 на наборе данных STS17.

💡

Корреляция Спирмена измеряет ранговую корреляцию, то есть насколько два упорядоченных списка совпадают. Это хороший механизм для сравнения моделей эмбеддингов между собой и с оценками людей, поскольку фактический балл гораздо менее важен, чем то, какие элементы ранжируются выше или ниже других.

Таблица ниже показывает корреляцию Спирмена между рейтингами семантического сходства для переведенных текстов на разных языках. Мы берем набор английских предложений и затем измеряем сходство их эмбеддингов с эмбеддингом определенного эталонного предложения, сортируя их в порядке от наиболее похожего к наименее похожему. Затем мы переводим все эти предложения на другой язык и повторяем процесс ранжирования. В идеальной кросс-языковой модели эмбеддингов два упорядоченных списка должны быть одинаковыми, и корреляция Спирмена должна быть равна 1.0.

График и таблица ниже показывают наши результаты сравнения английского с шестью другими языками из бенчмарка STS17, используя как jina-xlm-roberta, так и jina-embeddings-v3.

Bar chart comparing Spearman Correlation for English paired with AR, DE, ES, FR, IT, NL, colored in red and blue by alphabet

Task	`jina-xlm-roberta`	jina-embeddings-v3
English ↔ Arabic	0.1581	0.7977
English ↔ German	0.2136	0.8366
English ↔ Spanish	0.1049	0.8509
English ↔ French	0.1659	0.8378
English ↔ Italian	0.2293	0.8674
English ↔ Dutch	0.2387	0.8398

Здесь видна огромная разница, которую дает контрастивное обучение по сравнению с исходной предварительной подготовкой. Несмотря на то, что только 3% данных для обучения были многоязычными, модель jina-embeddings-v3 изучила достаточно кросс-языковой семантики, чтобы практически устранить языковой разрыв, полученный при предварительном обучении.

tagАнглийский против мира: могут ли другие языки сравняться в выравнивании?

Мы обучили jina-embeddings-v3 на 89 языках, уделив особое внимание 30 широко используемым письменным языкам. Несмотря на наши усилия по созданию масштабного многоязычного обучающего корпуса, английский язык по-прежнему составляет почти половину данных, использованных нами при контрастивном обучении. Другие языки, включая широко используемые мировые языки, для которых доступно множество текстового материала, все еще относительно недопредставлены по сравнению с огромным объемом английских данных в обучающем наборе.

Учитывая это преобладание английского языка, являются ли английские представления более выровненными, чем представления других языков? Чтобы исследовать это, мы провели дополнительный эксперимент.

Мы создали набор данных parallel-sentences, состоящий из 1000 пар английских текстов, "якоря" и "положительного", где положительный текст логически следует из текста-якоря.

Например, первая строка таблицы ниже. Эти предложения не идентичны по смыслу, но они имеют совместимые значения. Они информативно описывают одну и ту же ситуацию.

Затем мы перевели эти пары на пять языков с помощью GPT-4: немецкий, голландский, китайский (упрощенный), китайский (традиционный) и японский. В заключение мы вручную проверили их качество.

Language	Anchor	Positive
English	Two young girls are playing outside in a non-urban environment.	Two girls are playing outside.
German	Zwei junge Mädchen spielen draußen in einer nicht urbanen Umgebung.	Zwei Mädchen spielen draußen.
Dutch	Twee jonge meisjes spelen buiten in een niet-stedelijke omgeving.	Twee meisjes spelen buiten.
Chinese (Simplified)	两个年轻女孩在非城市环境中玩耍。	两个女孩在外面玩。
Chinese (Traditional)	兩個年輕女孩在非城市環境中玩耍。	兩個女孩在外面玩。
Japanese	2人の若い女の子が都市環境ではない場所で遊んでいます。	二人の少女が外で遊んでいます。

Затем мы закодировали каждую пару текстов с помощью jina-embeddings-v3 и рассчитали косинусное сходство между ними. На рисунке и в таблице ниже показано распределение оценок косинусного сходства для каждого языка и среднее сходство:

Graph showing cosine similarity distributions for textual pairs in English, German, Dutch, Chinese, and Japanese against dens

Language	Average Cosine Similarity
English	0.9078
German	0.8949
Dutch	0.8844
Chinese (Simplified)	0.8876
Chinese (Traditional)	0.8933
Japanese	0.8895

Несмотря на преобладание английского языка в обучающих данных, jina-embeddings-v3 распознает семантическое сходство в немецком, голландском, японском и обеих формах китайского языка примерно так же хорошо, как и в английском.

tagПреодоление языковых барьеров: межъязыковое выравнивание за пределами английского языка

Исследования выравнивания представлений между языками обычно изучают языковые пары, включающие английский язык. Такой фокус может, теоретически, скрывать реальную картину. Модель может просто оптимизировать представление всего максимально близко к английскому эквиваленту, не проверяя, правильно ли поддерживаются другие языковые пары.

Чтобы исследовать это, мы провели эксперименты с использованием датасета parallel-sentences, фокусируясь на межъязыковом выравнивании помимо просто английских двуязычных пар.

Таблица ниже показывает распределение косинусных сходств между эквивалентными текстами в разных языковых парах — текстами, являющимися переводами общего английского источника. В идеале все пары должны иметь косинус 1 — то есть идентичные семантические вложения. На практике это никогда не может произойти, но мы ожидаем, что хорошая модель будет иметь очень высокие косинусные значения для пар переводов.

Density graph charting cross-lingual cosine similarities for language pairs using jina-embeddings-v3 model.

Language Pair	Average Cosine Similarity
German ↔ Dutch	0.8779
German ↔ Japanese	0.8664
Chinese (Simplified) ↔ Japanese	0.8534
Dutch ↔ Chinese (Simplified)	0.8479
Chinese (Simplified) ↔ Chinese (Traditional)	0.8758

Хотя показатели сходства между разными языками немного ниже, чем для совместимых текстов на одном языке, они все еще очень высоки. Косинусное сходство голландско-немецких переводов почти такое же высокое, как между совместимыми текстами на немецком языке.

Это может быть неудивительно, поскольку немецкий и голландский — очень похожие языки. Аналогично, две разновидности китайского языка, протестированные здесь, не являются действительно разными языками, а лишь стилистически различными формами одного и того же языка. Но вы можете видеть, что даже очень непохожие языковые пары, такие как голландский и китайский или немецкий и японский, все еще показывают очень сильное сходство между семантически эквивалентными текстами.

Мы рассмотрели возможность того, что эти очень высокие значения сходства могут быть побочным эффектом использования ChatGPT в качестве переводчика. Чтобы проверить это, мы загрузили переведенные людьми транскрипты TED Talks на английском и немецком языках и проверили, будут ли выровненные переведенные предложения иметь такую же высокую корреляцию.

Результат оказался даже сильнее, чем для наших машинных переводов, как вы можете видеть на рисунке ниже.

Graph of cross-lingual alignment density EN-DE with peak around cosine similarity 1.0, titled "jina-embeddings-v3: Cross-ling

tagНасколько межъязыковые данные влияют на межъязыковое выравнивание?

Исчезающий языковой разрыв и высокий уровень межъязыковой производительности кажутся непропорциональными очень малой части обучающих данных, которая была явно межъязыковой. Только 3% контрастивных обучающих данных специально учат модель создавать выравнивания между языками.

Поэтому мы провели тест, чтобы проверить, вносят ли межъязыковые данные вообще какой-либо вклад.

Полное переобучение jina-embeddings-v3 без межъязыковых данных было бы слишком дорогим для небольшого эксперимента, поэтому мы загрузили модель xlm-roberta-base с Hugging Face и дополнительно обучили её с помощью контрастивного обучения, используя подмножество данных, которые мы использовали для обучения jina-embeddings-v3. Мы специально настроили количество межъязыковых данных для тестирования двух случаев: один без межъязыковых данных и один, где 20% пар были межъязыковыми. Вы можете видеть мета-параметры обучения в таблице ниже:

Backbone	% Cross-Language	Learning Rate	Loss Function	Temperature
`xlm-roberta-base` without X-language data	0%	5e-4	InfoNCE	0.05
`xlm-roberta-base` with X-language data	20%	5e-4	InfoNCE	0.05

Затем мы оценили межъязыковую производительность обеих моделей, используя бенчмарки STS17 и STS22 из MTEB и корреляцию Спирмана. Мы представляем результаты ниже:

tagSTS17

Bar graph showing Spearman correlation for language pairs on STS17 with and without parallel corpus.

Language Pair	With parallel corpora	Without parallel corpora
English ↔ Arabic	0.6418	0.5875
English ↔ German	0.7364	0.7390
English ↔ Spanish	0.6968	0.6799
English ↔ French	0.7066	0.6944
English ↔ Italian	0.7232	0.7070
English ↔ Dutch	0.7597	0.7468
English ↔ Turkish	0.6933	0.6050

tagSTS22

Chart comparing models of language alignment, showing Spearman correlation scores for eight language pairs with and without p

Языковая пара	С параллельными корпусами	Без параллельных корпусов
English ↔ Spanish	0.7710	0.7675
Simplified Chinese ↔ English	0.6885	0.6860
Spanish ↔ Italian	0.6829	0.6814
German ↔ French	0.5763	0.5496
German ↔ English	0.5439	0.5566
Polish ↔ English	0.6966	0.7156
German ↔ English	0.5832	0.5478
French ↔ Polish	0.8451	0.8451

Мы были удивлены, обнаружив, что для большинства протестированных языковых пар межъязыковые обучающие данные не принесли почти никакого улучшения. Трудно быть уверенным, что это останется верным для полностью обученных моделей с большими наборами данных, но это определенно свидетельствует о том, что явное межъязыковое обучение не добавляет много.

Однако стоит отметить, что STS17 включает пары английский/арабский и английский/турецкий. Это оба гораздо менее представленных языка в наших обучающих данных. Модель XML-RoBERTa, которую мы использовали, была предварительно обучена на данных, где арабский составлял 2,25%, а турецкий — 2,32%, что значительно меньше, чем для других тестируемых языков. Небольшой набор данных для контрастивного обучения, который мы использовали в этом эксперименте, содержал только 1,7% арабского и 1,8% турецкого.

Эти две языковые пары — единственные протестированные, где обучение с межъязыковыми данными показало явную разницу. Мы считаем, что явные межъязыковые данные более эффективны для языков, которые менее представлены в обучающих данных, но нам нужно больше исследовать эту область, прежде чем делать окончательные выводы. Роль и эффективность межъязыковых данных в контрастивном обучении — это область, в которой Jina AI ведет активные исследования.

tagЗаключение

Традиционные методы предварительного обучения языка, такие как Masked Language Modeling, оставляют "языковой разрыв", когда семантически похожие тексты на разных языках не выравниваются так близко, как должны. Мы показали, что режим контрастивного обучения Jina Embeddings очень эффективен в уменьшении или даже устранении этого разрыва.

Причины, по которым это работает, не совсем ясны. Мы используем явные межъязыковые пары текстов в контрастивном обучении, но только в очень малых количествах, и неясно, насколько большую роль они играют в обеспечении высококачественных межъязыковых результатов. Наши попытки показать четкий эффект в более контролируемых условиях не дали однозначного результата.

Однако очевидно, что jina-embeddings-v3 преодолел языковой разрыв предварительного обучения, что делает его мощным инструментом для многоязычных приложений. Он готов к использованию для любых задач, требующих одинаково высокой производительности на нескольких языках.

Вы можете использовать jina-embeddings-v3 через наш Embeddings API (с миллионом бесплатных токенов) или через AWS или Azure. Если вы хотите использовать его вне этих платформ или локально в вашей компании, просто помните, что он лицензирован под CC BY-NC 4.0. Свяжитесь с нами, если вы заинтересованы в коммерческом использовании.