マルチタスク対照学習による二言語テキスト埋め込みの革新

最近の論文『Multi-Task Contrastive Learning for 8192-Token Bilingual Text Embeddings』で、私たちはドイツ語-英語およびスペイン語-英語のバイリンガルテキスト埋め込みモデルの開発について詳しく説明しました。

私たちのアプローチは、マルチタスク対照学習と高度なデータキュレーションパイプラインを活用し、バイリンガル機能に焦点を当てながら、8192 トークンの長さまでサポートを拡張しています。この手法により、モデルは対象言語の理解と、クロスリンガル評価を効率的に実行することができます。

論文で取り上げたバイリンガルモデルに加えて、中国語-英語のバイリンガルモデルと英語モノリンガルモデルも開発しました。これらの追加は、幅広い言語ニーズをカバーし、言語処理能力を向上させるという私たちの取り組みを示しています。

私たちのバイリンガルモデルは、最適化された語彙サイズで動作し、より少ないパラメータとメモリで効率的に運用できることが特徴です。この効率性は、強力かつリソース効率の良い言語処理ツールを作成するという私たちの dedication を示しています。

論文発表に続いて、Massive Text Embedding Benchmark (MTEB) を拡張し、英語-ドイツ語および英語-スペイン語の埋め込みモデルのベンチマークを追加しました。この拡張は、非英語言語のテキスト埋め込み技術の研究と進歩を促進するための取り組みの一環です。

Jina AI では、バイリンガルおよびモノリンガルのテキスト埋め込みモデルの開発により、NLP 分野に貢献しながら、複数の言語の処理と理解を向上させることを目指しています。