最近の論文『Multi-Task Contrastive Learning for 8192-Token Bilingual Text Embeddings』で、私たちはドイツ語-英語およびスペイン語-英語のバイリンガルテキスト埋め込みモデルの開発について詳しく説明しました。
Multi-Task Contrastive Learning for 8192-Token Bilingual Text Embeddings
We introduce a novel suite of state-of-the-art bilingual text embedding models that are designed to support English and another target language. These models are capable of processing lengthy text inputs with up to 8192 tokens, making them highly versatile for a range of natural language processing tasks such as text retrieval, clustering, and semantic textual similarity (STS) calculations. By focusing on bilingual models and introducing a unique multi-task learning objective, we have significantly improved the model performance on STS tasks, which outperforms the capabilities of existing multilingual models in both target language understanding and cross-lingual evaluation tasks. Moreover, our bilingual models are more efficient, requiring fewer parameters and less memory due to their smaller vocabulary needs. Furthermore, we have expanded the Massive Text Embedding Benchmark (MTEB) to include benchmarks for German and Spanish embedding models. This integration aims to stimulate further research and advancement in text embedding technologies for these languages.

Embedding API
Start with 1M free tokens. Top-performing, 8192 context length bilingual embeddings for your search and RAG systems.

私たちのアプローチは、マルチタスク対照学習と高度なデータキュレーションパイプラインを活用し、バイリンガル機能に焦点を当てながら、8192 トークンの長さまでサポートを拡張しています。この手法により、モデルは対象言語の理解と、クロスリンガル評価を効率的に実行することができます。
Aquí Se Habla Español: Top-Quality Spanish-English Embeddings and 8k Context
Jina AI's new bilingual Spanish-English embedding model brings the state-of-the-art in AI to half a billion Spanish speakers.

Ich bin ein Berliner: German-English Bilingual Embeddings with 8K Token Length
Jina AI introduces a German/English bilingual embedding model, featuring an extensive 8,192-token length, specifically designed to support German businesses thriving in the U.S. market.

論文で取り上げたバイリンガルモデルに加えて、中国語-英語のバイリンガルモデルと英語モノリンガルモデルも開発しました。これらの追加は、幅広い言語ニーズをカバーし、言語処理能力を向上させるという私たちの取り組みを示しています。
8K Token-Length Bilingual Embeddings Break Language Barriers in Chinese and English
The first bilingual Chinese-English embedding model with 8192 token-length.

Jina AI Launches World's First Open-Source 8K Text Embedding, Rivaling OpenAI
Jina AI introduces jina-embeddings-v2, the world's first open-source model boasting an 8K context length. Matching the prowess of OpenAI's proprietary models, this innovation is now publicly accessible on Huggingface, signaling a significant milestone in the landscape of text embeddings.

私たちのバイリンガルモデルは、最適化された語彙サイズで動作し、より少ないパラメータとメモリで効率的に運用できることが特徴です。この効率性は、強力かつリソース効率の良い言語処理ツールを作成するという私たちの dedication を示しています。
論文発表に続いて、Massive Text Embedding Benchmark (MTEB) を拡張し、英語-ドイツ語および英語-スペイン語の埋め込みモデルのベンチマークを追加しました。この拡張は、非英語言語のテキスト埋め込み技術の研究と進歩を促進するための取り組みの一環です。
Jina AI では、バイリンガルおよびモノリンガルのテキスト埋め込みモデルの開発により、NLP 分野に貢献しながら、複数の言語の処理と理解を向上させることを目指しています。