ニュース
モデル
API
keyboard_arrow_down
読者
URL を読み取ったり検索したりすると、大規模なモデルのサポートが向上します。
ベクトルモデル
世界クラスのマルチモーダル、多言語埋め込み。
並べ替え者
検索の関連性を最大化する世界クラスのニューラルレトリーバー。
MCP terminalコマンドラインarticlellms.txtsmart_toyエージェントdata_objectモデルmenu_book書類



ログイン
login
プレスリリース
2月 28, 2024

マルチタスク対照学習による二言語テキスト埋め込みの革新

新しい論文では、スペイン語-英語モデルとドイツ語-英語モデルが、マルチタスク対照学習と高度なデータパイプラインを使用して、最大 8192 トークンのテキストに対する言語理解と言語間の効率性をどのように習得しているかを探っています
Composite image of four colorful, stylized landmarks: Brandenburg Gate, St. Peter's Basilica, Tiananmen, and Golden Gate Brid
Jina AI
Jina AI • 3 読む時間

最近の論文『Multi-Task Contrastive Learning for 8192-Token Bilingual Text Embeddings』で、私たちはドイツ語-英語およびスペイン語-英語のバイリンガルテキスト埋め込みモデルの開発について詳しく説明しました。

Multi-Task Contrastive Learning for 8192-Token Bilingual Text Embeddings
We introduce a novel suite of state-of-the-art bilingual text embedding models that are designed to support English and another target language. These models are capable of processing lengthy text inputs with up to 8192 tokens, making them highly versatile for a range of natural language processing tasks such as text retrieval, clustering, and semantic textual similarity (STS) calculations. By focusing on bilingual models and introducing a unique multi-task learning objective, we have significantly improved the model performance on STS tasks, which outperforms the capabilities of existing multilingual models in both target language understanding and cross-lingual evaluation tasks. Moreover, our bilingual models are more efficient, requiring fewer parameters and less memory due to their smaller vocabulary needs. Furthermore, we have expanded the Massive Text Embedding Benchmark (MTEB) to include benchmarks for German and Spanish embedding models. This integration aims to stimulate further research and advancement in text embedding technologies for these languages.
arXiv.orgIsabelle Mohr
Embedding API
Start with 1M free tokens. Top-performing, 8192 context length bilingual embeddings for your search and RAG systems.

私たちのアプローチは、マルチタスク対照学習と高度なデータキュレーションパイプラインを活用し、バイリンガル機能に焦点を当てながら、8192 トークンの長さまでサポートを拡張しています。この手法により、モデルは対象言語の理解と、クロスリンガル評価を効率的に実行することができます。

Aquí Se Habla Español: Top-Quality Spanish-English Embeddings and 8k Context
Jina AI's new bilingual Spanish-English embedding model brings the state-of-the-art in AI to half a billion Spanish speakers.
GitHub
Ich bin ein Berliner: German-English Bilingual Embeddings with 8K Token Length
Jina AI introduces a German/English bilingual embedding model, featuring an extensive 8,192-token length, specifically designed to support German businesses thriving in the U.S. market.
GitHub

論文で取り上げたバイリンガルモデルに加えて、中国語-英語のバイリンガルモデルと英語モノリンガルモデルも開発しました。これらの追加は、幅広い言語ニーズをカバーし、言語処理能力を向上させるという私たちの取り組みを示しています。

8K Token-Length Bilingual Embeddings Break Language Barriers in Chinese and English
The first bilingual Chinese-English embedding model with 8192 token-length.
Discord
Jina AI Launches World's First Open-Source 8K Text Embedding, Rivaling OpenAI
Jina AI introduces jina-embeddings-v2, the world's first open-source model boasting an 8K context length. Matching the prowess of OpenAI's proprietary models, this innovation is now publicly accessible on Huggingface, signaling a significant milestone in the landscape of text embeddings.

私たちのバイリンガルモデルは、最適化された語彙サイズで動作し、より少ないパラメータとメモリで効率的に運用できることが特徴です。この効率性は、強力かつリソース効率の良い言語処理ツールを作成するという私たちの dedication を示しています。

論文発表に続いて、Massive Text Embedding Benchmark (MTEB) を拡張し、英語-ドイツ語および英語-スペイン語の埋め込みモデルのベンチマークを追加しました。この拡張は、非英語言語のテキスト埋め込み技術の研究と進歩を促進するための取り組みの一環です。

Jina AI では、バイリンガルおよびモノリンガルのテキスト埋め込みモデルの開発により、NLP 分野に貢献しながら、複数の言語の処理と理解を向上させることを目指しています。

カテゴリー:
プレスリリース
rss_feed

もっとニュース
2月 19, 2026 • 7 読む時間
jina-embeddings-v5-text: New SOTA Small Multilingual Embeddings
Han Xiao
Abstract digital artwork in black and white, featuring scattered dots forming letters in a halftone effect. The central lette
12月 04, 2025 • 7 読む時間
Jina-VLM: 小規模多言語Vision Language Model
Jina AI
Artistic representation of "Vln" in vibrant, rainbow-like colors on a minimalistic white background, with a focus on color di
10月 03, 2025 • 7 読む時間
Jina Reranker v3: SOTA多言語検索向け0.6B Listwise 重排器
Jina AI
Light blue background with stylized text in the center, composed of small dots or squares, evoking a modern and minimalistic
オフィス
location_on
カリフォルニア州サニーベール
710 Lakeway Dr, Ste 200, サニーベール, カリフォルニア州 94085, アメリカ合衆国
location_on
ベルリン、ドイツ
Prinzessinnenstraße 19-20、10969 ベルリン、ドイツ
検索ベース
読者
ベクトルモデル
並べ替え者
Jina APIキーを取得する
レート制限
APIステータス
会社
私たちについて
営業担当者に問い合わせる
ニュース
インターンシッププログラム
Jinaロゴをダウンロード
open_in_new
Elasticロゴをダウンロード
open_in_new
条項
安全性
利用規約
プライバシー
Cookieを管理する
email
エラスティックジナAI © 2020-2026.