ニュース
モデル
製品
keyboard_arrow_down
ディープサーチ
最善の答えが見つかるまで、検索し、読み、推論してください。
読者
URL を読み取ったり検索したりすると、大規模なモデルのサポートが向上します。
ベクトルモデル
世界クラスのマルチモーダル、多言語埋め込み。
並べ替え者
検索の関連性を最大化する世界クラスのニューラルレトリーバー。
もっと
keyboard_arrow_down
分類子
画像とテキストのゼロショットおよび少数ショットの分類。
スライサー
長いテキストをチャンクまたはトークンに分割します。

APIドキュメント
AIプログラミングアシスタントIDEまたは大規模モデル用のコードを自動生成
open_in_new


会社
keyboard_arrow_down
私たちについて
営業担当者に問い合わせる
インターンプログラム
参加しませんか
open_in_new
ロゴをダウンロード
open_in_new
利用規約


ログイン
login
プレスリリース
2月 28, 2024

マルチタスク対照学習による二言語テキスト埋め込みの革新

新しい論文では、スペイン語-英語モデルとドイツ語-英語モデルが、マルチタスク対照学習と高度なデータパイプラインを使用して、最大 8192 トークンのテキストに対する言語理解と言語間の効率性をどのように習得しているかを探っています
Composite image of four colorful, stylized landmarks: Brandenburg Gate, St. Peter's Basilica, Tiananmen, and Golden Gate Brid
Jina AI
Jina AI • 3 読む時間

最近の論文『Multi-Task Contrastive Learning for 8192-Token Bilingual Text Embeddings』で、私たちはドイツ語-英語およびスペイン語-英語のバイリンガルテキスト埋め込みモデルの開発について詳しく説明しました。

Multi-Task Contrastive Learning for 8192-Token Bilingual Text Embeddings
We introduce a novel suite of state-of-the-art bilingual text embedding models that are designed to support English and another target language. These models are capable of processing lengthy text inputs with up to 8192 tokens, making them highly versatile for a range of natural language processing tasks such as text retrieval, clustering, and semantic textual similarity (STS) calculations. By focusing on bilingual models and introducing a unique multi-task learning objective, we have significantly improved the model performance on STS tasks, which outperforms the capabilities of existing multilingual models in both target language understanding and cross-lingual evaluation tasks. Moreover, our bilingual models are more efficient, requiring fewer parameters and less memory due to their smaller vocabulary needs. Furthermore, we have expanded the Massive Text Embedding Benchmark (MTEB) to include benchmarks for German and Spanish embedding models. This integration aims to stimulate further research and advancement in text embedding technologies for these languages.
arXiv.orgIsabelle Mohr
Embedding API
Start with 1M free tokens. Top-performing, 8192 context length bilingual embeddings for your search and RAG systems.

私たちのアプローチは、マルチタスク対照学習と高度なデータキュレーションパイプラインを活用し、バイリンガル機能に焦点を当てながら、8192 トークンの長さまでサポートを拡張しています。この手法により、モデルは対象言語の理解と、クロスリンガル評価を効率的に実行することができます。

Aquí Se Habla Español: Top-Quality Spanish-English Embeddings and 8k Context
Jina AI's new bilingual Spanish-English embedding model brings the state-of-the-art in AI to half a billion Spanish speakers.
GitHub
Ich bin ein Berliner: German-English Bilingual Embeddings with 8K Token Length
Jina AI introduces a German/English bilingual embedding model, featuring an extensive 8,192-token length, specifically designed to support German businesses thriving in the U.S. market.
GitHub

論文で取り上げたバイリンガルモデルに加えて、中国語-英語のバイリンガルモデルと英語モノリンガルモデルも開発しました。これらの追加は、幅広い言語ニーズをカバーし、言語処理能力を向上させるという私たちの取り組みを示しています。

8K Token-Length Bilingual Embeddings Break Language Barriers in Chinese and English
The first bilingual Chinese-English embedding model with 8192 token-length.
Discord
Jina AI Launches World's First Open-Source 8K Text Embedding, Rivaling OpenAI
Jina AI introduces jina-embeddings-v2, the world's first open-source model boasting an 8K context length. Matching the prowess of OpenAI's proprietary models, this innovation is now publicly accessible on Huggingface, signaling a significant milestone in the landscape of text embeddings.

私たちのバイリンガルモデルは、最適化された語彙サイズで動作し、より少ないパラメータとメモリで効率的に運用できることが特徴です。この効率性は、強力かつリソース効率の良い言語処理ツールを作成するという私たちの dedication を示しています。

論文発表に続いて、Massive Text Embedding Benchmark (MTEB) を拡張し、英語-ドイツ語および英語-スペイン語の埋め込みモデルのベンチマークを追加しました。この拡張は、非英語言語のテキスト埋め込み技術の研究と進歩を促進するための取り組みの一環です。

Jina AI では、バイリンガルおよびモノリンガルのテキスト埋め込みモデルの開発により、NLP 分野に貢献しながら、複数の言語の処理と理解を向上させることを目指しています。

カテゴリー:
プレスリリース
rss_feed
オフィス
location_on
カリフォルニア州サニーベール
710 Lakeway Dr、Ste 200、サニーベール、CA 94085、アメリカ合衆国
location_on
ドイツ、ベルリン(本社)
Prinzessinnenstraße 19-20、10969 ベルリン、ドイツ
location_on
中国、北京
中国北京市海淀区西街48号ビル6号5階
location_on
深セン、中国
ルーム 402、4 階、福安テクノロジービル、深セン、中国
検索ベース
ディープサーチ
読者
ベクトルモデル
並べ替え者
分類子
スライサー
APIドキュメント
Jina APIキーを取得する
レート制限
APIステータス
会社
私たちについて
営業担当者に問い合わせる
ニュース
インターンプログラム
参加しませんか
open_in_new
ロゴをダウンロード
open_in_new
条項
安全性
利用規約
プライバシー
Cookieを管理する
email
Jina AI © 2020-2025.