Jina AI は一度、また、そして再び、高品質な多言語 AI モデルへの取り組みを示し、スペイン語-英語バイリンガルモデルをリリースしました。
このモデルは、スペイン語または英語で最大 8k トークンまでのテキストの埋め込みベクトルを提供し、2 つの言語で同じ意味を持つテキストの埋め込みが幾何学的に近くなるように設計されています。スペイン語と英語のための Jina Embeddings v2 は、言語横断的な情報検索、バイリンガル意味分析、バイリンガル RAG アプリケーションに最適です。
この新しいモデル jina-embeddings-v2-base-es は、Jina AI の v2
モデルが英語、ドイツ語、中国語、プログラミング言語で持つ最先端の性能と画期的な機能セットをスペイン語にもたらします:
- オープンソースの埋め込みモデルの中でトップクラスの 8,192 トークンの入力コンテキスト。
- 不均一な多言語性ではなく、真のバイリンガリズム。Jina AI のバイリンガルモデルは、キュレーションされていないインターネットスクレイピングで学習された「多言語」モデルのバイアスを避け、両言語に均等なサポートを提供するように学習されています。
- jina-embeddings-v2-base-es は、同等の性能を持つオープンソースモデルと比較してコンパクトです。埋め込み自体は 768 次元で、本番環境でのスペースと実行時間を節約します。
- Jina Embeddings v2 モデルは、主要なベクターデータベース、RAG フレームワーク、AI 開発ライブラリに完全に統合されています:
スペイン語と英語のための Jina Embeddings v2 は、Jina のEmbeddings APIを通じて今すぐアクセス可能で、100 万トークンの無料枠があるため、試用は無料です。

tagベンチマーク
スペイン語のベンチマークでは、スペイン語と英語のための Jina v2 は、Multilingual E5 base モデルとBGE M3 モデル(スペイン語をサポートする比較可能な唯一のオープンソースモデル)を上回る性能を示しています。以下のテスト(MTEB-es)は、Massive Text Embeddings Benchmark から適応されたものです。このGitHub リポジトリから閲覧および実行できます。

Jina Embeddings は、分類を除くすべての指標で E5 を上回り、これらのより大きなモデルのサイズが 15% から 30% にもかかわらず、検索、クラスタリング、クロス言語タスクで BGE-M3 を上回ります。
- 検索タスク(データベース内の関連文書の検索など)とクラスタリング(コレクション内の関連文書グループの特定)で大幅に優れた性能
- スペイン語での再ランク付け(意味的類似性による文書の順序付け)で E5 と同等の性能、テキスト分類でもほぼ同等の性能
- 3 つのモデルすべてがクロス言語タスク(スペイン語の入力に対する英語の意味的に類似したテキストの検索、またはその逆)でとても似たベンチマークスコアを示していますが、Jina Embeddings が依然として最高の性能を示しています。
Open AI や Cohere のクローズドソースの多言語モデルと比較すると、Jina Embeddings のコンパクトなサイズがその成果をより印象的なものにしています。

スペイン語での検索タスクにおいて、Jina は Open AI と Cohere が提供するクローズドソースモデルを上回り、クロス言語タスクでは Open AI を上回り(そして Cohere の性能にほぼ匹敵する)性能を示しています。
tagJina Embeddings:多言語世界のための AI
スペイン語は 5 億人以上の人々に話され、20 カ国以上で公用語として認められており、欧州連合、国際連合、世界貿易機関、FIFA でも使用されています。この専門的なバイリンガルモデルの導入は、AI 技術をすべての人々に提供するという Jina AI のコミットメントを明確に示しています。
Jina AI は、スペイン語と高性能な英語単一言語モデルに加えて、現在ドイツ語、中国語、およびプログラミング言語の最先端な embedding モデルを提供しており、今後さらに多くの言語に対応予定です。
Jina AI は、透明性、アクセシビリティ、手頃な価格、プライバシー、データ保護を重視し、最も広範なユーザーのために AI 技術を進歩させることに尽力しています。
私たちはすべてのモデルに関するフィードバックを歓迎します。コミュニティチャンネルに参加して、新しい開発情報を入手し、貢献してください。
