以下の方法で入手できます
比較するモデルを選択してください
出版物 (1)
概要
Jina Embeddings v2 Base Spain は、スペイン語と英語のコンテンツ間の言語を越えた情報検索と分析という重要な課題を解決する画期的なバイリンガル テキスト ベクトル モデルです。特定の言語に偏りがちな従来の多言語モデルとは異なり、このモデルはスペイン語と英語の間で真にバランスの取れたパフォーマンスを提供します。これは、スペイン語圏の市場で活動している組織やバイリンガルのコンテンツを扱っている組織にとって不可欠です。このモデルの最も顕著な特徴は、幾何学的に整列したベクトルを生成できることです。スペイン語と英語のテキストが同じ意味を表現する場合、それらのベクトル表現はベクトル空間内で自然にクラスタリングされ、シームレスな言語間検索と分析が可能になります。
方法
モデルの中心となるのは、対称双方向 ALiBi (直線バイアス付き注意) に基づく革新的なアーキテクチャです。これは、従来の位置ベクトルを必要とせずに、最大 8,192 個のトークンのシーケンスを処理できる洗練されたアプローチです。このモデルは、ゲート線形ユニット (GLU) と特殊なレイヤー正規化技術を組み合わせた、1 億 6100 万のパラメーターを備えた修正された BERT アーキテクチャを使用します。トレーニングは 3 段階のプロセスに従います。まず、大規模なテキスト コーパスでの事前トレーニング、次に慎重に選択されたテキスト ペアを使用した微調整、そして最後に、類似しているが意味的に異なるコンテンツの識別を強化するためのハード ネガティブ トレーニングです。このアプローチと 768 次元のベクトルを組み合わせることで、モデルは計算効率を維持しながら微妙な意味関係を捉えることができます。
パフォーマンス
包括的なベンチマーク評価では、このモデルは特に言語間の検索タスクにおいて優れた機能を示し、サイズが Who のわずか 15 ~ 30% であるにもかかわらず、E5 や BGE-M3 などのその後の大規模多言語モデルを上回りました。このモデルは、検索およびクラスタリングのタスクで優れたパフォーマンスを発揮し、言語間で意味的に同等のコンテンツを照合することに優れています。 MTEB ベンチマークでは、分類、クラスタリング、意味的類似性などのさまざまなタスクで良好なパフォーマンスを示します。 8,192 トークンの拡張コンテキスト ウィンドウは、長いドキュメントの処理に特に価値があり、ドキュメントが複数ページにまたがる場合でも一貫したパフォーマンスを実現します。これは、ほとんどの競合モデルにはない機能です。
ガイド
このモデルを効果的に活用するには、組織は最適なパフォーマンスを得るために CUDA 対応の GPU インフラストラクチャにアクセスできるようにする必要があります。このモデルは、MongoDB、Qdrant、Weaviate、Haystack などの主要なベクトル データベースや RAG フレームワークとシームレスに統合されているため、運用環境への導入が簡単になります。バイリンガル文書検索、コンテンツ推奨システム、言語横断文書分析などのアプリケーションに優れています。このモデルはパフォーマンスは良好ですが、スペイン語と英語のバイリンガル シナリオに特化して最適化されているため、単言語アプリケーションや他の言語ペアが関与するシナリオには最適な選択ではない可能性があります。最良の結果を得るには、入力テキストはスペイン語または英語で適切にフォーマットされている必要がありますが、モデルは混合言語コンテンツを効果的に処理できます。このモデルはドメイン固有のアプリケーションの微調整をサポートしていますが、トレーニング データの品質と配布については慎重に考慮する必要があります。
このモデルについて言及しているブログ