ニュース
モデル
製品
keyboard_arrow_down
読者
URL を読み取ったり検索したりすると、大規模なモデルのサポートが向上します。
ベクトルモデル
世界クラスのマルチモーダル、多言語埋め込み。
並べ替え者
検索の関連性を最大化する世界クラスのニューラルレトリーバー。
ディープサーチ
最善の答えが見つかるまで、検索し、読み、推論してください。
もっと
keyboard_arrow_down
分類子
画像とテキストのゼロショットおよび少数ショットの分類。
スライサー
長いテキストをチャンクまたはトークンに分割します。

APIドキュメント
AIプログラミングアシスタントIDEまたは大規模モデル用のコードを自動生成
open_in_new


会社
keyboard_arrow_down
私たちについて
営業担当者に問い合わせる
インターンプログラム
参加しませんか
open_in_new
ロゴをダウンロード
open_in_new
利用規約


ログイン
login
warning
このモデルは、新しいモデルでは非推奨になりました。

jina-embeddings-v2-base-es

スペイン語と英語のバイリンガルをサポートする 8K 最高のベクトル モデル
リリースノートarrow_forward
ライセンス
license
Apache-2.0
発売日
calendar_month
2024-02-14
入力
abc
文章
arrow_forward
出力
more_horiz
ベクター
モデル詳細
パラメータ: 161M
単語の長さを入力してください: 8K
出力寸法: 768
言語サポート
🇺🇸 英語
🇪🇸 Español
関連機種
link
jina-embeddings-v2-base-en
link
jina-embeddings-v2-base-de
link
jina-embeddings-v2-base-zh
ラベル
spanish
bilingual
long-context
8k-context
bert-based
production-ready
semantic-search
cross-lingual
text-embeddings
fine-tunable
以下の方法で入手できます
APIアマゾンクラウドマイクロソフトクラウド顔を抱きしめる
比較するモデルを選択してください
出版物 (1)
arXiv
2月 26, 2024
Multi-Task Contrastive Learning for 8192-Token Bilingual Text Embeddings

概要

Jina Embeddings v2 Base Spain は、スペイン語と英語のコンテンツ間の言語を越えた情報検索と分析という重要な課題を解決する画期的なバイリンガル テキスト ベクトル モデルです。特定の言語に偏りがちな従来の多言語モデルとは異なり、このモデルはスペイン語と英語の間で真にバランスの取れたパフォーマンスを提供します。これは、スペイン語圏の市場で活動している組織やバイリンガルのコンテンツを扱っている組織にとって不可欠です。このモデルの最も顕著な特徴は、幾何学的に整列したベクトルを生成できることです。スペイン語と英語のテキストが同じ意味を表現する場合、それらのベクトル表現はベクトル空間内で自然にクラスタリングされ、シームレスな言語間検索と分析が可能になります。

方法

モデルの中心となるのは、対称双方向 ALiBi (直線バイアス付き注意) に基づく革新的なアーキテクチャです。これは、従来の位置ベクトルを必要とせずに、最大 8,192 個のトークンのシーケンスを処理できる洗練されたアプローチです。このモデルは、ゲート線形ユニット (GLU) と特殊なレイヤー正規化技術を組み合わせた、1 億 6100 万のパラメーターを備えた修正された BERT アーキテクチャを使用します。トレーニングは 3 段階のプロセスに従います。まず、大規模なテキスト コーパスでの事前トレーニング、次に慎重に選択されたテキスト ペアを使用した微調整、そして最後に、類似しているが意味的に異なるコンテンツの識別を強化するためのハード ネガティブ トレーニングです。このアプローチと 768 次元のベクトルを組み合わせることで、モデルは計算効率を維持しながら微妙な意味関係を捉えることができます。

パフォーマンス

包括的なベンチマーク評価では、このモデルは特に言語間の検索タスクにおいて優れた機能を示し、サイズが Who のわずか 15 ~ 30% であるにもかかわらず、E5 や BGE-M3 などのその後の大規模多言語モデルを上回りました。このモデルは、検索およびクラスタリングのタスクで優れたパフォーマンスを発揮し、言語間で意味的に同等のコンテンツを照合することに優れています。 MTEB ベンチマークでは、分類、クラスタリング、意味的類似性などのさまざまなタスクで良好なパフォーマンスを示します。 8,192 トークンの拡張コンテキスト ウィンドウは、長いドキュメントの処理に特に価値があり、ドキュメントが複数ページにまたがる場合でも一貫したパフォーマンスを実現します。これは、ほとんどの競合モデルにはない機能です。

ガイド

このモデルを効果的に活用するには、組織は最適なパフォーマンスを得るために CUDA 対応の GPU インフラストラクチャにアクセスできるようにする必要があります。このモデルは、MongoDB、Qdrant、Weaviate、Haystack などの主要なベクトル データベースや RAG フレームワークとシームレスに統合されているため、運用環境への導入が簡単になります。バイリンガル文書検索、コンテンツ推奨システム、言語横断文書分析などのアプリケーションに優れています。このモデルはパフォーマンスは良好ですが、スペイン語と英語のバイリンガル シナリオに特化して最適化されているため、単言語アプリケーションや他の言語ペアが関与するシナリオには最適な選択ではない可能性があります。最良の結果を得るには、入力テキストはスペイン語または英語で適切にフォーマットされている必要がありますが、モデルは混合言語コンテンツを効果的に処理できます。このモデルはドメイン固有のアプリケーションの微調整をサポートしていますが、トレーニング データの品質と配布については慎重に考慮する必要があります。
このモデルについて言及しているブログ
4月 29, 2024 • 7 読む時間
Azure 上の Jina Embeddings と Reranker:スケーラブルなビジネス向け AI ソリューション
Jina Embeddings および Rerankers が Azure Marketplace で利用可能になりました。プライバシーとセキュリティを重視する企業は、Jina AI の最先端モデルを既存の Azure エコシステムに簡単に統合できるようになりました。
Susana Guzmán
Futuristic black background with a purple 3D grid, featuring the "Embeddings" and "Reranker" logos with a stylized "A".
2月 14, 2024 • 4 読む時間
スペイン語はここで話す:高品質なスペイン語・英語埋め込みと 8k のコンテキスト
Jina AI の新しいスペイン語・英語バイリンガル埋め込みモデルにより、最先端の AI 技術を 5 億人のスペイン語話者に提供します。
Jina AI
Digital wireframe rendering of a Gothic-style cathedral, with colorful outlines and pointed spires on a dark background.
オフィス
location_on
カリフォルニア州サニーベール
710 Lakeway Dr、Ste 200、サニーベール、CA 94085、アメリカ合衆国
location_on
ドイツ、ベルリン(本社)
Prinzessinnenstraße 19-20、10969 ベルリン、ドイツ
location_on
中国、北京
中国北京市海淀区西街48号ビル6号5階
location_on
深セン、中国
ルーム 402、4 階、福安テクノロジービル、深セン、中国
検索ベース
読者
ベクトルモデル
並べ替え者
ディープサーチ
分類子
スライサー
APIドキュメント
Jina APIキーを取得する
レート制限
APIステータス
会社
私たちについて
営業担当者に問い合わせる
ニュース
インターンプログラム
参加しませんか
open_in_new
ロゴをダウンロード
open_in_new
条項
安全性
利用規約
プライバシー
Cookieを管理する
email
Jina AI © 2020-2025.