ニュース
モデル
製品
keyboard_arrow_down
ディープサーチ
最善の答えが見つかるまで、検索し、読み、推論してください。
読者
URL を読み取ったり検索したりすると、大規模なモデルのサポートが向上します。
ベクトルモデル
世界クラスのマルチモーダル、多言語埋め込み。
並べ替え者
検索の関連性を最大化する世界クラスのニューラルレトリーバー。
もっと
keyboard_arrow_down
分類子
画像とテキストのゼロショットおよび少数ショットの分類。
スライサー
長いテキストをチャンクまたはトークンに分割します。

APIドキュメント
AIプログラミングアシスタントIDEまたは大規模モデル用のコードを自動生成
open_in_new


会社
keyboard_arrow_down
私たちについて
営業担当者に問い合わせる
インターンプログラム
参加しませんか
open_in_new
ロゴをダウンロード
open_in_new
利用規約


ログイン
login
ベンチマーク
Jina Embeddings:多言語世界のための AI
プレスリリース
2月 14, 2024

スペイン語はここで話す:高品質なスペイン語・英語埋め込みと 8k のコンテキスト

Jina AI の新しいスペイン語・英語バイリンガル埋め込みモデルにより、最先端の AI 技術を 5 億人のスペイン語話者に提供します。
Digital wireframe rendering of a Gothic-style cathedral, with colorful outlines and pointed spires on a dark background.
Jina AI
Jina AI • 4 読む時間

Jina AI は一度、また、そして再び、高品質な多言語 AI モデルへの取り組みを示し、スペイン語-英語バイリンガルモデルをリリースしました。

このモデルは、スペイン語または英語で最大 8k トークンまでのテキストの埋め込みベクトルを提供し、2 つの言語で同じ意味を持つテキストの埋め込みが幾何学的に近くなるように設計されています。スペイン語と英語のための Jina Embeddings v2 は、言語横断的な情報検索、バイリンガル意味分析、バイリンガル RAG アプリケーションに最適です。

この新しいモデル jina-embeddings-v2-base-es は、Jina AI の v2 モデルが英語、ドイツ語、中国語、プログラミング言語で持つ最先端の性能と画期的な機能セットをスペイン語にもたらします:

  • オープンソースの埋め込みモデルの中でトップクラスの 8,192 トークンの入力コンテキスト。
  • 不均一な多言語性ではなく、真のバイリンガリズム。Jina AI のバイリンガルモデルは、キュレーションされていないインターネットスクレイピングで学習された「多言語」モデルのバイアスを避け、両言語に均等なサポートを提供するように学習されています。
  • jina-embeddings-v2-base-es は、同等の性能を持つオープンソースモデルと比較してコンパクトです。埋め込み自体は 768 次元で、本番環境でのスペースと実行時間を節約します。
  • Jina Embeddings v2 モデルは、主要なベクターデータベース、RAG フレームワーク、AI 開発ライブラリに完全に統合されています:
    • MongoDB
    • Qdrant
    • Weaviate
    • Haystack
    • LlamaIndex

スペイン語と英語のための Jina Embeddings v2 は、Jina のEmbeddings APIを通じて今すぐアクセス可能で、100 万トークンの無料枠があるため、試用は無料です。

Embedding API
Start with 1M free tokens. Top-performing, 8192 context length bilingual embeddings for your search and RAG systems.

tagベンチマーク

スペイン語のベンチマークでは、スペイン語と英語のための Jina v2 は、Multilingual E5 base モデルとBGE M3 モデル(スペイン語をサポートする比較可能な唯一のオープンソースモデル)を上回る性能を示しています。以下のテスト(MTEB-es)は、Massive Text Embeddings Benchmark から適応されたものです。このGitHub リポジトリから閲覧および実行できます。

GitHub - jina-ai/mteb-es: MTEB: Massive Text Embedding Benchmark with Spanish datasets
MTEB: Massive Text Embedding Benchmark with Spanish datasets - jina-ai/mteb-es
GitHubjina-ai
Technical table displaying models, sizes, and performance metrics for cross-language, retrieval, and classification tasks.

Jina Embeddings は、分類を除くすべての指標で E5 を上回り、これらのより大きなモデルのサイズが 15% から 30% にもかかわらず、検索、クラスタリング、クロス言語タスクで BGE-M3 を上回ります。

  • 検索タスク(データベース内の関連文書の検索など)とクラスタリング(コレクション内の関連文書グループの特定)で大幅に優れた性能
  • スペイン語での再ランク付け(意味的類似性による文書の順序付け)で E5 と同等の性能、テキスト分類でもほぼ同等の性能
  • 3 つのモデルすべてがクロス言語タスク(スペイン語の入力に対する英語の意味的に類似したテキストの検索、またはその逆)でとても似たベンチマークスコアを示していますが、Jina Embeddings が依然として最高の性能を示しています。

Open AI や Cohere のクローズドソースの多言語モデルと比較すると、Jina Embeddings のコンパクトなサイズがその成果をより印象的なものにしています。

Table comparing machine translation systems with models, vendors, and metrics like Spanish benchmarks and cross-language rera

スペイン語での検索タスクにおいて、Jina は Open AI と Cohere が提供するクローズドソースモデルを上回り、クロス言語タスクでは Open AI を上回り(そして Cohere の性能にほぼ匹敵する)性能を示しています。

tagJina Embeddings:多言語世界のための AI

スペイン語は 5 億人以上の人々に話され、20 カ国以上で公用語として認められており、欧州連合、国際連合、世界貿易機関、FIFA でも使用されています。この専門的なバイリンガルモデルの導入は、AI 技術をすべての人々に提供するという Jina AI のコミットメントを明確に示しています。

Jina AI は、スペイン語と高性能な英語単一言語モデルに加えて、現在ドイツ語、中国語、およびプログラミング言語の最先端な embedding モデルを提供しており、今後さらに多くの言語に対応予定です。

Jina AI は、透明性、アクセシビリティ、手頃な価格、プライバシー、データ保護を重視し、最も広範なユーザーのために AI 技術を進歩させることに尽力しています。

私たちはすべてのモデルに関するフィードバックを歓迎します。コミュニティチャンネルに参加して、新しい開発情報を入手し、貢献してください。

Embedding API
100 万トークンの無料枠からスタート。検索と RAG システム用の高性能な 8192 コンテキスト長のバイリンガル embeddings を提供。
カテゴリー:
プレスリリース
rss_feed
オフィス
location_on
カリフォルニア州サニーベール
710 Lakeway Dr、Ste 200、サニーベール、CA 94085、アメリカ合衆国
location_on
ドイツ、ベルリン(本社)
Prinzessinnenstraße 19-20、10969 ベルリン、ドイツ
location_on
中国、北京
中国北京市海淀区西街48号ビル6号5階
location_on
深セン、中国
ルーム 402、4 階、福安テクノロジービル、深セン、中国
検索ベース
ディープサーチ
読者
ベクトルモデル
並べ替え者
分類子
スライサー
APIドキュメント
Jina APIキーを取得する
レート制限
APIステータス
会社
私たちについて
営業担当者に問い合わせる
ニュース
インターンプログラム
参加しませんか
open_in_new
ロゴをダウンロード
open_in_new
条項
安全性
利用規約
プライバシー
Cookieを管理する
email
Jina AI © 2020-2025.