jina-embeddings-v2-base-zh

中国語と英語のバイリンガリズムをサポートする 8K 最高のベクトルモデル

リリースノート

ライセンス

Apache-2.0

発売日

2024-01-09

入力

文章

出力

ベクター

モデル詳細

パラメータ: 161M

単語の長さを入力してください: 8K

出力寸法: 768

言語サポート

🇺🇸 英語

🇨🇳 中国語

概要

Jina Embeddings v2 Base Chinese は、8,192 トークンという前例のないコンテキスト長で中国語と英語のテキストをシームレスに処理する初のオープンソースモデルとなり、新境地を開拓します。この強力なバイリンガルモデルは、グローバルビジネスが直面している重要な課題、つまり中国語と英語のコンテンツの長文文書を正確に処理する必要性を解決します。言語間の理解を実行するのが難しい、または言語ごとに別のモデルが必要な従来のモデルとは異なり、このモデルは 2 つの言語の同等の意味を同じベクトル空間にマッピングするため、グローバルに拡張したり、多言語コンテンツを管理したりするのに理想的です。非常に価値があります。組織に。

方法

このモデルのアーキテクチャは、BERT ベースのバックボーンと対称双方向 ALiBi (線形バイアスを備えたアテンションメカニズム) を組み合わせており、従来の 512 トークン制限なしで長いシーケンスを効率的に処理できます。トレーニングプロセスは、慎重に計画された 3 段階のアプローチに従います。最初に高品質のバイリンガルデータに関する事前トレーニングが行われ、次に主要な微調整段階とマイナーな微調整段階が続きます。この系統的なトレーニング戦略は、モデルの 1 億 6,100 万のパラメーターと 768 次元の出力と相まって、両方の言語でバランスの取れたパフォーマンスを維持しながら、優れた効率を実現します。対称双方向 ALiBi メカニズムは大きな革新であり、このモデルで最大 8,192 トークンの長さのドキュメントを処理できるようになります。これは、以前は独自のソリューションに限定されていた機能です。

パフォーマンス

中国の MTEB (C-MTEB) リーダーボードのベンチマークテストでは、このモデルは、特に中国のタスクで 0.5 GB 未満で良好なパフォーマンスを示しました。英語タスクでは競争力を維持しながら、中国語固有のアプリケーションでは OpenAI の text-embedding-ada-002 を大幅に上回りました。このリリースでの注目すべき改善点は、類似性スコアの分布が改善されたことです。これにより、プレビューリリースに存在していたスコアのインフレの問題が解決されました。このモデルは、よりユニークで論理的な類似性スコアを提供するようになり、テキスト間の意味的関係をより正確に表現できるようになりました。この強化は比較テストで特に顕著で、モデルは両方の言語で関連するコンテンツと無関係なコンテンツをより適切に区別できることがわかりました。

ガイド

このモデルには 322 MB のストレージが必要で、AWS SageMaker (us-east-1 リージョン) や Jina AI API などの複数のチャネルを通じてデプロイできます。 GPU アクセラレーションは必須ではありませんが、実稼働ワークロードを大幅に高速化できます。このモデルは、文書分析、多言語検索、言語をまたいだ情報検索などのさまざまなアプリケーションで適切に機能しますが、ユーザーは特に中国語と英語のバイリンガルシナリオ向けに最適化されていることに注意する必要があります。最良の結果を得るには、入力テキストを適切にセグメント化する必要があります。モデルは最大 8,192 個のトークンを処理できますが、パフォーマンスを向上させるために、非常に長いドキュメントを意味的に意味のあるチャンクに分割することをお勧めします。このモデルは、非常に短いテキストのリアルタイム処理を必要とするタスクには適していない可能性があり、低遅延の専用モデルの方が適している可能性があります。

このモデルについて言及しているブログ

4月 29, 2024 • 7 読む時間

Azure 上の Jina Embeddings と Reranker：スケーラブルなビジネス向け AI ソリューション

Jina Embeddings および Rerankers が Azure Marketplace で利用可能になりました。プライバシーとセキュリティを重視する企業は、Jina AI の最先端モデルを既存の Azure エコシステムに簡単に統合できるようになりました。