ニュース
モデル
製品
keyboard_arrow_down
読者
URL を読み取ったり検索したりすると、大規模なモデルのサポートが向上します。
ベクトルモデル
世界クラスのマルチモーダル、多言語埋め込み。
並べ替え者
検索の関連性を最大化する世界クラスのニューラルレトリーバー。
ディープサーチ
最善の答えが見つかるまで、検索し、読み、推論してください。
もっと
keyboard_arrow_down
分類子
画像とテキストのゼロショットおよび少数ショットの分類。
スライサー
長いテキストをチャンクまたはトークンに分割します。

APIドキュメント
AIプログラミングアシスタントIDEまたは大規模モデル用のコードを自動生成
open_in_new


会社
keyboard_arrow_down
私たちについて
営業担当者に問い合わせる
インターンプログラム
参加しませんか
open_in_new
ロゴをダウンロード
open_in_new
利用規約


ログイン
login
warning
このモデルは、新しいモデルでは非推奨になりました。

jina-embeddings-v2-base-zh

中国語と英語のバイリンガリズムをサポートする 8K 最高のベクトル モデル
リリースノートarrow_forward
ライセンス
license
Apache-2.0
発売日
calendar_month
2024-01-09
入力
abc
文章
arrow_forward
出力
more_horiz
ベクター
モデル詳細
パラメータ: 161M
単語の長さを入力してください: 8K
出力寸法: 768
言語サポート
🇺🇸 英語
🇨🇳 中国語
関連機種
link
jina-embeddings-v2-base-en
link
jina-embeddings-v3
ラベル
text-embedding
chinese
multilingual
base-model
production
long-context
high-dimension
以下の方法で入手できます
APIアマゾンクラウドマイクロソフトクラウド顔を抱きしめる
比較するモデルを選択してください
出版物 (1)
arXiv
2月 26, 2024
Multi-Task Contrastive Learning for 8192-Token Bilingual Text Embeddings

概要

Jina Embeddings v2 Base Chinese は、8,192 トークンという前例のないコンテキスト長で中国語と英語のテキストをシームレスに処理する初のオープンソース モデルとなり、新境地を開拓します。この強力なバイリンガル モデルは、グローバル ビジネスが直面している重要な課題、つまり中国語と英語のコンテンツの長文文書を正確に処理する必要性を解決します。言語間の理解を実行するのが難しい、または言語ごとに別のモデルが必要な従来のモデルとは異なり、このモデルは 2 つの言語の同等の意味を同じベクトル空間にマッピングするため、グローバルに拡張したり、多言語コンテンツを管理したりするのに理想的です。非常に価値があります。組織に。

方法

このモデルのアーキテクチャは、BERT ベースのバックボーンと対称双方向 ALiBi (線形バイアスを備えたアテンション メカニズム) を組み合わせており、従来の 512 トークン制限なしで長いシーケンスを効率的に処理できます。トレーニング プロセスは、慎重に計画された 3 段階のアプローチに従います。最初に高品質のバイリンガル データに関する事前トレーニングが行われ、次に主要な微調整段階とマイナーな微調整段階が続きます。この系統的なトレーニング戦略は、モデルの 1 億 6,100 万のパラメーターと 768 次元の出力と相まって、両方の言語でバランスの取れたパフォーマンスを維持しながら、優れた効率を実現します。対称双方向 ALiBi メカニズムは大きな革新であり、このモデルで最大 8,192 トークンの長さのドキュメントを処理できるようになります。これは、以前は独自のソリューションに限定されていた機能です。

パフォーマンス

中国の MTEB (C-MTEB) リーダーボードのベンチマーク テストでは、このモデルは、特に中国のタスクで 0.5 GB 未満で良好なパフォーマンスを示しました。英語タスクでは競争力を維持しながら、中国語固有のアプリケーションでは OpenAI の text-embedding-ada-002 を大幅に上回りました。このリリースでの注目すべき改善点は、類似性スコアの分布が改善されたことです。これにより、プレビュー リリースに存在していたスコアのインフレの問題が解決されました。このモデルは、よりユニークで論理的な類似性スコアを提供するようになり、テキスト間の意味的関係をより正確に表現できるようになりました。この強化は比較テストで特に顕著で、モデルは両方の言語で関連するコンテンツと無関係なコンテンツをより適切に区別できることがわかりました。

ガイド

このモデルには 322 MB のストレージが必要で、AWS SageMaker (us-east-1 リージョン) や Jina AI API などの複数のチャネルを通じてデプロイできます。 GPU アクセラレーションは必須ではありませんが、実稼働ワークロードを大幅に高速化できます。このモデルは、文書分析、多言語検索、言語をまたいだ情報検索などのさまざまなアプリケーションで適切に機能しますが、ユーザーは特に中国語と英語のバイリンガル シナリオ向けに最適化されていることに注意する必要があります。最良の結果を得るには、入力テキストを適切にセグメント化する必要があります。モデルは最大 8,192 個のトークンを処理できますが、パフォーマンスを向上させるために、非常に長いドキュメントを意味的に意味のあるチャンクに分割することをお勧めします。このモデルは、非常に短いテキストのリアルタイム処理を必要とするタスクには適していない可能性があり、低遅延の専用モデルの方が適している可能性があります。
このモデルについて言及しているブログ
4月 29, 2024 • 7 読む時間
Azure 上の Jina Embeddings と Reranker:スケーラブルなビジネス向け AI ソリューション
Jina Embeddings および Rerankers が Azure Marketplace で利用可能になりました。プライバシーとセキュリティを重視する企業は、Jina AI の最先端モデルを既存の Azure エコシステムに簡単に統合できるようになりました。
Susana Guzmán
Futuristic black background with a purple 3D grid, featuring the "Embeddings" and "Reranker" logos with a stylized "A".
2月 28, 2024 • 3 読む時間
マルチタスク対照学習による二言語テキスト埋め込みの革新
新しい論文では、スペイン語-英語モデルとドイツ語-英語モデルが、マルチタスク対照学習と高度なデータパイプラインを使用して、最大 8192 トークンのテキストに対する言語理解と言語間の効率性をどのように習得しているかを探っています
Jina AI
Composite image of four colorful, stylized landmarks: Brandenburg Gate, St. Peter's Basilica, Tiananmen, and Golden Gate Brid
1月 31, 2024 • 16 読む時間
トークン化について深く理解する
LLMでトークン化とは、入力テキストを処理のために小さな部分に分割することを意味します。では、なぜ embedding は token 単位で課金されるのでしょうか?
Scott Martens
Colorful speckled grid pattern with a mix of small multicolored dots on a black background, creating a mosaic effect.
1月 26, 2024 • 13 読む時間
Jina Embeddings v2 バイリンガルモデルが Hugging Face で オープンソース化されました
Jina AI のオープンソースのドイツ語-英語と中国語-英語のバイリンガル埋め込みモデルが、Hugging Face で利用可能になりました。 インストールと言語間検索について説明していきます。
Scott Martens
Colorful "EMBEDDINGS" text above a pile of yellow smileys on a black background with decorative lines at the top.
1月 09, 2024 • 12 読む時間
8K トークン長バイリンガル埋め込みが中国語と英語の言語の壁を打ち破る
8192 トークン長を持つ初の中国語・英語バイリンガル埋め込みモデル
Jina AI
Colorful 3D text "OPEN" in green and blue on a black background creating a vibrant effect
オフィス
location_on
カリフォルニア州サニーベール
710 Lakeway Dr、Ste 200、サニーベール、CA 94085、アメリカ合衆国
location_on
ドイツ、ベルリン(本社)
Prinzessinnenstraße 19-20、10969 ベルリン、ドイツ
location_on
中国、北京
中国北京市海淀区西街48号ビル6号5階
location_on
深セン、中国
ルーム 402、4 階、福安テクノロジービル、深セン、中国
検索ベース
読者
ベクトルモデル
並べ替え者
ディープサーチ
分類子
スライサー
APIドキュメント
Jina APIキーを取得する
レート制限
APIステータス
会社
私たちについて
営業担当者に問い合わせる
ニュース
インターンプログラム
参加しませんか
open_in_new
ロゴをダウンロード
open_in_new
条項
安全性
利用規約
プライバシー
Cookieを管理する
email
Jina AI © 2020-2025.