ニュース
モデル
製品
keyboard_arrow_down
読者
URL を読み取ったり検索したりすると、大規模なモデルのサポートが向上します。
ベクトルモデル
世界クラスのマルチモーダル、多言語埋め込み。
並べ替え者
検索の関連性を最大化する世界クラスのニューラルレトリーバー。
ディープサーチ
最善の答えが見つかるまで、検索し、読み、推論してください。
もっと
keyboard_arrow_down
分類子
画像とテキストのゼロショットおよび少数ショットの分類。
スライサー
長いテキストをチャンクまたはトークンに分割します。

APIドキュメント
AIプログラミングアシスタントIDEまたは大規模モデル用のコードを自動生成
open_in_new


会社
keyboard_arrow_down
私たちについて
営業担当者に問い合わせる
インターンプログラム
参加しませんか
open_in_new
ロゴをダウンロード
open_in_new
利用規約


ログイン
login
warning
このモデルは、新しいモデルでは非推奨になりました。

jina-embeddings-v2-base-de

ドイツ語と英語のバイリンガルをサポートする 8K 最高のベクトル モデル
リリースノートarrow_forward
ライセンス
license
Apache-2.0
発売日
calendar_month
2024-01-15
入力
abc
文章
arrow_forward
出力
more_horiz
ベクター
モデル詳細
パラメータ: 161M
単語の長さを入力してください: 8K
出力寸法: 768
言語サポート
🇺🇸 英語
🇩🇪 Deutsch
関連機種
link
jina-embeddings-v2-base-en
ラベル
german-language
text-embedding
monolingual
large-context
production
semantic-search
document-retrieval
fine-tunable
以下の方法で入手できます
APIアマゾンクラウドマイクロソフトクラウド顔を抱きしめる
比較するモデルを選択してください
出版物 (1)
arXiv
2月 26, 2024
Multi-Task Contrastive Learning for 8192-Token Bilingual Text Embeddings

概要

Jina Embeddings v2 Base German は、ドイツ語市場と英語圏市場の間の言語ギャップを埋めるという、国際ビジネスにおける重要な課題を解決します。英語圏の企業の 3 分の 1 が世界売上高の 20% 以上を占めているため、英語圏に進出するドイツ企業にとって、正確なバイリンガルの理解は非常に重要です。このモデルは、ドイツ語と英語でのシームレスなテキスト理解と取得を可能にすることで、組織が多言語コンテンツを処理する方法を変えます。これは、国際的な文書システム、カスタマー サポート プラットフォーム、またはコンテンツ管理ソリューションを導入する企業にとって役立ちます。従来の翻訳ベースの方法とは異なり、このモデルは 2 つの言語の同等の意味を同じベクトル空間に直接マッピングするため、より正確かつ効率的なバイリンガル操作が可能になります。

方法

このモデルは、統一された 768 次元のベクトル空間でドイツ語と英語のテキストを処理する革新的なアーキテクチャを通じて、優れたバイリンガル機能を実現します。その核となるのは、2 つの言語間の意味関係を理解するために慎重にトレーニングされた 1 億 6,100 万のパラメーターを備えた Transformer ベースのニューラル ネットワークです。このアーキテクチャを特に効果的にしているのは、バイアス最小化アプローチであり、特に多言語モデルに関する最近の研究で特定された問題である、英語の文法構造にバイアスがかかるという一般的な落とし穴を回避するように設計されています。モデルの 8,192 トークンの拡張コンテキスト ウィンドウにより、ドキュメント全体または複数ページのテキストを一度に処理でき、両方の言語の長文コンテンツの意味の一貫性が維持されます。

パフォーマンス

実際のテストでは、Jina Embeddings v2 Base German は、特に言語間の検索タスクにおいて優れた効率と精度を実証しました。このモデルは、サイズが 3 分の 1 以下で Microsoft E5 ベース モデルを上回り、サイズがわずか 7 分の 1 であるにもかかわらず、E5 ラージ モデルと同等のパフォーマンスを発揮します。このモデルは、英語からドイツ語への検索のための WikiCLIR、双方向言語理解のための STS17 および STS22、および正確な二か国語テキスト配置のための BUCC などの主要なベンチマークで優れた機能を一貫して実証しています。 322MB というコンパクトなサイズにより、最先端のパフォーマンスを維持しながら標準のハードウェアに導入できるため、コンピューティング リソースが懸念される運用環境で特に効率的になります。

ガイド

Jina Embeddings v2 Base German を効果的に展開するには、組織はいくつかの実用的な側面を考慮する必要があります。このモデルは、MongoDB、Qdrant、Weaviate などの一般的なベクトル データベースとシームレスに統合されており、スケーラブルなバイリンガル検索システムを簡単に構築できます。最高のパフォーマンスを得るには、適切なテキスト前処理を実装して、8,192 トークンの制限を効率的に処理します。これは通常、約 15 ~ 20 ページのテキストに対応します。このモデルはドイツ語と英語の両方のコンテンツで良好にパフォーマンスしますが、クエリ言語とドキュメント言語が異なる可能性がある言語間検索タスクに使用すると特に効果的です。組織は、頻繁にアクセスされるコンテンツに対してキャッシュ ポリシーを実装し、大規模なドキュメントのインデックス作成にバッチ処理を使用することを検討する必要があります。このモデルの AWS SageMaker 統合は、本番環境へのデプロイメントへの信頼できるパスを提供しますが、チームはトークンの使用状況を監視し、高トラフィックのアプリケーションに適切なレート制限を実装する必要があります。 RAG アプリケーションにこのモデルを使用する場合は、入力言語に基づいてプロンプトの構築を最適化する言語検出の実装を検討してください。
このモデルについて言及しているブログ
9月 27, 2024 • 15 読む時間
Jina Embeddings v2 から v3 への移行
Jina Embeddings v2 から v3 への移行に役立つヒントをいくつか集めました。
Alex C-G
Scott Martens
A digital upgrade theme with "V3" and a white "2", set against a green and black binary code background, with "Upgrade" centr
5月 15, 2024 • 11 読む時間
バイナリ Embeddings:AI をすべて、容量はわずか 3.125%
AI モデルのような堅牢で不正確なものに対して、32 ビットの精度は大きすぎます。そこで私たちは 31 ビットを削減しました!バイナリ埋め込みはより小さく、より高速で、高性能です。
Sofia Vasileva
Scott Martens
Futuristic digital 3D model of a coffee grinder with blue neon lights on a black background, featuring numerical data.
4月 29, 2024 • 7 読む時間
Azure 上の Jina Embeddings と Reranker:スケーラブルなビジネス向け AI ソリューション
Jina Embeddings および Rerankers が Azure Marketplace で利用可能になりました。プライバシーとセキュリティを重視する企業は、Jina AI の最先端モデルを既存の Azure エコシステムに簡単に統合できるようになりました。
Susana Guzmán
Futuristic black background with a purple 3D grid, featuring the "Embeddings" and "Reranker" logos with a stylized "A".
1月 31, 2024 • 16 読む時間
トークン化について深く理解する
LLMでトークン化とは、入力テキストを処理のために小さな部分に分割することを意味します。では、なぜ embedding は token 単位で課金されるのでしょうか?
Scott Martens
Colorful speckled grid pattern with a mix of small multicolored dots on a black background, creating a mosaic effect.
1月 26, 2024 • 13 読む時間
Jina Embeddings v2 バイリンガルモデルが Hugging Face で オープンソース化されました
Jina AI のオープンソースのドイツ語-英語と中国語-英語のバイリンガル埋め込みモデルが、Hugging Face で利用可能になりました。 インストールと言語間検索について説明していきます。
Scott Martens
Colorful "EMBEDDINGS" text above a pile of yellow smileys on a black background with decorative lines at the top.
オフィス
location_on
カリフォルニア州サニーベール
710 Lakeway Dr、Ste 200、サニーベール、CA 94085、アメリカ合衆国
location_on
ドイツ、ベルリン(本社)
Prinzessinnenstraße 19-20、10969 ベルリン、ドイツ
location_on
中国、北京
中国北京市海淀区西街48号ビル6号5階
location_on
深セン、中国
ルーム 402、4 階、福安テクノロジービル、深セン、中国
検索ベース
読者
ベクトルモデル
並べ替え者
ディープサーチ
分類子
スライサー
APIドキュメント
Jina APIキーを取得する
レート制限
APIステータス
会社
私たちについて
営業担当者に問い合わせる
ニュース
インターンプログラム
参加しませんか
open_in_new
ロゴをダウンロード
open_in_new
条項
安全性
利用規約
プライバシー
Cookieを管理する
email
Jina AI © 2020-2025.