Jina Embeddings v2 バイリンガルモデルが Hugging Face でオープンソース化されました

Jina AI は Hugging Face を通じて最先端のオープンソース二言語埋め込みモデルをドイツ語-英語と中国語-英語の言語ペアでリリースしました。

このチュートリアルでは、最小限のインストールとユースケースについて説明します。内容は以下の通りです：

Hugging Face から Jina Embedding モデルをダウンロードする。
モデルを使用してドイツ語と英語のテキストからエンコーディングを取得する。
クロス言語クエリのための基本的な埋め込みベースのニューラル検索エンジンを構築する。

このチュートリアルでは、英語のクエリを使用してドイツ語のテキストを検索し、その逆も可能な方法を Jina Embeddings を使って示します。

このチュートリアルは中国語モデルでも同様に機能します。Querying in Chinese というタイトルの節（最後の方）の指示に従って、中国語-英語二言語モデルと中国語の例文を取得してください。

tag二言語埋め込みモデル

二言語埋め込みモデルは、2つの言語のテキスト（このチュートリアルではドイツ語と英語、中国語モデルでは中国語と英語）を同じ埋め込み空間にマッピングするモデルです。ドイツ語のテキストと英語のテキストが同じ意味を持つ場合、それらに対応する埋め込みベクトルが近くなるような方法でマッピングを行います。

このようなモデルは、このチュートリアルで示すクロス言語情報検索アプリケーションに非常に適していますが、RAG ベースのチャットボット、多言語テキスト分類、要約、感情分析、その他の埋め込みを使用するアプリケーションの基礎としても機能します。これらのモデルを使用することで、両方の言語のテキストを同じ言語で書かれているかのように扱うことができます。

多くの巨大言語モデルが多くの異なる言語をサポートすると主張していますが、すべての言語を同等にサポートしているわけではありません。インターネット上の英語の優位性によるバイアスや、機械翻訳されたテキストのオンライン公開が広がることによる入力ソースの歪みについて、懸念が高まっています。2つの言語に焦点を当てることで、両言語の埋め込み品質をより良くコントロールでき、バイアスを最小限に抑えながら、数十の言語を扱うと主張する巨大モデルと同等以上のパフォーマンスを持つ、はるかに小さなモデルを生成することができます。

Jina Embeddings v2 二言語モデルは 8,192 入力コンテキストトークンをサポートしており、2つの言語をサポートするだけでなく、同様のモデルと比較してより大きなテキストセグメントをサポートすることができます。これにより、より多くのテキスト情報を埋め込みに処理する必要がある、より複雑なユースケースに最適です。

tagGoogle Colab で一緒に進める

このチュートリアルには、付属のノートブックがあり、Google Colab またはローカルシステムで実行できます。

tag前提条件のインストール

現在の環境に関連ライブラリがインストールされていることを確認してください。最新バージョンの transformers が必要なので、すでにインストールされている場合でも、以下を実行してください：

pip install -U transformers

このチュートリアルでは、Meta の FAISS ライブラリを使用してベクトル検索と比較を行います。インストールするには、以下を実行してください：

pip install faiss-cpu

また、このチュートリアルでは入力データの処理に Beautiful Soup を使用するので、以下をインストールしてください：

pip install bs4

tagHugging Face へのアクセス

モデルをダウンロードするには、Hugging Face へのアクセス、特にアカウントとアクセストークンが必要です。

Hugging Face のアカウントをお持ちでない場合：

https://huggingface.co/ にアクセスし、ページ右上の「Sign Up」ボタンが表示されるはずです。クリックして、新しいアカウントを作成するための指示に従ってください。

アカウントにログインした後：

アクセストークンを取得するには、Hugging Face のウェブサイトの指示に従ってください。

Scott Chacon と Ben Straub による「Pro Git」の紙の版の表紙。 — 紙の版の表紙。

Jina Embeddings v2 バイリンガルモデルが Hugging Face でオープンソース化されました

tag二言語埋め込みモデル

tagGoogle Colab で一緒に進める

tag前提条件のインストール

tagHugging Face へのアクセス

tag役割の逆転：英語でドイツ語文書を検索する

tag中国語での検索

tag未来：プログラミングを含むより多くの言語

Jina Embeddings v2 バイリンガルモデルが Hugging Face で オープンソース化されました

tag二言語埋め込みモデル

tagGoogle Colab で一緒に進める

tag前提条件のインストール

tagHugging Face へのアクセス

tag役割の逆転：英語でドイツ語文書を検索する

tag中国語での検索

tag未来：プログラミングを含むより多くの言語

Jina Embeddings v2 バイリンガルモデルが Hugging Face でオープンソース化されました