Jina Embeddings v2 双语模型现已在 Hugging Face 开源

Jina AI 通过 Hugging Face 发布了其最先进的开源德英和中英双语嵌入模型。

在本教程中，我们将介绍一个非常简单的安装和使用案例，包括：

从 Hugging Face 下载 Jina Embedding 模型。
使用模型获取德语和英语文本的编码。
构建一个基于嵌入的简单跨语言神经搜索引擎。

我们将向您展示如何使用 Jina Embeddings 编写英语查询来检索匹配的德语文本，反之亦然。

此教程同样适用于中文模型。只需按照标题为Querying in Chinese的章节（在文末）中的说明获取中英双语模型和中文示例文档即可。

tag双语嵌入模型

双语嵌入模型是一个将两种语言的文本（本教程中为德语和英语，中文模型则为中文和英语）映射到同一嵌入空间的模型。并且，它以这样一种方式工作：如果一个德语文本和一个英语文本表达相同的含义，它们对应的嵌入向量将非常接近。

这类模型非常适合跨语言信息检索应用，我们将在本教程中演示这一点。它们也可以作为基于 RAG 的聊天机器人、多语言文本分类、摘要、情感分析以及任何使用嵌入的其他应用的基础。通过使用这些模型，您可以将两种语言的文本视为用同一种语言编写的文本。

尽管许多大型语言模型声称支持多种不同的语言，但它们对所有语言的支持并不均衡。关于互联网上英语主导地位导致的偏见以及由于机器翻译文本的广泛在线发布导致的输入源失真的问题日益增多。通过专注于两种语言，我们可以更好地控制两种语言的嵌入质量，最大限度地减少偏见，同时生成更小的模型，其性能与声称可以处理几十种语言的巨型模型相似或更高。

Jina Embeddings v2 双语模型支持 8,192 个输入上下文 token，使其不仅可以支持两种语言，而且与同类模型相比，还可以支持相对较大的文本段落。这使它们非常适合需要将更多文本信息处理成嵌入的复杂用例。

tag在 Google Colab 上跟随学习

本教程有一个配套笔记本，您可以在 Google Colab 上运行，或在您自己的系统上本地运行。

tag安装先决条件

确保当前环境已安装相关库。您需要最新版本的 transformers，即使它已经安装，也请运行：

pip install -U transformers

本教程将使用 Meta 的 FAISS 库进行向量搜索和比较。要安装它，请运行：

pip install faiss-cpu

我们还将使用 Beautiful Soup 来处理本教程中的输入数据，请确保安装：

pip install bs4

tag访问 Hugging Face

您需要访问 Hugging Face，具体来说是一个账户和访问令牌来下载模型。

如果您没有 Hugging Face 账户：

访问 https://huggingface.co/，您应该能在页面右上角看到一个"Sign Up"按钮。点击它并按照说明创建新账户。

登录账户后：

按照 Hugging Face 网站上的说明获取访问令牌。

The cover of the paper edition of "Pro Git" by Scott Chacon and Ben Straub. — 纸质版的封面。

Jina Embeddings v2 双语模型现已在 Hugging Face 开源

tag双语嵌入模型

tag在 Google Colab 上跟随学习

tag安装先决条件

tag访问 Hugging Face

tag角色互换：用英语查询德语文档

tag使用中文查询

tag未来展望：更多语言，包括编程语言