向量模型是 AI 界的灰姑娘

向量模型是 AI 领域的不受重视的孩子。它不像图像生成那样性感，也不像大模型聊天机器人那样引人注目，更不像对人工超智能的预测那样具有末日感。语义向量模型是深奥且技术性的，普通消费者对它们没有太多的直接用途。

向量模型是将语义转换为高维空间中的几何关系的向量。但是，尝试对不使用它们的人说这句话，看看他们的眼睛因无聊而变得呆滞。

但这并不意味着它们不重要，甚至不具有革命性。将文本的语义表示为高维空间中的向量自 20 世纪 50 年代以来就已存在，但具有 Transformer 架构的神经网络已将其扩展到语音、图像、视频和几乎所有类型的数字数据。在过去十年中，计算语义的质量改进是变革性的，并且对搜索引擎、推荐算法、自动分类器和决策系统的影响是巨大的，即使它们很少成为新闻。

在这个未被充分报道的革命中，人们忽略了一件事，即大多数神经网络，包括最近基于 Transformer 的神经网络，都隐含地是向量模型。大型语言模型、生成图像模型和机器翻译系统都通过将其输入转换为保留其基本语义的高维向量空间（即创建向量模型）来工作，然后使用它来产生输出。这些模型可以很容易地被重新用于生成用于信息检索和其他目的的向量模型。

在本文中，我们将讨论使用生成式语言模型（例如，大模型）来生成文本向量模型所涉及的主要问题，以及我们如何使用这项工作来改进我们的模型。

tag编码器和解码器

术语“编码器”和“解码器”在 AI 模型开发中经常被使用，但通常以非常令人困惑的方式使用。这些术语与电气工程和信息论中的概念相关，并且可以追溯到神经网络更具理论性而非实践性的时代。

在其最初的概念中，编码器将其输入转换为机器可用的形式，而解码器则相反，将数据转换为对人类更有用的东西。如果这看起来非常抽象，那是因为它确实如此。为了帮助理解，让我们看一些具体的例子。

在传统的数字电子产品（非 AI）中，编码器是一种设备，可以将丰富的输入源（如麦克风捕获的模拟声音）转换为可以存储在计算机内存、物理数字媒体上或通过互联网等数字网络传输的二进制序列。

导致向量模型和生成式 AI 的许多早期工作都在机器翻译领域，其基本架构与此图非常匹配。

您可以将向量模型视为编码器-解码器机器翻译模型的“编码器”一半，并添加了一个用于生成向量模型的适配器。

您可以将生成模型视为“解码器”的一半：

以这种方式思考神经网络模型可能非常违反直觉。数据建模、语义和压缩之间的关系是复杂且非常抽象的，但这对我们理解 AI 模型至关重要。编码器和解码器模型之间的区别在于它们的使用方式，而不是它们的架构。

tag基于 Transformer 的编码器和解码器是相同的

编码器和解码器是相当抽象的概念，但如果我们谈论的是基于 Transformer 的模型，那么它们都具有几乎相同的架构。

以下示例指示了生成式语言模型和文本向量模型，但进行一些小的更改后，同样的事情也适用于其他媒体类型。

仅编码器和仅解码器模型都将文本作为输入，并应用分词，然后进行向量化——本质上是在字典中查找词元并为每个词元替换适当的向量——然后根据需要添加填充。结果是模型其余部分的固定长度输入向量。

在仅解码器的生成式语言模型中，此输入向量被传递到 Transformer 模型，然后传递到解码器适配器，该适配器将其输出转换为一个或多个词元。然后，文本生成模型将这些新词元附加到输入并再次运行以添加更多词元。

除了编码器设备产生向量模型而不是解码器设备产生词元之外，几乎所有这些图都与基于 Transformer 的文本向量模型架构共享。

两者之间的主要区别本质上不是架构上的；而在于它们的训练方式和使用方式。

生成式语言模型通常是单向的（或“因果的”）：它们仅通过查看前一个词元来生成下一个词元。向量模型通常是双向的（或“非因果的”）。

这会影响它们的训练方式。生成式模型训练通过从一次传递给它一个词元的文本量中学习来反映这一点。向量模型通常使用“掩码语言建模”(MLM) 技术进行预训练，这意味着它们会查看间隙前后的单词以生成缺失单词的语义表示。

尽管如此，原则上，将生成式大模型转换为向量模型仅意味着用编码器替换解码器设备，并针对新用途对其进行微调。

那么，我们为什么不这样做呢？

tag基于 Transformer 的编码器和解码器是不同的

研究人员提出了三个不将生成式语言模型转换为文本向量模型的主要原因，但每一个原因最近都受到了质疑。

双向（“非因果”）注意力优于单向（“因果”）注意力。

自从开创性的 BERT 模型以来，我们一直理所当然地认为双向注意力优于单向注意力，仅仅是因为有更多的信息可用。该模型可以在其完整的上下文中查看词元，而不仅仅是在前一个单词的上下文中查看。

然而，更新的研究（Wang 等人，2023 年，Gisserot-Boukhlef 等人，2025 年）表明，双向和单向预训练之间的结果没有太大差异，尽管根据您正在查看的因素，每种方法都有一些小的优势。

生成式大模型受到维度灾难的影响，使其不擅长泛化。

大模型并非旨在成为良好的向量模型。它们的内部向量表示（隐藏层）通常比向量模型拥有的维度多得多。这些模型太大了，并且它们可能无法泛化，因为大的语义空间不必包含紧凑的表示。

这个问题有时被称为维度灾难，它困扰着神经网络。

💡

Lee et al. (2024) 讨论了维度灾难在 LLM 和向量模型中的应用。 Altman & Krzywinski (2018) 涵盖了“大数据”的问题，但这个想法可以追溯到 Hugues (1968) 在统计建模中的应用，以及 Bellman (1957) 在动态规划中的应用。

与向量模型不同，生成式语言模型是按曲线评分的。生成式模型不直接使用这些内部向量模型；它们使用通过将这些向量模型转换回词元而获得的语言。如果模型看起来流畅且连贯，我们会对其进行高度评价。相比之下，向量模型有实际的任务需要执行，这需要正确的泛化。因此，维度灾难对于生成式模型似乎并不那么重要，但对于向量模型来说是致命的。

然而，最近，生成式语言模型已经摆脱了一部分维度灾难的影响。具有少于 100 亿参数的高性能生成式小模型（SLM）现在非常普遍，尽管它们的动机更多是希望拥有更小、更高效的语言模型，而不是对向量模型感兴趣，但我们仍然可以利用它们来构建更好的模型。

人们已经尝试过了，但效果不是很好。

向量模型和生成式模型的对偶性并不新鲜，但是从生成式模型改编而来的向量模型通常比性能相当的向量模型大得多。OpenAI 在 2022 年改编了 GPT-3 用于向量模型，但是，尽管它拥有大约 1750 亿个参数，但其性能与经过 MLM 训练的、参数低于 10 亿的向量模型大致相当。

然而，NV-Embed 模型系列（NVIDIA 从 70 亿参数的 Mistral-7B SLM 改编而来）在标准向量模型基准测试中取得了最先进的性能。这足以证明改编生成式语言模型在实践中可以很好地工作。

tag改编生成式模型的优势

将解码器风格的生成式语言模型重新用于编码器风格的向量模型可能没有缺点，但至少在纸面上似乎也没有任何优势。但实际上，有一些切实的优势。

首先，生成式语言模型是大量研究和资金的重点，因为它们是人工智能中引人注目的部分。从它们改编而来的向量模型可以用很小的额外成本获得额外的关注和努力。与用于优化预训练模型的对比微调相比，从头开始开发和训练新的向量模型是一项昂贵的操作，因此这种纯粹的经济效益非常重要。

例如，我们最近发布的模型 jina-code-embeddings-1.5b 和 jina-code-embeddings-0.5b 是第一个基于代码生成主干的代码向量模型，特别是 Qwen2.5-Coder-1.5B 和 Qwen2.5-Coder-0.5B。我们大大提高了它们的向量模型性能，因为我们能够将所有注意力集中在训练它们以获得良好的向量模型上，而不是进行复杂且昂贵的预训练。

其次，可以将生成式模型的功能转移到新的领域。

jina-embeddings-v4 模型正是这样做的。它改编了 Qwen2.5-VL-3B-Instruct，这是一个拥有 38 亿参数的视觉语言模型，用于多模态向量模型。它作为图表、屏幕截图和其他视觉文档图像输入的向量模型所表现出的卓越性能，依赖于生成式模型预先存在的自然语言理解能力。我们没有从头开始训练一个模型，首先要理解语言，然后解析图像中的印刷文本，最后生成良好的向量模型，而是能够从预先存在的图像向量模型和生成式语言模型中转移知识，而是专注于向量模型任务的对比训练。

tag向量模型完成工作

在所有条件相同的情况下，使用生成式语言模型作为向量模型的主干并没有明显的优势。如果您必须从头开始构建文本向量模型，那么使用双向或单向预训练似乎没有太大区别。投资于数据质量、任务专业化和向量模型质量的微调更为重要。

但所有条件都不相同。

向量模型获得的资金远不如生成式语言模型，并且使用它们的模型作为我们的主干，使我们能够投入更多的精力来制作更好的向量模型，因为它们为预训练投入了大量资源。

向量模型面临着特殊的问题，因为它们没有生成式 AI 如此出名的令人印象深刻的演示。相反，它们在重要的、真实存在的用例中具有重要意义，在这些用例中，准确性、质量和成本至关重要。信息检索、分类任务、推荐系统、垃圾邮件和欺诈检测以及内容审核——所有这些都是向量模型现在正在做的实际工作。

向量模型并不那么引人注目，但它们确实完成了工作。因此，如果我们能够将 AI 中引人注目的部分中资金更充足的一些工作重新分配给那些不太受重视的部分，这似乎是相当公平的。