新闻
模型
产品
keyboard_arrow_down
读取器
读取URL或搜索为大模型提供更好的依据。
向量模型
世界一流的多模态多语言向量模型。
重排器
世界一流的重排器,最大限度地提高搜索相关性。
深度搜索
搜索、读取并推理直到找到最佳答案。
更多的
keyboard_arrow_down
分类器
图片和文本的零样本和少样本分类。
切分器
将长文本切分成块或词元。

API 文档
为您的AI 编程助手 IDE 或大模型自动生成代码
open_in_new


公司
keyboard_arrow_down
关于我们
联系销售
实习生计划
加入我们
open_in_new
下载Logo
open_in_new
条款及条件


登录
login
warning
此模型已被较新的模型弃用。

jina-embeddings-v2-base-en

与 OpenAI 的 text-embedding-ada002旗鼓相当
发行说明arrow_forward
许可证
license
Apache-2.0
发布日期
calendar_month
2023-10-28
输入
abc
文本
arrow_forward
输出
more_horiz
向量
模型详细信息
参数: 137M
输入词元长度: 8K
输出维度: 768
语言支持
🇺🇸 英语
相关模型
link
jina-embedding-b-en-v1
link
jina-embeddings-v3
标签
text-embeddings
english
long-context
production-ready
multi-task-learning
semantic-search
document-retrieval
high-performance
bert-based
fine-tunable
rag-optimized
8k-context
可通过以下方式获取
Jina API亚马逊云微软云抱抱脸
选择要比较的模型
出版物 (3)
SIGIR 2025
九月 07, 2024
Late Chunking: Contextual Chunk Embeddings Using Long-Context Embedding Models
arXiv
二月 26, 2024
Multi-Task Contrastive Learning for 8192-Token Bilingual Text Embeddings
arXiv
十月 30, 2023
Jina Embeddings 2: 8192-Token General-Purpose Text Embeddings for Long Documents

概述

Jina Embeddings v2 Base English 是一种突破性的开源文本向量模型,它解决了处理长文档同时保持高准确率的关键挑战。那些难以分析大量法律文件、研究论文或财务报告的组织会发现这个模型特别有价值。它以处理长度高达 8,192 个词元的文档而脱颖而出——比传统模型长 16 倍——同时性能与 OpenAI 的专有解决方案相匹配。它体积小巧,仅为 0.27GB,资源利用率高,为寻求实施高级文档分析而无需过多计算开销的团队提供了一个可访问的解决方案。

方法

该模型的架构将 BERT Small 主干与创新的对称双向 ALiBi(具有线性偏差的注意力机制)机制相结合,消除了对传统位置向量的需求。这种架构选择使模型能够推断出远远超出其 512 个词元的训练长度,处理多达 8,192 个词元的序列而不会降低性能。训练过程涉及两个关键阶段:在 C4 数据集上进行初始预训练,然后在 Jina AI 精选的 40 多个专业数据集上进行细化。这些多样化的训练数据(包括具有挑战性的负面示例和不同的句子对)确保了在不同领域和用例中的稳健性能。该模型生成 768 维密集向量,可捕捉细微的语义关系,使用相对适中的 137M 个参数实现。

性能

在实际测试中,Jina Embeddings v2 Base English 在多个基准测试中展现出卓越的能力。它在几个关键指标上都优于 OpenAI 的 text-embedding-ada-002:分类(73.45% vs 70.93%)、重排(85.38% vs 84.89%)、检索(56.98% vs 56.32%)和摘要(31.6% vs 30.8%)。这些数字在文档分类等任务中转化为实际优势,其中模型显示出对复杂文本进行分类的卓越能力,并在搜索应用中,它更好地理解用户查询并找到相关文档。但是,用户应注意,在处理训练数据中未表示的高度专业化领域特定内容时,性能可能会有所不同。

最佳实践

为了有效部署 Jina Embeddings v2 Base English,团队应考虑几个实际方面。该模型需要支持 CUDA 的硬件才能获得最佳性能,但其高效的架构意味着它可以在消费级 GPU 上运行。它可通过多种渠道获得:直接从 Hugging Face 下载、AWS Marketplace 部署或带有 1000 万个免费词元的 Jina AI API。对于生产部署,us-east-1 区域中的 AWS SageMaker 提供了最具可扩展性的解决方案。该模型擅长通用文本分析,但对于未经微调的高度专业化的科学术语或领域特定术语,可能不是最佳选择。处理长文档时,请考虑将它们分解为有意义的语义块,而不是任意拆分以保持上下文完整性。为获得最佳结果,请实施适当的文本预处理并确保输入数据干净、格式良好。
提及此模型的博客
十二月 17, 2024 • 12 分钟的读取量
文本嵌入无法捕捉词序问题及其解决方案
文本嵌入模型在捕捉细微的语言细节方面仍存在困难,例如词序、方向关系、时间序列、因果关系、比较关系以及否定语义。理解这些挑战对于提升模型性能至关重要。
Bo Wang
Alex C-G
Three abstract figures in white, gray, and pink on matching cubes placed on a colorful checkered surface against a green back
十月 25, 2024 • 19 分钟的读取量
使用小型语言模型在长文档中寻找最优分隔点
我们训练了三个小型语言模型来更好地将长文档分割成块,以下是我们学到的关键经验。
Andrei Ungureanu
Alex C-G
A pattern of yellow file icons on a blue background with one icon displaying a smiley face creating an emotive contrast.
十月 15, 2024 • 9 分钟的读取量
使用 Jina Reader 的新 Grounding API 进行事实核查
借助新的 g.jina.ai,你可以轻松地对语句进行验证,从而减少 LLM 的幻觉问题或提高人工撰写内容的准确性。
Jina AI
Jina developer interface showing "Jina AI was founded in 2020" with controls labeled true and false, and web address on top.
九月 27, 2024 • 15 分钟的读取量
从 Jina Embeddings v2 迁移到 v3
我们收集了一些帮助你从 Jina Embeddings v2 迁移到 v3 的提示。
Alex C-G
Scott Martens
A digital upgrade theme with "V3" and a white "2", set against a green and black binary code background, with "Upgrade" centr
九月 18, 2024 • 10 分钟的读取量
Jina Embeddings v3:前沿的多语言嵌入模型
jina-embeddings-v3 是一个前沿的多语言文本嵌入模型,拥有 5.7 亿参数和 8192 个 token 长度,在 MTEB 上的性能超过了 OpenAI 和 Cohere 最新的专有嵌入模型。
Jina AI
Dynamic image showing the characters "V3" formed by bright green dots varying in size on a black background.
办公室
location_on
加利福尼亚州桑尼维尔
710 Lakeway Dr, Ste 200, 桑尼维尔, CA 94085, 美国
location_on
德国柏林(总部)
Prinzessinnenstraße 19-20,10969 柏林,德国
location_on
中国北京
中国北京市海淀区西大街48号6号楼5层
location_on
中国深圳
中国深圳市赋安科技大厦4楼402
搜索底座
读取器
向量模型
重排器
深度搜索
分类器
切分器
API 文档
获取 Jina API 密钥
速率限制
API 状态
公司
关于我们
联系销售
新闻
实习生计划
加入我们
open_in_new
下载Logo
open_in_new
条款
安全
条款及条件
隐私
管理 Cookie
email
Jina AI © 2020-2025.