新闻
模型
产品
keyboard_arrow_down
读取器
读取URL或搜索为大模型提供更好的依据。
向量模型
世界一流的多模态多语言向量模型。
重排器
世界一流的重排器,最大限度地提高搜索相关性。
深度搜索
搜索、读取并推理直到找到最佳答案。
更多的
keyboard_arrow_down
分类器
图片和文本的零样本和少样本分类。
切分器
将长文本切分成块或词元。

MCP 服务器
添加 mcp.jina.ai 到您的MCP工具箱,让大模型学用我们的API
open_in_new
API 文档
为您的AI 编程助手 IDE 或大模型自动生成代码
open_in_new


公司
keyboard_arrow_down
关于我们
联系销售
实习生项目
条款及条件
下载Logo
open_in_new



登录
login
warning
此模型已被较新的模型弃用。
向量模型
open_in_new 发行说明

jina-embeddings-v2-base-zh

支持中英双语的 8K 最佳向量模型
许可证
license Apache-2.0
发布日期
calendar_month
2024-01-09
输入
abc
文本
arrow_forward
输出
more_horiz
向量
模型详细信息
参数: 161M
输入词元长度: 8K
输出维度: 768
语言支持
🇺🇸 英语
🇨🇳 中文
相关模型
link
jina-embeddings-v2-base-en
link
jina-embeddings-v3
标签
text-embedding
chinese
multilingual
base-model
production
long-context
high-dimension
可通过以下方式获取
Jina API亚马逊云微软云抱抱脸
选择要比较的模型
论文 (1)
arXiv
二月 26, 2024
Multi-Task Contrastive Learning for 8192-Token Bilingual Text Embeddings

概述

Jina Embeddings v2 Base Chinese 开创了先河,成为第一个无缝处理中文和英文文本的开源模型,其上下文长度达到前所未有的 8,192 个 token。这个强大的双语模型解决了全球商业面临的一个关键挑战:需要准确、长篇文档处理中文和英文内容。与传统模型难以进行跨语言理解或需要为每种语言建立单独的模型不同,该模型将两种语言的等效含义映射到同一个向量空间,这对于在全球范围内扩张或管理多语言内容的组织来说非常有价值。

方法

该模型的架构将基于 BERT 的主干与对称双向 ALiBi(具有线性偏差的注意力机制)相结合,从而能够高效处理长序列,而不受传统 512 个 token 的限制。训练过程遵循精心策划的三阶段方法:首先在高质量双语数据上进行预训练,然后进行主要和次要微调阶段。这种有条不紊的训练策略,加上模型的 161M 参数和 768 维输出,实现了卓越的效率,同时保持了两种语言的平衡性能。对称双向 ALiBi 机制代表了一项重大创新,使模型能够处理长度高达 8,192 个 token 的文档——这一功能以前仅限于专有解决方案。

性能

在中文 MTEB (C-MTEB) 排行榜的基准测试中,该模型在 0.5GB 以下的模型中表现出色,尤其是在中文任务中表现出色。它在中文特定应用中的表现明显优于 OpenAI 的 text-embedding-ada-002,同时在英语任务中保持了竞争力。此版本中的一个显着改进是改进了相似度分数分布,解决了预览版本中存在的分数膨胀问题。该模型现在提供更独特、更合乎逻辑的相似度分数,确保更准确地表示文本之间的语义关系。这种增强在比较测试中尤为明显,其中模型在两种语言中对相关和不相关内容表现出更好的区分能力。

最佳实践

该模型需要 322MB 的存储空间,可通过多种渠道部署,包括 AWS SageMaker(us-east-1 区域)和 Jina AI API。虽然 GPU 加速不是强制性的,但它可以显著提高生产工作负载的处理速度。该模型在文档分析、多语言搜索和跨语言信息检索等各种应用中表现出色,但用户应注意,它专门针对中英双语场景进行了优化。为了获得最佳效果,输入文本应正确分段,虽然该模型最多可以处理 8,192 个词元,但建议将极长的文档分解为具有语义意义的块以获得更好的性能。该模型可能不适合需要实时处理非常短的文本的任务,在这些任务中,低延迟的专用模型可能更合适。
提及此模型的博客
四月 29, 2024 • 7 分钟的读取量
Jina Embeddings 和 Reranker 在 Azure 上:可扩展的企业级 AI 解决方案
Jina Embeddings 和 Rerankers 现已在 Azure Marketplace 上线。重视隐私和安全的企业现在可以在其现有的 Azure 生态系统中轻松集成 Jina AI 的最先进模型。
Susana Guzmán
Futuristic black background with a purple 3D grid, featuring the "Embeddings" and "Reranker" logos with a stylized "A".
二月 28, 2024 • 3 分钟的读取量
基于多任务对比学习的双语文本嵌入革新
我们的新论文探讨了我们的西班牙语-英语和德语-英语模型如何使用多任务对比学习和复杂的数据流程,来掌握长度达 8192 个 token 的文本的语言理解和跨语言处理能力
Jina AI
Composite image of four colorful, stylized landmarks: Brandenburg Gate, St. Peter's Basilica, Tiananmen, and Golden Gate Brid
一月 31, 2024 • 16 分钟的读取量
深入理解 Tokenization
在 LLM 中,Tokenization 指的是将输入文本切分成更小的部分以进行处理。那么为什么嵌入计费是按 token 收费的呢?
Scott Martens
Colorful speckled grid pattern with a mix of small multicolored dots on a black background, creating a mosaic effect.
一月 26, 2024 • 13 分钟的读取量
Jina Embeddings v2 双语模型现已在 Hugging Face 开源
Jina AI 开源的德英和中英双语 embedding 模型现已在 Hugging Face 上线。 我们将介绍如何安装和进行跨语言检索。
Scott Martens
Colorful "EMBEDDINGS" text above a pile of yellow smileys on a black background with decorative lines at the top.
一月 09, 2024 • 12 分钟的读取量
突破中英语言障碍的 8K Token 长度双语嵌入向量
首个支持 8192 token 长度的中英双语 embedding 模型
Jina AI
Colorful 3D text "OPEN" in green and blue on a black background creating a vibrant effect
办公室
location_on
加利福尼亚州桑尼维尔
710 Lakeway Dr, Ste 200, 桑尼维尔, 加州 94085, 美国
location_on
德国柏林(总部)
Prinzessinnenstraße 19-20,10969 柏林,德国
搜索底座
读取器
向量模型
重排器
深度搜索
分类器
切分器
获取 Jina API 密钥
速率限制
API 状态
公司
关于我们
联系销售
新闻
实习生项目
下载Logo
open_in_new
条款
安全
条款及条件
隐私
管理 Cookie
email
Jina AI © 2020-2025.