新闻
模型
API
keyboard_arrow_down
读取器
读取URL或搜索为大模型提供更好的依据。
向量模型
世界一流的多模态多语言向量模型。
重排器
世界一流的重排器,最大限度地提高搜索相关性。
MCP terminal命令行articlellms.txtsmart_toy代理人data_object模式menu_book文档



登录
login
warning
此模型已被较新的模型弃用。
向量模型
copyright CC BY-NC 4.0
open_in_new 发行说明

jina-embeddings-v3

最新、最好的向量化模型,在文本和代码上均具有最佳性能
许可证
copyright CC-BY-NC-4.0
发布日期
calendar_month
2024-09-18
输入
abc
文本
arrow_forward
输出
more_horiz
向量
支持的俄罗斯套娃维度 help_outline
32
64
128
256
512
768
1024
迟分技术 help_outline
check_circle
Yes
模型详细信息
参数: 570M
输入词元长度: 8K
输出维度: 1024
底座模型 help_outline
open_in_new
XLM-RoBERTa Large
训练过的语言 help_outline
32 语言
支持的语言 help_outline
108 语言
相关模型
link
jina-embeddings-v2-base-en
link
jina-embeddings-v2-base-zh
link
jina-embeddings-v2-base-de
link
jina-embeddings-v2-base-es
link
jina-embeddings-v2-base-code
支持的任务
search 检索
compare_arrows 文本匹配
call_split 分离
label 分类
标签
text-embedding
multilingual
high-dimension
long-context
production
base-model
matryoshka
lora-adapters
可通过以下方式获取
弹性推理服务Jina API亚马逊云微软云谷歌云抱抱脸
I/O 图

文本

jina-embeddings-v3

任务

向量

选择要比较的模型
论文 (3)
ACL 2025
十二月 17, 2024
AIR-Bench: Automated Heterogeneous Information Retrieval Benchmark
ECIR 2025
九月 18, 2024
jina-embeddings-v3: Multilingual Embeddings With Task LoRA
SIGIR 2025
九月 07, 2024
Late Chunking: Contextual Chunk Embeddings Using Long-Context Embedding Models

概述

Jina Embeddings v3 是一种突破性的多语言文本向量模型,它改变了组织处理跨语言文本理解和检索的方式。从本质上讲,它解决了在多种语言和任务中保持高性能,同时保持计算要求可控的关键挑战。该模型在效率至关重要的生产环境中尤其出色 - 它仅用 5.7 亿个参数就实现了最先进的性能,这使得无法承担较大模型计算开销的团队也可以使用它。需要构建可扩展的多语言搜索系统或跨语言障碍分析内容的组织会发现这个模型特别有价值。

方法

该模型的架构代表了向量技术的重大创新,它建立在具有 24 层的 jina-XLM-RoBERTa 基础上,并通过特定于任务的低秩自适应 (LoRA) 适配器进行了增强。LoRA 适配器是专门的神经网络组件,可针对不同的任务(如检索、分类或聚类)优化模型,而不会显着增加参数数量 - 它们使总参数增加不到 3%。该模型结合了 Matryoshka 表示学习 (MRL),允许将向量从 1024 维灵活地减少到 32 维,同时保持性能。训练涉及三个阶段:对来自 89 种语言的多语言文本进行初始预训练,对成对文本进行微调以提高向量质量,以及专门的适配器训练以优化任务。该模型通过旋转位置向量 (RoPE) 支持高达 8,192 个词元的上下文长度,并采用创新的基频调整技术来提高短文本和长文本的性能。

性能

该模型在实际测试中展现出卓越的效率性能比,在英语任务上的表现优于开源替代方案以及来自 OpenAI 和 Cohere 的专有解决方案,同时在多语言场景中也表现出色。最令人惊讶的是,它取得了比参数多 12 倍的 e5-mistral-7b-instruct 更好的结果,凸显了其卓越的效率。在 MTEB 基准评估中,它在所有任务中获得了 65.52 的平均分数,在分类准确率(82.58)和句子相似度(85.80)方面表现尤为出色。该模型在不同语言中保持一致的性能,在多语言任务上的得分为 64.44。当使用 MRL 进行降维时,即使在较低维度下也能保持强劲性能 - 例如,与完整的 1024 维相比,64 维可以保持 92% 的检索性能。

最佳实践

为了有效部署 Jina Embeddings v3,团队应考虑其特定用例以选择适当的任务适配器:搜索应用程序使用 retrieval.query 和 retrieval.passage,聚类任务使用分离,分类使用分类,语义相似性使用文本匹配。该模型需要具有 CUDA 功能的硬件才能获得最佳性能,但其高效的架构意味着它所需的 GPU 内存比更大的替代方案少得多。对于生产部署,AWS SageMaker 集成提供了一条简化的可扩展性路径。该模型在多语言应用程序中表现出色,但对于资源匮乏的语言可能需要额外的评估。虽然它支持多达 8,192 个词元的长文档,但对于非常长的文本,使用迟分技术功能可实现最佳性能。团队应避免将该模型用于需要实时生成或复杂推理的任务 - 它是为向量和检索而设计的,而不是文本生成或直接问答。
提及此模型的博客
九月 18, 2024 • 10 分钟的读取量
Jina Embeddings v3:前沿的多语言嵌入模型
jina-embeddings-v3 是一个前沿的多语言文本嵌入模型,拥有 5.7 亿参数和 8192 个 token 长度,在 MTEB 上的性能超过了 OpenAI 和 Cohere 最新的专有嵌入模型。
Jina AI
Dynamic image showing the characters "V3" formed by bright green dots varying in size on a black background.
三月 06, 2026 • 6 分钟的读取量
通过原始数值识别向量模型
一个通过读取原始数字来为向量模型提取指纹的微型 Transformer。无需特征工程。
Han Xiao
Fingerprint illustration made from numbers, showcasing digital and high-tech design on a light background.
二月 19, 2026 • 7 分钟的读取量
jina-embeddings-v5-text: New SOTA Small Multilingual Embeddings
Two sub-1B multilingual embeddings with best-in-class performance, available on Elastic Inference Service, Llama.cpp and MLX.
Han Xiao
Abstract digital artwork in black and white, featuring scattered dots forming letters in a halftone effect. The central lette
十月 03, 2025 • 7 分钟的读取量
Jina Reranker v3:用于 SOTA 多语言检索的 0.6B Listwise 重排器
全新 0.6B 参数的 listwise 重排器,可在单个上下文窗口中考虑查询和所有候选文档。
Jina AI
Light blue background with stylized text in the center, composed of small dots or squares, evoking a modern and minimalistic
九月 04, 2025 • 6 分钟的读取量
Jina Code Embeddings:0.5B 和 1.5B 参数规模下的 SOTA 代码检索向量模型
代码生成大模型 → 代码向量模型:0.5B/1.5B 模型在 25 个代码检索基准测试中实现了 SOTA 性能。
Jina AI
Green "Code Embeddings" text displayed in a LED dot style on a black background, evoking a futuristic and technological atmos
办公室
location_on
加利福尼亚州桑尼维尔
710 Lakeway Dr, Ste 200, 桑尼维尔, 加州 94085, 美国
location_on
德国柏林
Prinzessinnenstraße 19-20,10969 柏林,德国
搜索底座
读取器
向量模型
重排器
获取 Jina API 密钥
速率限制
API 状态
公司
关于我们
联系销售
新闻
实习生项目
下载 Jina 标志
open_in_new
下载 Elastic 徽标
open_in_new
条款
安全
条款及条件
隐私
管理 Cookie
email
Elastic Jina AI © 2020-2026.