新闻
模型
产品
keyboard_arrow_down
读取器
读取URL或搜索为大模型提供更好的依据。
向量模型
世界一流的多模态多语言向量模型。
重排器
世界一流的重排器,最大限度地提高搜索相关性。
深度搜索
搜索、读取并推理直到找到最佳答案。
更多的
keyboard_arrow_down
分类器
图片和文本的零样本和少样本分类。
切分器
将长文本切分成块或词元。

API 文档
为您的AI 编程助手 IDE 或大模型自动生成代码
open_in_new


公司
keyboard_arrow_down
关于我们
联系销售
实习生计划
加入我们
open_in_new
下载Logo
open_in_new
条款及条件


登录
login
warning
此模型已被较新的模型弃用。

jina-embeddings-v2-base-es

支持西英双语的 8K 最佳向量模型
发行说明arrow_forward
许可证
license
Apache-2.0
发布日期
calendar_month
2024-02-14
输入
abc
文本
arrow_forward
输出
more_horiz
向量
模型详细信息
参数: 161M
输入词元长度: 8K
输出维度: 768
语言支持
🇺🇸 英语
🇪🇸 Español
相关模型
link
jina-embeddings-v2-base-en
link
jina-embeddings-v2-base-de
link
jina-embeddings-v2-base-zh
标签
spanish
bilingual
long-context
8k-context
bert-based
production-ready
semantic-search
cross-lingual
text-embeddings
fine-tunable
可通过以下方式获取
Jina API亚马逊云微软云抱抱脸
选择要比较的模型
出版物 (1)
arXiv
二月 26, 2024
Multi-Task Contrastive Learning for 8192-Token Bilingual Text Embeddings

概述

Jina Embeddings v2 Base Spanish 是一种突破性的双语文本向量模型,可解决西班牙语和英语内容之间的跨语言信息检索和分析这一关键挑战。与通常偏向特定语言的传统多语言模型不同,该模型在西班牙语和英语之间实现了真正平衡的性能,对于在西班牙语市场运营或处理双语内容的组织来说,它是必不可少的。该模型最引人注目的特点是它能够生成几何对齐的向量 - 当西班牙语和英语文本表达相同的含义时,它们的向量表示会自然地聚集在向量空间中,从而实现无缝的跨语言搜索和分析。

方法

该模型的核心是基于对称双向 ALiBi(具有线性偏差的注意力机制)的创新架构,这是一种复杂的方法,无需传统的位置向量即可处理多达 8,192 个词元的序列。该模型采用具有 161M 个参数的改进的 BERT 架构,结合了门控线性单元 (GLU) 和专门的层规范化技术。训练遵循三个阶段的过程:首先在海量文本语料库上进行预训练,然后使用精心挑选的文本对进行微调,最后进行硬负训练以增强对相似但语义不同的内容的区分。这种方法与 768 维向量相结合,使模型能够捕捉细微的语义关系,同时保持计算效率。

性能

在综合基准评估中,该模型表现出卓越的能力,特别是在跨语言检索任务中,尽管其规模只有 E5 和 BGE-M3 等大型多语言模型的 15-30%,但其表现却优于后者。该模型在检索和聚类任务中表现出色,在跨语言匹配语义等效内容方面表现出色。在 MTEB 基准测试中,它在分类、聚类和语义相似性等各种任务中表现出色。8,192 个词元的扩展上下文窗口对于长文档处理尤其有价值,即使文档跨越多页,也能表现出一致的性能——这是大多数竞争模型所缺乏的能力。

最佳实践

为了有效利用该模型,组织应确保能够访问支持 CUDA 的 GPU 基础架构以获得最佳性能。该模型与主要的矢量数据库和 RAG 框架(包括 MongoDB、Qdrant、Weaviate 和 Haystack)无缝集成,使其可轻松部署到生产环境中。它在双语文档搜索、内容推荐系统和跨语言文档分析等应用中表现出色。虽然该模型表现出色,但它特别针对西班牙语-英语双语场景进行了优化,可能不是单语应用或涉及其他语言对的场景的最佳选择。为了获得最佳效果,输入文本应以西班牙语或英语正确格式化,但该模型可以有效处理混合语言内容。该模型支持针对特定领域的应用程序进行微调,但应仔细考虑训练数据的质量和分布。
提及此模型的博客
四月 29, 2024 • 7 分钟的读取量
Jina Embeddings 和 Reranker 在 Azure 上:可扩展的企业级 AI 解决方案
Jina Embeddings 和 Rerankers 现已在 Azure Marketplace 上线。重视隐私和安全的企业现在可以在其现有的 Azure 生态系统中轻松集成 Jina AI 的最先进模型。
Susana Guzmán
Futuristic black background with a purple 3D grid, featuring the "Embeddings" and "Reranker" logos with a stylized "A".
二月 14, 2024 • 4 分钟的读取量
在此说西班牙语:高质量的西班牙语-英语 Embeddings 及 8k 上下文
Jina AI 的新型西班牙语-英语双语 embedding 模型为超过 5 亿西班牙语使用者带来了人工智能的前沿技术。
Jina AI
Digital wireframe rendering of a Gothic-style cathedral, with colorful outlines and pointed spires on a dark background.
办公室
location_on
加利福尼亚州桑尼维尔
710 Lakeway Dr, Ste 200, 桑尼维尔, CA 94085, 美国
location_on
德国柏林(总部)
Prinzessinnenstraße 19-20,10969 柏林,德国
location_on
中国北京
中国北京市海淀区西大街48号6号楼5层
location_on
中国深圳
中国深圳市赋安科技大厦4楼402
搜索底座
读取器
向量模型
重排器
深度搜索
分类器
切分器
API 文档
获取 Jina API 密钥
速率限制
API 状态
公司
关于我们
联系销售
新闻
实习生计划
加入我们
open_in_new
下载Logo
open_in_new
条款
安全
条款及条件
隐私
管理 Cookie
email
Jina AI © 2020-2025.