新闻
模型
产品
keyboard_arrow_down
读取器
读取URL或搜索为大模型提供更好的依据。
向量模型
世界一流的多模态多语言向量模型。
重排器
世界一流的重排器,最大限度地提高搜索相关性。
深度搜索
搜索、读取并推理直到找到最佳答案。
更多的
keyboard_arrow_down
分类器
图片和文本的零样本和少样本分类。
切分器
将长文本切分成块或词元。

API 文档
为您的AI 编程助手 IDE 或大模型自动生成代码
open_in_new


公司
keyboard_arrow_down
关于我们
联系销售
实习生计划
加入我们
open_in_new
下载Logo
open_in_new
条款及条件


登录
login
模型架构
跨模态检索性能
纯文本密集检索器性能
套娃表示性能
快速开始
结论
star
甄选
新闻稿
十一月 21, 2024

Jina CLIP v2:用于文本和图像的多语言多模态嵌入

Jina-CLIP v2,这是一个 0.9B 参数的多模态嵌入模型,支持 89 种语言的多语言处理,可处理 512x512 的高分辨率图像,并具有俄罗斯套娃式表征能力。
Jina AI
Jina AI • 8 分钟的读取量
jinaai/jina-clip-v2 · Hugging Face
我们正在通过开源和开放科学推进和普及人工智能。
Jina AI - 您的搜索底座,超级加强版
同类最佳的嵌入、重排序器、LLM 阅读器、网页抓取器、分类器。适用于多语言和多模态数据的最佳搜索 AI。
您的搜索底座,超级加强版

jina-clip-v2 API 可在"Embeddings"标签页下使用。

多模态嵌入通过统一的表示方式实现了跨不同模态数据的搜索和理解。它们是神经信息检索和多模态生成式 AI 应用的基础。今天,我们很高兴发布 jina-clip-v2,这是一个基于 jina-clip-v1 和我们最近发布的 jina-embeddings-3 构建的新型通用多语言多模态嵌入,具有以下几个关键改进:

  • 性能提升:v2 在文本-图像和文本-文本检索任务中相比 v1 提升了 3% 的性能。与 v1 类似,v2 的文本编码器可以作为有效的多语言长文本密集检索器。它的性能与我们的前沿模型 jina-embeddings-v3(目前在 MTEB 上参数量低于 1B 的最佳多语言嵌入)相当。
  • 多语言支持:以 jina-embeddings-v3 作为文本塔,jina-clip-v2 支持 89 种语言的多语言图像检索,在多语言图像检索任务上相比 nllb-clip-large-siglip 提升了高达 4% 的性能。
  • 更高图像分辨率:v2 现在支持 512x512 的输入图像分辨率,相比 v1 的 224x224 有显著提升。这种更高的分辨率能够更好地处理细节图像,提升特征提取能力,并更准确地识别细粒度视觉元素。
  • 套娃式表示:v2 允许用户将文本和图像嵌入的输出维度从 1024 截断到 64,在保持强大性能的同时减少存储和处理开销。

tag模型架构

jina-clip-v2 是一个 0.9B 参数的 CLIP 风格模型,它结合了两个强大的编码器:文本编码器 Jina XLM-RoBERTa(jina-embeddings-v3 的骨干网络)和视觉编码器 EVA02-L14(由 BAAI 开发的高效视觉 Transformer)。这些编码器经过联合训练,创建图像和文本的对齐表示。

Feature Text Encoder Image Encoder
Base Model Jina XLM-RoBERTa EVA02-L
Parameters 561M 304M
Input Specification 8,192 tokens (max) 512×512 pixels
Min Output Dimensions 64 64
Max Output Dimensions 1,024 1,024
Layers 24 24
Attention Mechanism FlashAttention2 xFormers
Pooling Strategy Mean pooling CLS pooling
Additional Features 89 languages supported Patch size 14x14

tag跨模态检索性能

Jina CLIP v2 支持 89 种语言,在主要语言(包括阿拉伯语、中文、英语、法语、德语、日语、俄语和西班牙语)中都表现出色。在多语言图像检索基准测试中,它的性能能够匹配或超过 NLLB-CLIP-SigLIP,后者是一个稍大的(1.3B,比 jina-clip-v2 大 44%)最先进的 CLIP 风格模型,使用来自 NLLB 模型的预训练文本编码器。

tag仅英语文本和图像

在标准跨模态检索基准(Flickr30k 和 COCO)上,jina-clip-v2 展现了全面的性能提升。它在 Flickr30k 图像到文本检索上达到了 98.0% 的最先进性能,超过了其前身和 NLLB-CLIP-SigLIP。该模型在所有检索场景中都显示出一致的提升,在 COCO 图像到文本检索上相比 v1 提升了高达 3.3%,同时在不同基准和模态方向上保持与 NLLB-CLIP-SigLIP 的竞争性能。

Flickr30k Recall@5 性能:

Task Model Score Relative to v1 Relative to NLLB
Image-to-text jina-clip-v2 98.0 +1.7% +0.9%
jina-clip-v1 96.4 - -0.7%
nllb-siglip-large 97.1 - -
Text-to-image jina-clip-v2 89.8 +0.9% -2.6%
jina-clip-v1 89.0 - -3.5%
nllb-siglip-large 92.2 - -

COCO Recall@5 性能:

Task Model Score Relative to v1 Relative to NLLB
Image-to-text jina-clip-v2 81.5 +3.3% +2.9%
jina-clip-v1 78.9 - -0.4%
nllb-siglip-large 79.2 - -
Text-to-image jina-clip-v2 68.4 +2.9% -3.4%
jina-clip-v1 66.5 - -6.1%
nllb-siglip-large 70.8 - -

tag多语言文本和图像

在多语言跨模态基准测试中,jina-clip-v2 展现了强大的性能,特别是在图像到文本检索方面表现出色,在所有数据集上都优于 NLLB-SigLIP,在 Crossmodal 3600 上提升高达 3.8%。虽然 NLLB-SigLIP 在文本到图像检索能力上略强,但性能差距仍然很小,通常在 3% 以内。

图像到文本召回率@5 性能:

基准测试 模型 得分 相比 NLLB
Crossmodal 3600 jina-clip-v2 83.23 +3.8%
nllb-siglip-large 80.16 -
Multilingual MS Coco jina-clip-v2 86.03 +0.8%
nllb-siglip-large 85.37 -
XTD10 jina-clip-v2 85.98 +0.7%
nllb-siglip-large 85.41 -

文本到图像召回率@5 性能:

基准测试 模型 得分 相比 NLLB
Crossmodal 3600 jina-clip-v2 81.43 -0.8%
nllb-siglip-large 82.07 -
Multilingual MS Coco jina-clip-v2 84.87 -3.1%
nllb-siglip-large 87.60 -
XTD10 jina-clip-v2 85.03 -3.0%
nllb-siglip-large 87.63 -

tag纯文本密集检索器性能

与其前代产品类似,jina-clip-v2 的文本编码器可以作为一个有效的多语言密集检索器。在综合性的多语言 MTEB 基准测试中,它表现出色,在检索任务中达到 69.86%,在语义相似度任务中达到 67.77%。这些结果展示了它的多功能性,与我们专门的文本嵌入模型 jina-embeddings-v3 相比表现具有竞争力:

任务 模型 得分 相比 v3
检索 jina-clip-v2 69.86 -3.8%
jina-embeddings-v3 72.59 -
语义相似度 jina-clip-v2 67.77 -2.9%
jina-embeddings-v3 69.81 -

在英语任务中,jina-clip-v2 相比其前代产品和 NLLB-SigLIP 都显示出持续的改进,在检索性能方面表现尤为突出(几乎是 NLLB-SigLIP 分数的两倍)。

任务 模型 得分 相比 v1
STS jina-clip-v2 81.29 +0.5%
jina-clip-v1 80.92 -
nllb-siglip-large 74.65 -
检索 jina-clip-v2 49.33 +2.1%
jina-clip-v1 48.33 -
nllb-siglip-large 24.92 -

tag套娃表示性能

文本和图像编码器都支持 MRL,它们的输出维度可以被截断至 64 维度的同时保持强劲的性能。我们的嵌入截断评估显示出显著的压缩潜力。即使是激进的 75% 维度削减也能在文本、图像和跨模态任务中保持超过 99% 的性能。

tag图像分类

在 37 个多样化的图像分类基准测试中,图像编码器表现出对维度截断的强大适应性。从 1024 维压缩到 64 维(94% 的压缩率)仅导致 top-5 准确率下降 8%,top-1 准确率下降 12.5%,突显了其在最小性能损失下高效部署的潜力。

对于图像分类,我们使用了 VTAB 数据集中的 19 个基准测试、VOC 2007、SUN397、STL10、Rendered SST2、ObjectNet、MNIST、德国交通标志识别基准(GTSRB)、飞机细粒度视觉分类(FGVC-Aircraft)、FER 2013、Country211、Cars196、ImageNet-A、ImageNet-O、ImageNet1k、ImageNet Sketch和ImageNet v2。

tag跨模态检索

尽管维度大幅减少了 94%(降至仅 64 维),使用截断后的图像和文本嵌入进行的跨模态检索仍然表现出色,保持了 93% 的图像到文本和 90% 的文本到图像性能。

我们使用了六个基准测试,其中三个是多语言的:Crossmodal-3600(36 种语言)、flickr30k(仅英语)、flickr8k(仅英语)、MS COCO Captions(仅英语)、Multilingual MS COCO Captions(10 种语言)、XTD 200(27 种语言)

tag纯文本检索

在仅英语的 MTEB 基准测试中,64 维文本嵌入(从 1024 维压缩而来)很好地保持了语义相似性,仅下降 2.1%,而检索性能则适度降低了 17.5%。

tag快速开始

tag通过 API

以下代码演示了如何使用 Python 的 requests 生成嵌入。传入文本字符串和 base64 图像或 URL,以及所需的维度大小(默认 1024,下面示例中为 768)。

import requests
import numpy as np
from numpy.linalg import norm

cos_sim = lambda a,b: (a @ b.T) / (norm(a)*norm(b))

url = 'https://api.jina.ai/v1/embeddings'

headers = {
  'Content-Type': 'application/json',
  'Authorization': 'Bearer <YOUR_JINA_AI_API_KEY>'
}

data = {
  'input': [
     {"text": "Bridge close-shot"},
     {"url": "https://fastly.picsum.photos/id/84/1280/848.jpg?hmac=YFRYDI4UsfbeTzI8ZakNOR98wVU7a-9a2tGF542539s"}],
  'model': 'jina-clip-v2',
  'encoding_type': 'float',
  'dimensions': '768' 
}

response = requests.post(url, headers=headers, json=data)
sim = cos_sim(np.array(response.json()['data'][0]['embedding']), np.array(response.json()['data'][1]['embedding']))
print(f"Cosine text<->image: {sim}")

请记得将 <YOUR_JINA_AI_API_KEY> 替换为已激活的 Jina API 密钥。您可以在这里获取一个包含一百万个免费令牌的 API 密钥。

tag图像令牌定价

我们的 API 会计算文本和图像令牌。对于图像,令牌消耗基于覆盖整个图像区域所需的 512x512 像素切片数量。每个切片需要 4,000 个令牌来处理,包括部分填充的切片。为了获得最佳成本效益,我们建议 API 用户在发送请求前将图像调整为 512x512。

图像分辨率 所需切片数 令牌成本
512x512 1 4,000
720x720 4 16,000
1080x1080 9 36,000
对于方形图像,调整为 512x512 可获得最佳成本效益。对于需要保持宽高比的任务,将最长边缩放到 512,居中图像,并用黑色填充。对于一般用途,直接调整为 512x512 效果很好。

tag通过 CSP 市场

Jina CLIP v2 可直接在 AWS、Azure 和 GCP 上使用,价格以各平台列出的为准。

AWS Marketplace: Jina CLIP v2
Microsoft Azure Marketplace
Google Cloud console
在 Google Cloud Marketplace 上明智消费、快速采购并利用 Google Cloud 承诺的支出。浏览目录中超过 2000 个优化运行在 Google Cloud 上的 SaaS、VM、开发堆栈和 Kubernetes 应用。

tag通过 VectorDB

构建智能 AI 的向量数据库 | Pinecone
在毫秒内搜索数十亿个项目中与任何对象相似的匹配。这是下一代搜索,只需一个 API 调用即可。
Pinecone Docs
多模态嵌入 | Weaviate
Weaviate 与 Jina AI 的 API 集成允许您直接从 Weaviate 访问其模型的功能。
Weaviate
Jina Embeddings - Qdrant
Qdrant 是一个用 Rust 编写的开源向量数据库和向量搜索引擎。它提供快速且可扩展的向量相似度搜索服务,并具有便捷的 API。
editQdrant

tag结论

在 6 月发布的 jina-clip-v1(将 OpenAI 的 CLIP 模型文本输入扩展到 8,192 个 token)和前沿多语言模型 jina-embeddings-v3 的基础上,jina-clip-v2 带来了三个主要进展:支持 89 种语言的多语言功能、提升到 512x512 的图像分辨率,以及用于更多截断嵌入的套娃表示学习。

类 CLIP 模型已经成为通用多模态应用的基础。通过 jina-clip-v2,我们将这些功能提升到了新的水平,打破语言障碍,实现更准确的跨模态理解和检索。我们相信这次发布兑现了承诺,让全球开发者能够使用更强大、更易用的多模态搜索和检索功能。

类别:
star
甄选
新闻稿
rss_feed
办公室
location_on
加利福尼亚州桑尼维尔
710 Lakeway Dr, Ste 200, 桑尼维尔, CA 94085, 美国
location_on
德国柏林(总部)
Prinzessinnenstraße 19-20,10969 柏林,德国
location_on
中国北京
中国北京市海淀区西大街48号6号楼5层
location_on
中国深圳
中国深圳市赋安科技大厦4楼402
搜索底座
读取器
向量模型
重排器
深度搜索
分类器
切分器
API 文档
获取 Jina API 密钥
速率限制
API 状态
公司
关于我们
联系销售
新闻
实习生计划
加入我们
open_in_new
下载Logo
open_in_new
条款
安全
条款及条件
隐私
管理 Cookie
email
Jina AI © 2020-2025.