新闻
模型
产品
keyboard_arrow_down
深度搜索
搜索、读取并推理直到找到最佳答案。
读取器
读取URL或搜索为大模型提供更好的依据。
向量模型
世界一流的多模态多语言向量模型。
重排器
世界一流的重排器,最大限度地提高搜索相关性。
更多的
keyboard_arrow_down
分类器
图片和文本的零样本和少样本分类。
切分器
将长文本切分成块或词元。

API 文档
为您的AI 编程助手 IDE 或大模型自动生成代码
open_in_new


公司
keyboard_arrow_down
关于我们
联系销售
实习生计划
加入我们
open_in_new
下载Logo
open_in_new
条款及条件


登录
login
warning
此模型已被较新的模型弃用。

jina-clip-v1

图片和英文文本的多模态向量模型
发行说明arrow_forward
许可证
license
Apache-2.0
发布日期
calendar_month
2024-06-05
输入
image
图片
abc
文本
arrow_forward
输出
more_horiz
向量
模型详细信息
参数: 223M
输入词元长度: 8K
输入图片大小: 224x224
输出维度: 768
语言支持
🇺🇸 英语
相关模型
link
jina-clip-v2
link
jina-embeddings-v3
link
jina-colbert-v2
标签
multimodal-embedding
image-text-alignment
english-only
zero-shot-classification
cross-modal-search
long-text-support
unified-embeddings
text-to-text
text-to-image
visual-semantic
可通过以下方式获取
Jina API亚马逊云微软云抱抱脸
选择要比较的模型
出版物 (1)
ICML 2024
五月 30, 2024
Jina CLIP: Your CLIP Model Is Also Your Text Retriever

概述

Jina CLIP v1 是第一个在文本转文本和文本转图片检索任务中表现优异的模型,它彻底改变了多模态 AI。与在纯文本场景中表现不佳的传统 CLIP 模型不同,该模型在所有检索组合中都实现了最先进的性能,同时保持了非常紧凑的 223M 参数大小。该模型解决了一个关键的行业挑战,它消除了对用于文本和图片处理的单独模型的需求,从而降低了系统复杂性和计算开销。对于构建搜索系统、推荐引擎或内容分析工具的团队,Jina CLIP v1 提供了一个单一、高效的解决方案,可以以极高的准确性处理文本和视觉内容。

方法

该模型的架构代表了多模态 AI 设计的重大创新,将经过调整的 Jina BERT v2 文本编码器与北京人工智能研究院的尖端 EVA-02 图片编码器相结合。文本编码器支持最多 12,288 个词元的序列 - 比原始 CLIP 的 77 个词元限制长 100 多倍 - 而图片编码器可以高效处理 16 个补丁词元。训练过程遵循一种新颖的三步方法:首先,通过交错文本对训练对齐图片-标题对,同时保持文本理解;其次,结合 AI 生成的较长的图片文本描述;最后,使用硬负文本三元组来增强语义区分能力。这种独特的训练方法使模型能够在短标题和详细文本描述中保持高性能,同时保留强大的视觉理解力。

性能

Jina CLIP v1 在所有基准测试中都比 OpenAI 的原始 CLIP 有了显著的改进。在纯文本检索中,它的性能提高了 165%,得分为 0.429,而 CLIP 的得分为 0.162。对于与图片相关的任务,它显示出持续的改进:文本到图片检索提高了 2%(0.899),图片到文本检索提高了 6%(0.803),图片到图片检索提高了 12%(0.916)。该模型在零样本视觉分类任务中尤其出色,无需在特定领域进行事先训练即可成功对图片进行分类。在标准基准(如文本检索的 MTEB、图片任务的 CIFAR-100 以及跨模态性能的 Flickr8k/30k 和 MSCOCO Captions)上进行评估时,它始终优于专门的单模态模型,同时在跨模态任务中保持了有竞争力的性能。

最佳实践

为了有效部署 Jina CLIP v1,团队应同时考虑其功能和资源需求。该模型以 224x224 像素图块的形式处理图片,每个图块消耗 1,000 个词元的处理能力。为了获得最佳性能,请实施有效的图片预处理以匹配这些尺寸。虽然该模型在短文本和长文本处理方面都表现出色,但目前仅支持英语输入。团队应仔细考虑词元的使用:文本每个单词大约需要 1.1 个词元,而图片以图块的形式处理(例如,750x500 像素的图片需要 12 个图块,消耗 12,000 个词元)。该模型可通过 Jina Embeddings API 和 Apache 2.0 许可下的 Hugging Face 上的开源版本获得,提供灵活的部署选项。对于生产环境,请考虑使用 AWS Marketplace 或 Azure 部署选项,它们提供优化的基础设施设置。
提及此模型的博客
四月 08, 2025 • 21 分钟的读取量
jina-reranker-m0:多语言多模态文档重排模型
介绍我们的新型多语言多模态重排序器 jina-reranker-m0,它专门用于视觉文档检索,在多语言长文档和代码搜索任务中达到了最先进的性能水平。
Jina AI
Modern dot matrix text display on a dark blue background, conveying a digital feel.
十二月 12, 2024 • 12 分钟的读取量
嵌入模型的推理计算规模化
更好的结果会随着计算量的增加而提升——更多的学习,更多的搜索。一个好的预训练模型可以让你走得更远,但测试时的计算量可以让你走得更远。重要的是要认识到这种测试时计算量扩展的新范式,即使是对于 embedding 模型也是如此。
Han Xiao
David Hockney artwork of a hand holding a rod with three colored spheres on a blue-toned background.
十二月 04, 2024 • 13 分钟的读取量
长文本模型已全能,我们还需要分块处理吗?
对比不同分块策略下长文本嵌入模型的表现,以找到最适合您需求的最佳方案。
Michael Günther
Alex C-G
Artistic pixel art of two seagulls on colored pipes with speech bubbles; one reads "Too long?" and the other shows math equat
十一月 21, 2024 • 9 分钟的读取量
Jina CLIP v2:用于文本和图像的多语言多模态嵌入
Jina-CLIP v2,这是一个 0.9B 参数的多模态嵌入模型,支持 89 种语言的多语言处理,可处理 512x512 的高分辨率图像,并具有俄罗斯套娃式表征能力。
Jina AI
Digital number "2" displayed in a mosaic of colorful squares against a dark background, creating a futuristic vibe.
十月 29, 2024 • 11 分钟的读取量
超越 CLIP:Jina-CLIP 如何推进多模态搜索技术
了解 Jina-CLIP 如何通过统一的文本-图像嵌入向量来增强 OpenAI 的 CLIP,实现更高的检索精度和更多样化的结果。
Bo Wang
Alex C-G
Abstract digital landscape with wave-like green and pink dunes against a dark background, conveying a tranquil atmosphere.
办公室
location_on
加利福尼亚州桑尼维尔
710 Lakeway Dr, Ste 200, 桑尼维尔, CA 94085, 美国
location_on
德国柏林(总部)
Prinzessinnenstraße 19-20,10969 柏林,德国
location_on
中国北京
中国北京市海淀区西大街48号6号楼5层
location_on
中国深圳
中国深圳市赋安科技大厦4楼402
搜索底座
深度搜索
读取器
向量模型
重排器
分类器
切分器
API 文档
获取 Jina API 密钥
速率限制
API 状态
公司
关于我们
联系销售
新闻
实习生计划
加入我们
open_in_new
下载Logo
open_in_new
条款
安全
条款及条件
隐私
管理 Cookie
email
Jina AI © 2020-2025.