选择要比较的模型
出版物 (1)
概述
Jina CLIP v1 是第一个在文本转文本和文本转图片检索任务中表现优异的模型,它彻底改变了多模态 AI。与在纯文本场景中表现不佳的传统 CLIP 模型不同,该模型在所有检索组合中都实现了最先进的性能,同时保持了非常紧凑的 223M 参数大小。该模型解决了一个关键的行业挑战,它消除了对用于文本和图片处理的单独模型的需求,从而降低了系统复杂性和计算开销。对于构建搜索系统、推荐引擎或内容分析工具的团队,Jina CLIP v1 提供了一个单一、高效的解决方案,可以以极高的准确性处理文本和视觉内容。
方法
该模型的架构代表了多模态 AI 设计的重大创新,将经过调整的 Jina BERT v2 文本编码器与北京人工智能研究院的尖端 EVA-02 图片编码器相结合。文本编码器支持最多 12,288 个词元的序列 - 比原始 CLIP 的 77 个词元限制长 100 多倍 - 而图片编码器可以高效处理 16 个补丁词元。训练过程遵循一种新颖的三步方法:首先,通过交错文本对训练对齐图片-标题对,同时保持文本理解;其次,结合 AI 生成的较长的图片文本描述;最后,使用硬负文本三元组来增强语义区分能力。这种独特的训练方法使模型能够在短标题和详细文本描述中保持高性能,同时保留强大的视觉理解力。
性能
Jina CLIP v1 在所有基准测试中都比 OpenAI 的原始 CLIP 有了显著的改进。在纯文本检索中,它的性能提高了 165%,得分为 0.429,而 CLIP 的得分为 0.162。对于与图片相关的任务,它显示出持续的改进:文本到图片检索提高了 2%(0.899),图片到文本检索提高了 6%(0.803),图片到图片检索提高了 12%(0.916)。该模型在零样本视觉分类任务中尤其出色,无需在特定领域进行事先训练即可成功对图片进行分类。在标准基准(如文本检索的 MTEB、图片任务的 CIFAR-100 以及跨模态性能的 Flickr8k/30k 和 MSCOCO Captions)上进行评估时,它始终优于专门的单模态模型,同时在跨模态任务中保持了有竞争力的性能。
最佳实践
为了有效部署 Jina CLIP v1,团队应同时考虑其功能和资源需求。该模型以 224x224 像素图块的形式处理图片,每个图块消耗 1,000 个词元的处理能力。为了获得最佳性能,请实施有效的图片预处理以匹配这些尺寸。虽然该模型在短文本和长文本处理方面都表现出色,但目前仅支持英语输入。团队应仔细考虑词元的使用:文本每个单词大约需要 1.1 个词元,而图片以图块的形式处理(例如,750x500 像素的图片需要 12 个图块,消耗 12,000 个词元)。该模型可通过 Jina Embeddings API 和 Apache 2.0 许可下的 Hugging Face 上的开源版本获得,提供灵活的部署选项。对于生产环境,请考虑使用 AWS Marketplace 或 Azure 部署选项,它们提供优化的基础设施设置。
提及此模型的博客