新聞
模型
API
keyboard_arrow_down
讀取器
讀取URL或搜索為大模型提供更好的依據。
向量模型
世界一流的多模態多語言向量模型。
重排器
世界一流的重排器,最大限度地提高搜索相關性。
Elastic Inference Service
在 Elasticsearch 中原生運行 Jina 模型。
MCP terminal命令行articlellms.txtsmart_toy代理人data_object模式menu_book文檔



登錄
login
warning
此模型已被較新的模型棄用。
向量模型
Apache 2.0 許可證
open_in_new 發行説明

jina-clip-v1

圖片和英文文本的多模態向量模型
許可證
Apache-2.0
發佈日期
calendar_month
2024-06-05
輸入
image
圖片
abc
文本
arrow_forward
輸出
more_horiz
向量
模型詳細信息
參數: 223M
輸入詞元長度: 8K
輸入圖片大小: 224×224
輸出維度: 768
底座模型 help_outline
open_in_new
EVA02-B-16
open_in_new
jina-embeddings-v2-base-en
訓練過的語言 help_outline
1 語言
相關模型
link
jina-clip-v2
link
jina-embeddings-v3
link
jina-colbert-v2
標籤
multimodal-embedding
image-text-alignment
english-only
zero-shot-classification
cross-modal-search
long-text-support
unified-embeddings
text-to-text
text-to-image
visual-semantic
可通過以下方式獲取
Jina API亞馬遜雲微軟雲抱抱臉
I/O 圖 1

文本

jina-clip-v1

向量

I/O 圖 2

圖像

jina-clip-v1

向量

選擇要比較的模型
論文 (1)
ICML 2024
五月 30, 2024
Jina CLIP: Your CLIP Model Is Also Your Text Retriever

概述

Jina CLIP v1 是第一個在文本轉文本和文本轉圖片檢索任務中表現優異的模型,它徹底改變了多模態 AI。與在純文本場景中表現不佳的傳統 CLIP 模型不同,該模型在所有檢索組合中都實現了最先進的性能,同時保持了非常緊湊的 223M 參數大小。該模型解決了一個關鍵的行業挑戰,它消除了對用於文本和圖片處理的單獨模型的需求,從而降低了系統複雜性和計算開銷。對於構建搜索系統、推薦引擎或內容分析工具的團隊,Jina CLIP v1 提供了一個單一、高效的解決方案,可以以極高的準確性處理文本和視覺內容。

方法

該模型的架構代表了多模態 AI 設計的重大創新,將經過調整的 Jina BERT v2 文本編碼器與北京人工智能研究院的尖端 EVA-02 圖片編碼器相結合。文本編碼器支持最多 12,288 個詞元的序列 - 比原始 CLIP 的 77 個詞元限制長 100 多倍 - 而圖片編碼器可以高效處理 16 個補丁詞元。訓練過程遵循一種新穎的三步方法:首先,通過交錯文本對訓練對齊圖片-標題對,同時保持文本理解;其次,結合 AI 生成的較長的圖片文本描述;最後,使用硬負文本三元組來增強語義區分能力。這種獨特的訓練方法使模型能夠在短標題和詳細文本描述中保持高性能,同時保留強大的視覺理解力。

性能

Jina CLIP v1 在所有基準測試中都比 OpenAI 的原始 CLIP 有了顯著的改進。在純文本檢索中,它的性能提高了 165%,得分為 0.429,而 CLIP 的得分為 0.162。對於與圖片相關的任務,它顯示出持續的改進:文本到圖片檢索提高了 2%(0.899),圖片到文本檢索提高了 6%(0.803),圖片到圖片檢索提高了 12%(0.916)。該模型在零樣本視覺分類任務中尤其出色,無需在特定領域進行事先訓練即可成功對圖片進行分類。在標準基準(如文本檢索的 MTEB、圖片任務的 CIFAR-100 以及跨模態性能的 Flickr8k/30k 和 MSCOCO Captions)上進行評估時,它始終優於專門的單模態模型,同時在跨模態任務中保持了有競爭力的性能。

最佳實踐

為了有效部署 Jina CLIP v1,團隊應同時考慮其功能和資源需求。該模型以 224x224 像素圖塊的形式處理圖片,每個圖塊消耗 1,000 個詞元的處理能力。為了獲得最佳性能,請實施有效的圖片預處理以匹配這些尺寸。雖然該模型在短文本和長文本處理方面都表現出色,但目前僅支持英語輸入。團隊應仔細考慮詞元的使用:文本每個單詞大約需要 1.1 個詞元,而圖片以圖塊的形式處理(例如,750x500 像素的圖片需要 12 個圖塊,消耗 12,000 個詞元)。該模型可通過 Jina Embeddings API 和 Apache 2.0 許可下的 Hugging Face 上的開源版本獲得,提供靈活的部署選項。對於生產環境,請考慮使用 AWS Marketplace 或 Azure 部署選項,它們提供優化的基礎設施設置。
提及此模型的博客
六月 25, 2025 • 12 分鐘的讀取量
Jina 向量模型 v4:適用於多模態多語檢索的通用向量模型 (Embeddings)
Jina 向量模型 (Embeddings) v4 是一個 38 億參數的通用向量模型 (Embedding model),適用於多模和多語言檢索,支援單一向量和多向量向量模型 (Embedding) 輸出。
Jina AI
Word "Embeddings" followed by a numeric or symbol representation, displayed in multiple colors on a technology-themed, colorf
四月 08, 2025 • 21 分鐘的讀取量
jina-reranker-m0:多語言多模態文件重排序器
介紹 jina-reranker-m0,這是我們新的多語言多模態重排序器,用於檢索視覺文件,在多語言長文件和程式碼搜尋任務上都達到了最先進的效能。
Jina AI
Modern dot matrix text display on a dark blue background, conveying a digital feel.
十二月 12, 2024 • 12 分鐘的讀取量
調整嵌入模型的測試時計算資源
更好的效果隨著運算能力而擴展——更多學習,更多搜尋。一個優秀的預訓練模型能帶你走很遠,但測試階段的運算能力能讓你走得更遠。即便是對於 embedding 模型,認識到這種擴展測試階段運算能力的新範式也很重要。
Han Xiao
David Hockney artwork of a hand holding a rod with three colored spheres on a blue-toned background.
十二月 04, 2024 • 13 分鐘的讀取量
當長上下文模型能夠處理所有內容時,還需要分塊嗎?
比較不同切分策略對長文本嵌入模型的性能表現,以找出最適合你需求的方法。
Michael Günther
Alex C-G
Artistic pixel art of two seagulls on colored pipes with speech bubbles; one reads "Too long?" and the other shows math equat
十一月 21, 2024 • 9 分鐘的讀取量
Jina CLIP v2:文本與影像的多語言多模態嵌入表示
Jina-CLIP v2,一個規模為 0.9B 的多模態嵌入模型,支援 89 種語言的多語言功能、512x512 的高解析度圖像處理能力,以及具備 Matryoshka 表示法。
Jina AI
Digital number "2" displayed in a mosaic of colorful squares against a dark background, creating a futuristic vibe.
搜索底座
讀取器
向量模型
重排器
Elastic Inference Service
open_in_new
獲取 Jina API 密鑰
速率限制
API 狀態
公司
關於我們
聯繫銷售
新聞
實習生項目
下載 Jina 標誌
open_in_new
下載 Elastic 徽標
open_in_new
條款
安全
條款及條件
隱私
管理 Cookie
email
Elastic © 2020-2026.