I/O 圖 1
I/O 圖 2
選擇要比較的模型
論文 (1)
概述
Jina CLIP v1 是第一個在文本轉文本和文本轉圖片檢索任務中表現優異的模型,它徹底改變了多模態 AI。與在純文本場景中表現不佳的傳統 CLIP 模型不同,該模型在所有檢索組合中都實現了最先進的性能,同時保持了非常緊湊的 223M 參數大小。該模型解決了一個關鍵的行業挑戰,它消除了對用於文本和圖片處理的單獨模型的需求,從而降低了系統複雜性和計算開銷。對於構建搜索系統、推薦引擎或內容分析工具的團隊,Jina CLIP v1 提供了一個單一、高效的解決方案,可以以極高的準確性處理文本和視覺內容。
方法
該模型的架構代表了多模態 AI 設計的重大創新,將經過調整的 Jina BERT v2 文本編碼器與北京人工智能研究院的尖端 EVA-02 圖片編碼器相結合。文本編碼器支持最多 12,288 個詞元的序列 - 比原始 CLIP 的 77 個詞元限制長 100 多倍 - 而圖片編碼器可以高效處理 16 個補丁詞元。訓練過程遵循一種新穎的三步方法:首先,通過交錯文本對訓練對齊圖片-標題對,同時保持文本理解;其次,結合 AI 生成的較長的圖片文本描述;最後,使用硬負文本三元組來增強語義區分能力。這種獨特的訓練方法使模型能夠在短標題和詳細文本描述中保持高性能,同時保留強大的視覺理解力。
性能
Jina CLIP v1 在所有基準測試中都比 OpenAI 的原始 CLIP 有了顯著的改進。在純文本檢索中,它的性能提高了 165%,得分為 0.429,而 CLIP 的得分為 0.162。對於與圖片相關的任務,它顯示出持續的改進:文本到圖片檢索提高了 2%(0.899),圖片到文本檢索提高了 6%(0.803),圖片到圖片檢索提高了 12%(0.916)。該模型在零樣本視覺分類任務中尤其出色,無需在特定領域進行事先訓練即可成功對圖片進行分類。在標準基準(如文本檢索的 MTEB、圖片任務的 CIFAR-100 以及跨模態性能的 Flickr8k/30k 和 MSCOCO Captions)上進行評估時,它始終優於專門的單模態模型,同時在跨模態任務中保持了有競爭力的性能。
最佳實踐
為了有效部署 Jina CLIP v1,團隊應同時考慮其功能和資源需求。該模型以 224x224 像素圖塊的形式處理圖片,每個圖塊消耗 1,000 個詞元的處理能力。為了獲得最佳性能,請實施有效的圖片預處理以匹配這些尺寸。雖然該模型在短文本和長文本處理方面都表現出色,但目前僅支持英語輸入。團隊應仔細考慮詞元的使用:文本每個單詞大約需要 1.1 個詞元,而圖片以圖塊的形式處理(例如,750x500 像素的圖片需要 12 個圖塊,消耗 12,000 個詞元)。該模型可通過 Jina Embeddings API 和 Apache 2.0 許可下的 Hugging Face 上的開源版本獲得,提供靈活的部署選項。對於生產環境,請考慮使用 AWS Marketplace 或 Azure 部署選項,它們提供優化的基礎設施設置。
提及此模型的博客









