Jina CLIP v2: 텍스트와 이미지를 위한 다국어 멀티모달 임베딩

jina-clip-v2 API는 "Embeddings" 탭에서 사용할 수 있습니다.

멀티모달 임베딩은 일관된 표현을 통해 서로 다른 모달리티 간의 데이터 검색과 이해를 가능하게 합니다. 이는 신경 정보 검색과 멀티모달 GenAI 애플리케이션의 근간이 됩니다. 오늘 우리는 jina-clip-v1과 최근 출시한 jina-embeddings-3을 기반으로 구축된 새로운 범용 다국어 멀티모달 임베딩인 jina-clip-v2를 발표하게 되어 기쁩니다. 주요 개선 사항은 다음과 같습니다:

성능 향상: v2는 텍스트-이미지 및 텍스트-텍스트 검색 작업에서 v1보다 3% 향상된 성능을 보여줍니다. v1과 마찬가지로 v2의 텍스트 인코더는 효과적인 다국어 장문 밀집 검색기로 사용될 수 있습니다. MTEB에서 1B 파라미터 미만의 최고 다국어 임베딩인 jina-embeddings-v3와 대등한 성능을 보입니다.
다국어 지원: 텍스트 타워로 jina-embeddings-v3를 사용하여 89개 언어에 대한 다국어-이미지 검색을 지원하며, 다국어 이미지 검색 작업에서 nllb-clip-large-siglip보다 최대 4% 향상된 성능을 보여줍니다.
높은 이미지 해상도: v2는 이제 v1의 224x224에서 크게 향상된 512x512 입력 이미지 해상도를 지원합니다. 이러한 높은 해상도로 상세한 이미지 처리, 향상된 특징 추출, 더 정확한 세부 시각 요소 인식이 가능합니다.
마트료시카 표현: v2는 사용자가 텍스트와 이미지 임베딩의 출력 차원을 1024에서 64까지 줄일 수 있게 하여, 강력한 성능을 유지하면서 저장 공간과 처리 오버헤드를 줄일 수 있습니다.

tag모델 아키텍처

jina-clip-v2는 두 개의 강력한 인코더를 결합한 0.9B CLIP 스타일 모델입니다: 텍스트 인코더 Jina XLM-RoBERTa(jina-embeddings-v3의 백본)와 비전 인코더 EVA02-L14(BAAI에서 개발한 효율적인 비전 트랜스포머). 이 인코더들은 이미지와 텍스트의 정렬된 표현을 생성하도록 함께 학습됩니다.

Feature	Text Encoder	Image Encoder
Base Model	Jina XLM-RoBERTa	EVA02-L
Parameters	561M	304M
Input Specification	8,192 tokens (max)	512×512 pixels
Min Output Dimensions	64	64
Max Output Dimensions	1,024	1,024
Layers	24	24
Attention Mechanism	FlashAttention2	xFormers
Pooling Strategy	Mean pooling	CLS pooling
Additional Features	89 languages supported	Patch size 14x14

Jina CLIP v2는 89개 언어에 대한 다국어 지원을 제공하며 아랍어, 중국어, 영어, 프랑스어, 독일어, 일본어, 러시아어, 스페인어를 포함한 주요 언어에서 최고 성능을 보여줍니다. 다국어 이미지 검색 벤치마크에서, NLLB 모델의 사전 학습된 텍스트 인코더를 사용하는 약간 더 큰 (1.3B, jina-clip-v2보다 44% 더 큼) 최신 CLIP 스타일 모델인 NLLB-CLIP-SigLIP와 비슷하거나 더 나은 성능을 보여줍니다.

tag영어 전용 텍스트 및 이미지

표준 교차 모달 검색 벤치마크(Flickr30k와 COCO)에서, jina-clip-v2는 전반적으로 강력한 개선을 보여줍니다. Flickr30k 이미지-텍스트 검색에서 98.0%의 최고 성능을 달성하여 전작과 NLLB-CLIP-SigLIP 모두를 능가합니다. 이 모델은 COCO 이미지-텍스트 검색에서 v1보다 최대 3.3% 향상된 성능을 보이면서, 다양한 벤치마크와 모달리티 방향에서 NLLB-CLIP-SigLIP와 경쟁력 있는 성능을 유지합니다.

Flickr30k Recall@5 성능:

Task	Model	Score	Relative to v1	Relative to NLLB
Image-to-text	jina-clip-v2	98.0	+1.7%	+0.9%
	jina-clip-v1	96.4	-	-0.7%
	nllb-siglip-large	97.1	-	-
Text-to-image	jina-clip-v2	89.8	+0.9%	-2.6%
	jina-clip-v1	89.0	-	-3.5%
	nllb-siglip-large	92.2	-	-

COCO Recall@5 성능:

Task	Model	Score	Relative to v1	Relative to NLLB
Image-to-text	jina-clip-v2	81.5	+3.3%	+2.9%
	jina-clip-v1	78.9	-	-0.4%
	nllb-siglip-large	79.2	-	-
Text-to-image	jina-clip-v2	68.4	+2.9%	-3.4%
	jina-clip-v1	66.5	-	-6.1%
	nllb-siglip-large	70.8	-	-

tag다국어 텍스트 및 이미지

다국어 교차 모달 벤치마크에서, jina-clip-v2는 강력한 성능을 보여주며, 특히 이미지-텍스트 검색에서 모든 데이터셋에서 NLLB-SigLIP를 능가하여 Crossmodal 3600에서 최대 +3.8% 향상을 보여줍니다. NLLB-SigLIP가 텍스트-이미지 검색에서 약간 더 강한 성능을 보이지만, 성능 차이는 일반적으로 3% 이내로 작습니다.

이미지->텍스트 Recall@5 성능:

Benchmark	Model	Score	Relative to NLLB
Crossmodal 3600	jina-clip-v2	83.23	+3.8%
	nllb-siglip-large	80.16	-
Multilingual MS Coco	jina-clip-v2	86.03	+0.8%
	nllb-siglip-large	85.37	-
XTD10	jina-clip-v2	85.98	+0.7%
	nllb-siglip-large	85.41	-

텍스트->이미지 Recall@5 성능:

Benchmark	Model	Score	Relative to NLLB
Crossmodal 3600	jina-clip-v2	81.43	-0.8%
	nllb-siglip-large	82.07	-
Multilingual MS Coco	jina-clip-v2	84.87	-3.1%
	nllb-siglip-large	87.60	-
XTD10	jina-clip-v2	85.03	-3.0%
	nllb-siglip-large	87.63	-

tag텍스트 전용 Dense Retriever 성능

이전 버전과 마찬가지로, jina-clip-v2의 텍스트 인코더는 효과적인 다국어 dense retriever로 사용될 수 있습니다. 포괄적인 다국어 MTEB 벤치마크에서 검색 작업에서 69.86%, 의미적 유사도 작업에서 67.77%를 달성하며 강력한 성능을 보여줍니다. 이러한 결과는 전문 텍스트 임베딩 모델인 jina-embeddings-v3와 경쟁력 있는 성능을 보여주며 그 다용도성을 입증합니다:

Task	Model	Score	Relative to v3
Retrieval	jina-clip-v2	69.86	-3.8%
	jina-embeddings-v3	72.59	-
Semantic Similarity	jina-clip-v2	67.77	-2.9%
	jina-embeddings-v3	69.81	-

영어 작업에서 jina-clip-v2는 이전 버전과 NLLB-SigLIP 모두를 능가하는 일관된 개선을 보여주며, 특히 검색 성능에서 NLLB-SigLIP 점수의 거의 2배에 달하는 강력한 이점을 보여줍니다.

Task	Model	Score	Relative to v1
STS	jina-clip-v2	81.29	+0.5%
	jina-clip-v1	80.92	-
	nllb-siglip-large	74.65	-
Retrieval	jina-clip-v2	49.33	+2.1%
	jina-clip-v1	48.33	-
	nllb-siglip-large	24.92	-

tagMatryoshka 표현 성능

텍스트와 이미지 인코더 모두 MRL을 지원하며, 강력한 성능을 유지하면서 출력 차원을 64로 줄일 수 있습니다. 임베딩 축소 평가에서 놀라운 압축 가능성이 드러났습니다. 75%의 공격적인 차원 축소에도 텍스트, 이미지, 크로스모달 작업 전반에 걸쳐 99% 이상의 성능을 유지했습니다.

tag이미지 분류

37개의 다양한 이미지 분류 벤치마크에서, 이미지 인코더는 차원 축소에 대한 강한 회복력을 보여줍니다. 1024에서 64 차원으로의 압축(94% 감소)은 top-5 정확도에서 단 8% 하락과 top-1에서 12.5% 하락만을 보여, 성능 손실을 최소화하면서 효율적인 배포가 가능함을 강조합니다.

이미지 분류를 위해, VTAB 데이터셋의 19개 벤치마크, VOC 2007, SUN397, STL10, Rendered SST2, ObjectNet, MNIST, German Traffic Sign Recognition Benchmark (GTSRB), Fine-Grained Visual Classification of Aircraft (FGVC-Aircraft), FER 2013, Country211, Cars196, ImageNet-A, ImageNet-O,ImageNet1k, ImageNet Sketch, 그리고 ImageNet v2를 사용했습니다.

차원을 94%나 대폭 축소하여 64차원으로 줄였음에도 불구하고, 잘린 이미지와 텍스트 임베딩을 사용한 크로스 모달 검색은 놀랍도록 강건하게 유지되어 이미지-텍스트 성능의 93%와 텍스트-이미지 성능의 90%를 보존했습니다.

6개의 벤치마크를 사용했으며, 그 중 3개는 다국어를 지원합니다: Crossmodal-3600 (36개 언어), flickr30k (영어만), flickr8k (영어만), MS COCO Captions (영어만), Multilingual MS COCO Captions (10개 언어), XTD 200 (27개 언어)

tag텍스트 전용 검색

영어 전용 MTEB 벤치마크에서, 1024차원에서 64차원으로 압축된 텍스트 임베딩은 의미적 유사성을 놀랍도록 잘 보존하여 단 2.1%만 감소했으며, 검색은 17.5%의 적정 수준의 감소를 보였습니다.

tag시작하기

tagAPI를 통한 사용

이 코드는 Python의 requests를 사용하여 임베딩을 생성하는 방법을 보여줍니다. 텍스트 문자열과 base64 이미지 또는 URL을 전달하고, 원하는 차원 크기를 지정하면 됩니다(기본값 1024, 아래에서는 768로 표시).

import requests
import numpy as np
from numpy.linalg import norm

cos_sim = lambda a,b: (a @ b.T) / (norm(a)*norm(b))

url = 'https://api.jina.ai/v1/embeddings'

headers = {
  'Content-Type': 'application/json',
  'Authorization': 'Bearer <YOUR_JINA_AI_API_KEY>'
}

data = {
  'input': [
     {"text": "Bridge close-shot"},
     {"url": "https://fastly.picsum.photos/id/84/1280/848.jpg?hmac=YFRYDI4UsfbeTzI8ZakNOR98wVU7a-9a2tGF542539s"}],
  'model': 'jina-clip-v2',
  'encoding_type': 'float',
  'dimensions': '768' 
}

response = requests.post(url, headers=headers, json=data)
sim = cos_sim(np.array(response.json()['data'][0]['embedding']), np.array(response.json()['data'][1]['embedding']))
print(f"Cosine text<->image: {sim}")

반드시 <YOUR_JINA_AI_API_KEY>를 활성화된 Jina API 키로 교체하세요. 여기에서 100만 개의 무료 토큰이 포함된 무료 API 키를 받을 수 있습니다.

tag이미지 토큰 가격 책정

우리 API는 텍스트와 이미지 토큰을 모두 계산합니다. 이미지의 경우, 토큰 소비량은 전체 이미지 영역을 커버하는 데 필요한 512x512 픽셀 타일의 수를 기준으로 합니다. 각 타일은 부분적으로 채워진 타일을 포함하여 처리하는 데 4,000 토큰이 소비됩니다. 최적의 비용 효율성을 위해, API 사용자들이 요청을 보내기 전에 이미지를 512x512로 리사이즈할 것을 권장합니다.

이미지 해상도	필요한 타일 수	토큰 비용
512x512	1	4,000
720x720	4	16,000
1080x1080	9	36,000

정사각형 이미지의 경우, 최적의 비용 효율을 위해 512x512로 리사이즈하세요. 종횡비에 민감한 작업의 경우, 가장 긴 변을 512로 조정하고 이미지를 중앙에 두고 검은색으로 패딩하세요. 일반적인 용도의 경우, 직접 512x512로 리사이징하는 것이 잘 작동합니다.

tagCSP 마켓플레이스를 통한 사용

Jina CLIP v2는 AWS, Azure 및 GCP에서 직접 사용할 수 있으며, 해당 플랫폼에 명시된 가격으로 제공됩니다.

Microsoft Azure Marketplace

Google Cloud console

Google Cloud Marketplace에서 스마트하게 지출하고 더 빠르게 조달하며 Google Cloud 약정 지출을 관리하세요. Google Cloud에서 실행되도록 최적화된 2000개 이상의 SaaS, VM, 개발 스택 및 Kubernetes 앱 카탈로그를 둘러보세요.

tagVectorDB를 통해

tag결론

6월에 출시한 jina-clip-v1은 OpenAI의 CLIP 모델을 확장하여 8,192 토큰까지의 텍스트 입력을 지원했고, 최첨단 다국어 jina-embeddings-v3를 기반으로, jina-clip-v2는 세 가지 주요 발전을 이루었습니다: 89개 언어에 대한 다국어 지원, 512x512 해상도의 이미지 지원 확대, 그리고 더 잘린 임베딩을 위한 마트료시카 표현 학습입니다.

CLIP 계열 모델들은 범용 멀티모달 애플리케이션의 중추로 자리잡았습니다. jina-clip-v2와 함께, 우리는 이러한 기능을 한 단계 발전시켜 언어 장벽을 허물고 더 정확한 크로스 모달 이해와 검색을 제공합니다. 이번 출시를 통해 전 세계 개발자들에게 멀티모달 검색과 검색 기능을 더욱 강력하고 접근하기 쉽게 만들어 주는 약속을 이행한다고 믿습니다.