

jina-clip-v2 API는 "Embeddings" 탭에서 사용할 수 있습니다.
멀티모달 임베딩은 일관된 표현을 통해 서로 다른 모달리티 간의 데이터 검색과 이해를 가능하게 합니다. 이는 신경 정보 검색과 멀티모달 GenAI 애플리케이션의 근간이 됩니다. 오늘 우리는 jina-clip-v1과 최근 출시한 jina-embeddings-3
을 기반으로 구축된 새로운 범용 다국어 멀티모달 임베딩인 jina-clip-v2를 발표하게 되어 기쁩니다. 주요 개선 사항은 다음과 같습니다:
- 성능 향상: v2는 텍스트-이미지 및 텍스트-텍스트 검색 작업에서 v1보다 3% 향상된 성능을 보여줍니다. v1과 마찬가지로 v2의 텍스트 인코더는 효과적인 다국어 장문 밀집 검색기로 사용될 수 있습니다. MTEB에서 1B 파라미터 미만의 최고 다국어 임베딩인 jina-embeddings-v3와 대등한 성능을 보입니다.
- 다국어 지원: 텍스트 타워로 jina-embeddings-v3를 사용하여 89개 언어에 대한 다국어-이미지 검색을 지원하며, 다국어 이미지 검색 작업에서
nllb-clip-large-siglip
보다 최대 4% 향상된 성능을 보여줍니다. - 높은 이미지 해상도: v2는 이제 v1의 224x224에서 크게 향상된 512x512 입력 이미지 해상도를 지원합니다. 이러한 높은 해상도로 상세한 이미지 처리, 향상된 특징 추출, 더 정확한 세부 시각 요소 인식이 가능합니다.
- 마트료시카 표현: v2는 사용자가 텍스트와 이미지 임베딩의 출력 차원을 1024에서 64까지 줄일 수 있게 하여, 강력한 성능을 유지하면서 저장 공간과 처리 오버헤드를 줄일 수 있습니다.
tag모델 아키텍처
jina-clip-v2는 두 개의 강력한 인코더를 결합한 0.9B CLIP 스타일 모델입니다: 텍스트 인코더 Jina XLM-RoBERTa
(jina-embeddings-v3의 백본)와 비전 인코더 EVA02-L14
(BAAI에서 개발한 효율적인 비전 트랜스포머). 이 인코더들은 이미지와 텍스트의 정렬된 표현을 생성하도록 함께 학습됩니다.
Feature | Text Encoder | Image Encoder |
---|---|---|
Base Model | Jina XLM-RoBERTa | EVA02-L |
Parameters | 561M | 304M |
Input Specification | 8,192 tokens (max) | 512×512 pixels |
Min Output Dimensions | 64 | 64 |
Max Output Dimensions | 1,024 | 1,024 |
Layers | 24 | 24 |
Attention Mechanism | FlashAttention2 | xFormers |
Pooling Strategy | Mean pooling | CLS pooling |
Additional Features | 89 languages supported | Patch size 14x14 |
tag교차 모달 검색 성능
Jina CLIP v2는 89개 언어에 대한 다국어 지원을 제공하며 아랍어, 중국어, 영어, 프랑스어, 독일어, 일본어, 러시아어, 스페인어를 포함한 주요 언어에서 최고 성능을 보여줍니다. 다국어 이미지 검색 벤치마크에서, NLLB 모델의 사전 학습된 텍스트 인코더를 사용하는 약간 더 큰 (1.3B, jina-clip-v2보다 44% 더 큼) 최신 CLIP 스타일 모델인 NLLB-CLIP-SigLIP와 비슷하거나 더 나은 성능을 보여줍니다.
tag영어 전용 텍스트 및 이미지
표준 교차 모달 검색 벤치마크(Flickr30k와 COCO)에서, jina-clip-v2는 전반적으로 강력한 개선을 보여줍니다. Flickr30k 이미지-텍스트 검색에서 98.0%의 최고 성능을 달성하여 전작과 NLLB-CLIP-SigLIP 모두를 능가합니다. 이 모델은 COCO 이미지-텍스트 검색에서 v1보다 최대 3.3% 향상된 성능을 보이면서, 다양한 벤치마크와 모달리티 방향에서 NLLB-CLIP-SigLIP와 경쟁력 있는 성능을 유지합니다.
Flickr30k Recall@5 성능:
Task | Model | Score | Relative to v1 | Relative to NLLB |
---|---|---|---|---|
Image-to-text | jina-clip-v2 | 98.0 | +1.7% | +0.9% |
jina-clip-v1 | 96.4 | - | -0.7% | |
nllb-siglip-large | 97.1 | - | - | |
Text-to-image | jina-clip-v2 | 89.8 | +0.9% | -2.6% |
jina-clip-v1 | 89.0 | - | -3.5% | |
nllb-siglip-large | 92.2 | - | - |
COCO Recall@5 성능:
Task | Model | Score | Relative to v1 | Relative to NLLB |
---|---|---|---|---|
Image-to-text | jina-clip-v2 | 81.5 | +3.3% | +2.9% |
jina-clip-v1 | 78.9 | - | -0.4% | |
nllb-siglip-large | 79.2 | - | - | |
Text-to-image | jina-clip-v2 | 68.4 | +2.9% | -3.4% |
jina-clip-v1 | 66.5 | - | -6.1% | |
nllb-siglip-large | 70.8 | - | - |
tag다국어 텍스트 및 이미지
다국어 교차 모달 벤치마크에서, jina-clip-v2는 강력한 성능을 보여주며, 특히 이미지-텍스트 검색에서 모든 데이터셋에서 NLLB-SigLIP를 능가하여 Crossmodal 3600에서 최대 +3.8% 향상을 보여줍니다. NLLB-SigLIP가 텍스트-이미지 검색에서 약간 더 강한 성능을 보이지만, 성능 차이는 일반적으로 3% 이내로 작습니다.
이미지->텍스트 Recall@5 성능:
Benchmark | Model | Score | Relative to NLLB |
---|---|---|---|
Crossmodal 3600 | jina-clip-v2 | 83.23 | +3.8% |
nllb-siglip-large | 80.16 | - | |
Multilingual MS Coco | jina-clip-v2 | 86.03 | +0.8% |
nllb-siglip-large | 85.37 | - | |
XTD10 | jina-clip-v2 | 85.98 | +0.7% |
nllb-siglip-large | 85.41 | - |
텍스트->이미지 Recall@5 성능:
Benchmark | Model | Score | Relative to NLLB |
---|---|---|---|
Crossmodal 3600 | jina-clip-v2 | 81.43 | -0.8% |
nllb-siglip-large | 82.07 | - | |
Multilingual MS Coco | jina-clip-v2 | 84.87 | -3.1% |
nllb-siglip-large | 87.60 | - | |
XTD10 | jina-clip-v2 | 85.03 | -3.0% |
nllb-siglip-large | 87.63 | - |
tag텍스트 전용 Dense Retriever 성능
이전 버전과 마찬가지로, jina-clip-v2의 텍스트 인코더는 효과적인 다국어 dense retriever로 사용될 수 있습니다. 포괄적인 다국어 MTEB 벤치마크에서 검색 작업에서 69.86%, 의미적 유사도 작업에서 67.77%를 달성하며 강력한 성능을 보여줍니다. 이러한 결과는 전문 텍스트 임베딩 모델인 jina-embeddings-v3와 경쟁력 있는 성능을 보여주며 그 다용도성을 입증합니다:
Task | Model | Score | Relative to v3 |
---|---|---|---|
Retrieval | jina-clip-v2 | 69.86 | -3.8% |
jina-embeddings-v3 | 72.59 | - | |
Semantic Similarity | jina-clip-v2 | 67.77 | -2.9% |
jina-embeddings-v3 | 69.81 | - |
영어 작업에서 jina-clip-v2는 이전 버전과 NLLB-SigLIP 모두를 능가하는 일관된 개선을 보여주며, 특히 검색 성능에서 NLLB-SigLIP 점수의 거의 2배에 달하는 강력한 이점을 보여줍니다.
Task | Model | Score | Relative to v1 |
---|---|---|---|
STS | jina-clip-v2 | 81.29 | +0.5% |
jina-clip-v1 | 80.92 | - | |
nllb-siglip-large | 74.65 | - | |
Retrieval | jina-clip-v2 | 49.33 | +2.1% |
jina-clip-v1 | 48.33 | - | |
nllb-siglip-large | 24.92 | - |
tagMatryoshka 표현 성능
텍스트와 이미지 인코더 모두 MRL을 지원하며, 강력한 성능을 유지하면서 출력 차원을 64로 줄일 수 있습니다. 임베딩 축소 평가에서 놀라운 압축 가능성이 드러났습니다. 75%의 공격적인 차원 축소에도 텍스트, 이미지, 크로스모달 작업 전반에 걸쳐 99% 이상의 성능을 유지했습니다.
tag이미지 분류
37개의 다양한 이미지 분류 벤치마크에서, 이미지 인코더는 차원 축소에 대한 강한 회복력을 보여줍니다. 1024에서 64 차원으로의 압축(94% 감소)은 top-5 정확도에서 단 8% 하락과 top-1에서 12.5% 하락만을 보여, 성능 손실을 최소화하면서 효율적인 배포가 가능함을 강조합니다.
tag크로스 모달 검색
차원을 94%나 대폭 축소하여 64차원으로 줄였음에도 불구하고, 잘린 이미지와 텍스트 임베딩을 사용한 크로스 모달 검색은 놀랍도록 강건하게 유지되어 이미지-텍스트 성능의 93%와 텍스트-이미지 성능의 90%를 보존했습니다.
tag텍스트 전용 검색
영어 전용 MTEB 벤치마크에서, 1024차원에서 64차원으로 압축된 텍스트 임베딩은 의미적 유사성을 놀랍도록 잘 보존하여 단 2.1%만 감소했으며, 검색은 17.5%의 적정 수준의 감소를 보였습니다.
tag시작하기
tagAPI를 통한 사용
이 코드는 Python의 requests
를 사용하여 임베딩을 생성하는 방법을 보여줍니다. 텍스트 문자열과 base64 이미지 또는 URL을 전달하고, 원하는 차원 크기를 지정하면 됩니다(기본값 1024, 아래에서는 768로 표시).
import requests
import numpy as np
from numpy.linalg import norm
cos_sim = lambda a,b: (a @ b.T) / (norm(a)*norm(b))
url = 'https://api.jina.ai/v1/embeddings'
headers = {
'Content-Type': 'application/json',
'Authorization': 'Bearer <YOUR_JINA_AI_API_KEY>'
}
data = {
'input': [
{"text": "Bridge close-shot"},
{"url": "https://fastly.picsum.photos/id/84/1280/848.jpg?hmac=YFRYDI4UsfbeTzI8ZakNOR98wVU7a-9a2tGF542539s"}],
'model': 'jina-clip-v2',
'encoding_type': 'float',
'dimensions': '768'
}
response = requests.post(url, headers=headers, json=data)
sim = cos_sim(np.array(response.json()['data'][0]['embedding']), np.array(response.json()['data'][1]['embedding']))
print(f"Cosine text<->image: {sim}")
반드시 <YOUR_JINA_AI_API_KEY>를 활성화된 Jina API 키로 교체하세요. 여기에서 100만 개의 무료 토큰이 포함된 무료 API 키를 받을 수 있습니다.
tag이미지 토큰 가격 책정
우리 API는 텍스트와 이미지 토큰을 모두 계산합니다. 이미지의 경우, 토큰 소비량은 전체 이미지 영역을 커버하는 데 필요한 512x512 픽셀 타일의 수를 기준으로 합니다. 각 타일은 부분적으로 채워진 타일을 포함하여 처리하는 데 4,000 토큰이 소비됩니다. 최적의 비용 효율성을 위해, API 사용자들이 요청을 보내기 전에 이미지를 512x512로 리사이즈할 것을 권장합니다.
이미지 해상도 | 필요한 타일 수 | 토큰 비용 |
---|---|---|
512x512 | 1 | 4,000 |
720x720 | 4 | 16,000 |
1080x1080 | 9 | 36,000 |
tagCSP 마켓플레이스를 통한 사용
Jina CLIP v2는 AWS, Azure 및 GCP에서 직접 사용할 수 있으며, 해당 플랫폼에 명시된 가격으로 제공됩니다.

tagVectorDB를 통해



tag결론
6월에 출시한 jina-clip-v1은 OpenAI의 CLIP 모델을 확장하여 8,192 토큰까지의 텍스트 입력을 지원했고, 최첨단 다국어 jina-embeddings-v3를 기반으로, jina-clip-v2는 세 가지 주요 발전을 이루었습니다: 89개 언어에 대한 다국어 지원, 512x512 해상도의 이미지 지원 확대, 그리고 더 잘린 임베딩을 위한 마트료시카 표현 학습입니다.
CLIP 계열 모델들은 범용 멀티모달 애플리케이션의 중추로 자리잡았습니다. jina-clip-v2와 함께, 우리는 이러한 기능을 한 단계 발전시켜 언어 장벽을 허물고 더 정확한 크로스 모달 이해와 검색을 제공합니다. 이번 출시를 통해 전 세계 개발자들에게 멀티모달 검색과 검색 기능을 더욱 강력하고 접근하기 쉽게 만들어 주는 약속을 이행한다고 믿습니다.