소식
모델
제품
keyboard_arrow_down
리더
URL을 읽거나 검색하면 대규모 모델에 대한 지원이 더 향상됩니다.
벡터 모델
세계적 수준의 다중 모드 다중 언어 임베딩.
재배열자
검색 관련성을 극대화하는 세계적 수준의 신경 검색기입니다.
심층 검색
검색하고, 읽고, 추론하여 가장 좋은 답을 찾으세요.
더
keyboard_arrow_down
분류자
이미지와 텍스트의 제로 샷 및 퓨어 샷 분류.
얇게 써는 기계
긴 텍스트를 청크 또는 토큰으로 분할합니다.

API 문서
AI 프로그래밍 어시스턴트 IDE 또는 대형 모델에 대한 코드를 자동으로 생성합니다.
open_in_new


회사
keyboard_arrow_down
회사 소개
영업팀에 문의
인턴 프로그램
우리와 함께
open_in_new
로고 다운로드
open_in_new
이용약관


로그인
login
모델 아키텍처
교차 모달 검색 성능
텍스트 전용 Dense Retriever 성능
Matryoshka 표현 성능
시작하기
결론
star
선택
보도 자료
11월 21, 2024

Jina CLIP v2: 텍스트와 이미지를 위한 다국어 멀티모달 임베딩

Jina-CLIP v2는 89개 언어를 지원하는 다국어 기능, 512x512의 고해상도 이미지 처리, 그리고 Matryoshka 표현을 갖춘 0.9B 규모의 멀티모달 임베딩 모델입니다.
Jina AI
Jina AI • 8 독서의 분
jinaai/jina-clip-v2 · Hugging Face
우리는 오픈소스와 오픈 사이언스를 통해 인공지능을 발전시키고 민주화하는 여정을 걸어가고 있습니다.
Jina AI - 향상된 검색 기반
최고 수준의 임베딩, 재순위 매기기, LLM 리더, 웹 스크래퍼, 분류기. 다국어 및 멀티모달 데이터를 위한 최고의 검색 AI.
향상된 검색 기반

jina-clip-v2 API는 "Embeddings" 탭에서 사용할 수 있습니다.

멀티모달 임베딩은 일관된 표현을 통해 서로 다른 모달리티 간의 데이터 검색과 이해를 가능하게 합니다. 이는 신경 정보 검색과 멀티모달 GenAI 애플리케이션의 근간이 됩니다. 오늘 우리는 jina-clip-v1과 최근 출시한 jina-embeddings-3을 기반으로 구축된 새로운 범용 다국어 멀티모달 임베딩인 jina-clip-v2를 발표하게 되어 기쁩니다. 주요 개선 사항은 다음과 같습니다:

  • 성능 향상: v2는 텍스트-이미지 및 텍스트-텍스트 검색 작업에서 v1보다 3% 향상된 성능을 보여줍니다. v1과 마찬가지로 v2의 텍스트 인코더는 효과적인 다국어 장문 밀집 검색기로 사용될 수 있습니다. MTEB에서 1B 파라미터 미만의 최고 다국어 임베딩인 jina-embeddings-v3와 대등한 성능을 보입니다.
  • 다국어 지원: 텍스트 타워로 jina-embeddings-v3를 사용하여 89개 언어에 대한 다국어-이미지 검색을 지원하며, 다국어 이미지 검색 작업에서 nllb-clip-large-siglip보다 최대 4% 향상된 성능을 보여줍니다.
  • 높은 이미지 해상도: v2는 이제 v1의 224x224에서 크게 향상된 512x512 입력 이미지 해상도를 지원합니다. 이러한 높은 해상도로 상세한 이미지 처리, 향상된 특징 추출, 더 정확한 세부 시각 요소 인식이 가능합니다.
  • 마트료시카 표현: v2는 사용자가 텍스트와 이미지 임베딩의 출력 차원을 1024에서 64까지 줄일 수 있게 하여, 강력한 성능을 유지하면서 저장 공간과 처리 오버헤드를 줄일 수 있습니다.

tag모델 아키텍처

jina-clip-v2는 두 개의 강력한 인코더를 결합한 0.9B CLIP 스타일 모델입니다: 텍스트 인코더 Jina XLM-RoBERTa(jina-embeddings-v3의 백본)와 비전 인코더 EVA02-L14(BAAI에서 개발한 효율적인 비전 트랜스포머). 이 인코더들은 이미지와 텍스트의 정렬된 표현을 생성하도록 함께 학습됩니다.

Feature Text Encoder Image Encoder
Base Model Jina XLM-RoBERTa EVA02-L
Parameters 561M 304M
Input Specification 8,192 tokens (max) 512×512 pixels
Min Output Dimensions 64 64
Max Output Dimensions 1,024 1,024
Layers 24 24
Attention Mechanism FlashAttention2 xFormers
Pooling Strategy Mean pooling CLS pooling
Additional Features 89 languages supported Patch size 14x14

tag교차 모달 검색 성능

Jina CLIP v2는 89개 언어에 대한 다국어 지원을 제공하며 아랍어, 중국어, 영어, 프랑스어, 독일어, 일본어, 러시아어, 스페인어를 포함한 주요 언어에서 최고 성능을 보여줍니다. 다국어 이미지 검색 벤치마크에서, NLLB 모델의 사전 학습된 텍스트 인코더를 사용하는 약간 더 큰 (1.3B, jina-clip-v2보다 44% 더 큼) 최신 CLIP 스타일 모델인 NLLB-CLIP-SigLIP와 비슷하거나 더 나은 성능을 보여줍니다.

tag영어 전용 텍스트 및 이미지

표준 교차 모달 검색 벤치마크(Flickr30k와 COCO)에서, jina-clip-v2는 전반적으로 강력한 개선을 보여줍니다. Flickr30k 이미지-텍스트 검색에서 98.0%의 최고 성능을 달성하여 전작과 NLLB-CLIP-SigLIP 모두를 능가합니다. 이 모델은 COCO 이미지-텍스트 검색에서 v1보다 최대 3.3% 향상된 성능을 보이면서, 다양한 벤치마크와 모달리티 방향에서 NLLB-CLIP-SigLIP와 경쟁력 있는 성능을 유지합니다.

Flickr30k Recall@5 성능:

Task Model Score Relative to v1 Relative to NLLB
Image-to-text jina-clip-v2 98.0 +1.7% +0.9%
jina-clip-v1 96.4 - -0.7%
nllb-siglip-large 97.1 - -
Text-to-image jina-clip-v2 89.8 +0.9% -2.6%
jina-clip-v1 89.0 - -3.5%
nllb-siglip-large 92.2 - -

COCO Recall@5 성능:

Task Model Score Relative to v1 Relative to NLLB
Image-to-text jina-clip-v2 81.5 +3.3% +2.9%
jina-clip-v1 78.9 - -0.4%
nllb-siglip-large 79.2 - -
Text-to-image jina-clip-v2 68.4 +2.9% -3.4%
jina-clip-v1 66.5 - -6.1%
nllb-siglip-large 70.8 - -

tag다국어 텍스트 및 이미지

다국어 교차 모달 벤치마크에서, jina-clip-v2는 강력한 성능을 보여주며, 특히 이미지-텍스트 검색에서 모든 데이터셋에서 NLLB-SigLIP를 능가하여 Crossmodal 3600에서 최대 +3.8% 향상을 보여줍니다. NLLB-SigLIP가 텍스트-이미지 검색에서 약간 더 강한 성능을 보이지만, 성능 차이는 일반적으로 3% 이내로 작습니다.

이미지->텍스트 Recall@5 성능:

Benchmark Model Score Relative to NLLB
Crossmodal 3600 jina-clip-v2 83.23 +3.8%
nllb-siglip-large 80.16 -
Multilingual MS Coco jina-clip-v2 86.03 +0.8%
nllb-siglip-large 85.37 -
XTD10 jina-clip-v2 85.98 +0.7%
nllb-siglip-large 85.41 -

텍스트->이미지 Recall@5 성능:

Benchmark Model Score Relative to NLLB
Crossmodal 3600 jina-clip-v2 81.43 -0.8%
nllb-siglip-large 82.07 -
Multilingual MS Coco jina-clip-v2 84.87 -3.1%
nllb-siglip-large 87.60 -
XTD10 jina-clip-v2 85.03 -3.0%
nllb-siglip-large 87.63 -

tag텍스트 전용 Dense Retriever 성능

이전 버전과 마찬가지로, jina-clip-v2의 텍스트 인코더는 효과적인 다국어 dense retriever로 사용될 수 있습니다. 포괄적인 다국어 MTEB 벤치마크에서 검색 작업에서 69.86%, 의미적 유사도 작업에서 67.77%를 달성하며 강력한 성능을 보여줍니다. 이러한 결과는 전문 텍스트 임베딩 모델인 jina-embeddings-v3와 경쟁력 있는 성능을 보여주며 그 다용도성을 입증합니다:

Task Model Score Relative to v3
Retrieval jina-clip-v2 69.86 -3.8%
jina-embeddings-v3 72.59 -
Semantic Similarity jina-clip-v2 67.77 -2.9%
jina-embeddings-v3 69.81 -

영어 작업에서 jina-clip-v2는 이전 버전과 NLLB-SigLIP 모두를 능가하는 일관된 개선을 보여주며, 특히 검색 성능에서 NLLB-SigLIP 점수의 거의 2배에 달하는 강력한 이점을 보여줍니다.

Task Model Score Relative to v1
STS jina-clip-v2 81.29 +0.5%
jina-clip-v1 80.92 -
nllb-siglip-large 74.65 -
Retrieval jina-clip-v2 49.33 +2.1%
jina-clip-v1 48.33 -
nllb-siglip-large 24.92 -

tagMatryoshka 표현 성능

텍스트와 이미지 인코더 모두 MRL을 지원하며, 강력한 성능을 유지하면서 출력 차원을 64로 줄일 수 있습니다. 임베딩 축소 평가에서 놀라운 압축 가능성이 드러났습니다. 75%의 공격적인 차원 축소에도 텍스트, 이미지, 크로스모달 작업 전반에 걸쳐 99% 이상의 성능을 유지했습니다.

tag이미지 분류

37개의 다양한 이미지 분류 벤치마크에서, 이미지 인코더는 차원 축소에 대한 강한 회복력을 보여줍니다. 1024에서 64 차원으로의 압축(94% 감소)은 top-5 정확도에서 단 8% 하락과 top-1에서 12.5% 하락만을 보여, 성능 손실을 최소화하면서 효율적인 배포가 가능함을 강조합니다.

이미지 분류를 위해, VTAB 데이터셋의 19개 벤치마크, VOC 2007, SUN397, STL10, Rendered SST2, ObjectNet, MNIST, German Traffic Sign Recognition Benchmark (GTSRB), Fine-Grained Visual Classification of Aircraft (FGVC-Aircraft), FER 2013, Country211, Cars196, ImageNet-A, ImageNet-O,ImageNet1k, ImageNet Sketch, 그리고 ImageNet v2를 사용했습니다.

tag크로스 모달 검색

차원을 94%나 대폭 축소하여 64차원으로 줄였음에도 불구하고, 잘린 이미지와 텍스트 임베딩을 사용한 크로스 모달 검색은 놀랍도록 강건하게 유지되어 이미지-텍스트 성능의 93%와 텍스트-이미지 성능의 90%를 보존했습니다.

6개의 벤치마크를 사용했으며, 그 중 3개는 다국어를 지원합니다: Crossmodal-3600 (36개 언어), flickr30k (영어만), flickr8k (영어만), MS COCO Captions (영어만), Multilingual MS COCO Captions (10개 언어), XTD 200 (27개 언어)

tag텍스트 전용 검색

영어 전용 MTEB 벤치마크에서, 1024차원에서 64차원으로 압축된 텍스트 임베딩은 의미적 유사성을 놀랍도록 잘 보존하여 단 2.1%만 감소했으며, 검색은 17.5%의 적정 수준의 감소를 보였습니다.

tag시작하기

tagAPI를 통한 사용

이 코드는 Python의 requests를 사용하여 임베딩을 생성하는 방법을 보여줍니다. 텍스트 문자열과 base64 이미지 또는 URL을 전달하고, 원하는 차원 크기를 지정하면 됩니다(기본값 1024, 아래에서는 768로 표시).

import requests
import numpy as np
from numpy.linalg import norm

cos_sim = lambda a,b: (a @ b.T) / (norm(a)*norm(b))

url = 'https://api.jina.ai/v1/embeddings'

headers = {
  'Content-Type': 'application/json',
  'Authorization': 'Bearer <YOUR_JINA_AI_API_KEY>'
}

data = {
  'input': [
     {"text": "Bridge close-shot"},
     {"url": "https://fastly.picsum.photos/id/84/1280/848.jpg?hmac=YFRYDI4UsfbeTzI8ZakNOR98wVU7a-9a2tGF542539s"}],
  'model': 'jina-clip-v2',
  'encoding_type': 'float',
  'dimensions': '768' 
}

response = requests.post(url, headers=headers, json=data)
sim = cos_sim(np.array(response.json()['data'][0]['embedding']), np.array(response.json()['data'][1]['embedding']))
print(f"Cosine text<->image: {sim}")

반드시 <YOUR_JINA_AI_API_KEY>를 활성화된 Jina API 키로 교체하세요. 여기에서 100만 개의 무료 토큰이 포함된 무료 API 키를 받을 수 있습니다.

tag이미지 토큰 가격 책정

우리 API는 텍스트와 이미지 토큰을 모두 계산합니다. 이미지의 경우, 토큰 소비량은 전체 이미지 영역을 커버하는 데 필요한 512x512 픽셀 타일의 수를 기준으로 합니다. 각 타일은 부분적으로 채워진 타일을 포함하여 처리하는 데 4,000 토큰이 소비됩니다. 최적의 비용 효율성을 위해, API 사용자들이 요청을 보내기 전에 이미지를 512x512로 리사이즈할 것을 권장합니다.

이미지 해상도 필요한 타일 수 토큰 비용
512x512 1 4,000
720x720 4 16,000
1080x1080 9 36,000
정사각형 이미지의 경우, 최적의 비용 효율을 위해 512x512로 리사이즈하세요. 종횡비에 민감한 작업의 경우, 가장 긴 변을 512로 조정하고 이미지를 중앙에 두고 검은색으로 패딩하세요. 일반적인 용도의 경우, 직접 512x512로 리사이징하는 것이 잘 작동합니다.

tagCSP 마켓플레이스를 통한 사용

Jina CLIP v2는 AWS, Azure 및 GCP에서 직접 사용할 수 있으며, 해당 플랫폼에 명시된 가격으로 제공됩니다.

AWS Marketplace: Jina CLIP v2
Microsoft Azure Marketplace
Google Cloud console
Google Cloud Marketplace에서 스마트하게 지출하고 더 빠르게 조달하며 Google Cloud 약정 지출을 관리하세요. Google Cloud에서 실행되도록 최적화된 2000개 이상의 SaaS, VM, 개발 스택 및 Kubernetes 앱 카탈로그를 둘러보세요.

tagVectorDB를 통해

지식이 풍부한 AI를 구축하기 위한 벡터 데이터베이스 | Pinecone
수백만 개의 항목을 밀리초 단위로 검색하여 모든 객체와 유사한 매치를 찾아보세요. API 호출 하나로 차세대 검색을 경험하실 수 있습니다.
Pinecone Docs
멀티모달 임베딩 | Weaviate
Weaviate의 Jina AI API 통합을 통해 Weaviate에서 직접 모델 기능에 액세스할 수 있습니다.
Weaviate
Jina 임베딩 - Qdrant
Qdrant는 Rust로 작성된 오픈소스 벡터 데이터베이스 및 벡터 검색 엔진입니다. 편리한 API로 빠르고 확장 가능한 벡터 유사도 검색 서비스를 제공합니다.
editQdrant

tag결론

6월에 출시한 jina-clip-v1은 OpenAI의 CLIP 모델을 확장하여 8,192 토큰까지의 텍스트 입력을 지원했고, 최첨단 다국어 jina-embeddings-v3를 기반으로, jina-clip-v2는 세 가지 주요 발전을 이루었습니다: 89개 언어에 대한 다국어 지원, 512x512 해상도의 이미지 지원 확대, 그리고 더 잘린 임베딩을 위한 마트료시카 표현 학습입니다.

CLIP 계열 모델들은 범용 멀티모달 애플리케이션의 중추로 자리잡았습니다. jina-clip-v2와 함께, 우리는 이러한 기능을 한 단계 발전시켜 언어 장벽을 허물고 더 정확한 크로스 모달 이해와 검색을 제공합니다. 이번 출시를 통해 전 세계 개발자들에게 멀티모달 검색과 검색 기능을 더욱 강력하고 접근하기 쉽게 만들어 주는 약속을 이행한다고 믿습니다.

범주:
star
선택
보도 자료
rss_feed
사무실
location_on
캘리포니아주 서니베일
710 Lakeway Dr, Ste 200, 서니베일, CA 94085, 미국
location_on
독일 베를린(본사)
Prinzessinnenstraße 19-20, 10969 베를린, 독일
location_on
중국 베이징
중국 베이징 하이뎬구 서가 48호 6호관 5층
location_on
중국 선전
중국 선전 푸안 테크놀로지 빌딩 4층 402호
검색 기반
리더
벡터 모델
재배열자
심층 검색
분류자
얇게 써는 기계
API 문서
Jina API 키 받기
비율 제한
API 상태
회사
회사 소개
영업팀에 문의
소식
인턴 프로그램
우리와 함께
open_in_new
로고 다운로드
open_in_new
자귀
안전
이용약관
은둔
쿠키 관리
email
Jina AI © 2020-2025.