jina-embeddings-v5-text-nano

벡터 모델

CC BY-NC 4.0

릴리스 노트

jina-embeddings-v5-text-nano

엣지 배포를 위한 최첨단 다국어 벡터

특허

CC-BY-NC-4.0

출시일

2026-02-18

입력하다

텍스트

산출

벡터

지원되는 러시아 인형 크기

128

256

512

768

후기 분할 기법

모델 세부정보

매개변수: 239M

단어 길이를 입력하세요: 8K

출력 크기: 768

기본 모델

EuroBERT-210M

훈련된 언어

32 언어

지원되는 언어

108 언어

양적 버전

GGUF

Apple 칩 최적화

MLX

개요

jina-embeddings-v5-text-nano는 EuroBERT-210M 백본을 기반으로 구축된 다국어 텍스트 임베딩 모델로, 2억 3,900만 개의 파라미터를 자랑합니다. EuroBERT-210M은 15개의 주요 유럽 및 세계 언어에 대해 사전 학습된 양방향 인코더입니다. 이 모델은 마지막 터미널 풀링(last-terminal pooling)을 통해 768차원의 임베딩을 생성하며, 최대 32,000개의 어휘 단위를 가진 컨텍스트를 지원합니다. 또한 검색, 의미 유사성, 클러스터링, 분류를 위한 4개의 작업별 LoRA 어댑터(각각 670만 개의 파라미터)를 포함하고 있습니다. 마트료시카 표현 학습 기법을 통해 임베딩을 최소 32차원까지 축소할 수 있습니다. Qwen3-Embedding-4B 임베딩 증류와 작업별 어댑터 학습을 결합하여 학습된 이 모델은 두 배 이상의 크기를 가진 모델과 유사한 성능을 달성하므로, 지연 시간에 민감하고 엣지 환경에 배포되는 애플리케이션에 이상적입니다.

방법

훈련 과정은 jina-embeddings-v5-text-small과 동일하게 2단계 절차를 사용하지만, EuroBERT-210M 백본 네트워크에 적용되었습니다. 첫 번째 단계는 임베딩 증류로, 코사인 거리 손실 함수를 사용하여 학생 모델의 768차원 임베딩을 선형 투영 레이어를 통해 교사 모델의 공간으로 매핑함으로써 Qwen3-Embedding-4B로부터 지식을 전달합니다. 훈련에는 여러 언어로 된 300개 이상의 데이터셋에서 추출한 텍스트 쌍이 사용되었습니다. 두 번째 단계에서는 고정된 백본 네트워크 가중치를 사용하여 네 가지 특정 작업(검색(InfoNCE + 지식 증류 + GOR), 텍스트 매칭(CoSENT + 지식 증류), 클러스터링(작업별 교사 모델 지침을 사용한 재증류), 분류(양방향 InfoNCE + 관계형 지식 증류))에 대한 LoRA 어댑터를 훈련했습니다. 각 어댑터는 670만 개의 파라미터를 포함합니다. EuroBERT 기간망은 영어, 프랑스어, 독일어, 스페인어, 중국어, 일본어, 아랍어, 힌디어 등 유럽 및 세계 주요 15개 언어에 대한 강력한 다국어 서비스를 제공합니다.

성능

MMTEB(다국어) 데이터셋에서 jina-embeddings-v5-text-nano 모델은 단 2억 3,900만 개의 파라미터를 사용하여 작업 수준 평균 점수 65.5점, 유형 수준 평균 점수 57.7점을 달성했습니다. 이는 KaLM-mini-v2.5(6,010점, 4억 9,400만 파라미터), voyage-4-nano(5,890점, 4억 8,000만 파라미터), Gemma-300M(6,110점, 3억 800만 파라미터)을 포함하여 5억 개 미만의 파라미터를 사용하는 모든 모델보다 우수한 성능입니다. 분류 점수는 69.2점, 클러스터링 점수는 52.7점, 쌍 분류 점수는 81.9점, 재순위 점수는 64.6점, 검색 점수는 63.3점, STS 점수는 78.2점입니다. 영어 MTEB 데이터셋에서 평균 71.0점을 달성하여, 매개변수가 더 많은 jina-embeddings-v5-text-small 모델(71.7점)과 거의 동등한 성능을 보였습니다. 검색 벤치마크에서 이 방법은 MTEB-M에서 63.26점, RTEB에서 64.08점, BEIR에서 56.06점, LongEmbed에서 63.65점을 기록했습니다. 임베딩은 이진 양자화 환경에서도 안정적인 성능을 유지하며, GOR 정규화는 MTEB 검색 성능 저하를 2점 이내로 제한합니다.

가이드

작업에 따라 적절한 LoRA 어댑터를 선택하십시오. 비대칭 쿼리-문서 검색에는 'retrieval' 어댑터(쿼리 앞에 'Query:', 단락 앞에 'Document:' 추가), 대칭 유사도 작업에는 'text-matching' 어댑터(두 입력 모두에 'Document:' 접두사 추가), 관련 문서 그룹화에는 'clustering' 어댑터, 분류 작업에는 'classification' 어댑터를 사용하십시오. 이 나노모델은 지연 시간에 민감하고 리소스가 제한된 환경에 최적화되어 있으며, 크기가 두 배 이상인 모델과 유사한 정확도를 유지합니다. 마트료시카 절단법을 통해 임베딩 차원을 768에서 32까지 줄일 수 있지만, 최상의 결과를 얻으려면 차원을 256 이상으로 유지하십시오. 이진 양자화가 지원됩니다. EuroBERT 백본은 영어, 프랑스어, 독일어, 스페인어, 중국어, 일본어, 아랍어, 힌디어 등 15개 주요 언어에 대한 강력한 지원을 제공합니다. 임베딩 비교는 코사인 유사도를 사용하여 수행됩니다. 이는 Jina AI API, Hugging Face(Sentence Transformers 및 vLLM), 그리고 llama.cpp의 양자화 변형을 통해 얻을 수 있습니다.

이 모델을 언급하는 블로그

5월 12, 2026 • 7 독서의 분

jina-embeddings-v5-omni: 텍스트, 이미지, 오디오 및 비디오를 위한 벡터 모델(Embeddings)

하나의 모델, 네 가지 모달리티: 텍스트, 이미지, 오디오, 비디오. 1.6B 및 0.9B 크기의 동급 최강 옴니 向量模型(Embeddings).

3월 06, 2026 • 6 독서의 분

원시 수치 값에서 임베딩 모델 식별하기

원시 숫자를 읽어 벡터 모델을 핑거프린팅하는 아주 작은 트랜스포머입니다. 피처 엔지니어링은 필요하지 않습니다.

2월 19, 2026 • 7 독서의 분

jina-embeddings-v5-text: 새로운 SOTA 소형 다국어 임베딩(Embeddings)

최고 수준의 성능을 자랑하는 1B 미만의 다국어 向量模型 두 가지가 Elastic Inference Service, Llama.cpp 및 MLX에서 제공됩니다.