소식
모델
제품
keyboard_arrow_down
심층 검색
검색하고, 읽고, 추론하여 가장 좋은 답을 찾으세요.
리더
URL을 읽거나 검색하면 대규모 모델에 대한 지원이 더 향상됩니다.
벡터 모델
세계적 수준의 다중 모드 다중 언어 임베딩.
재배열자
검색 관련성을 극대화하는 세계적 수준의 신경 검색기입니다.
더
keyboard_arrow_down
분류자
이미지와 텍스트의 제로 샷 및 퓨어 샷 분류.
얇게 써는 기계
긴 텍스트를 청크 또는 토큰으로 분할합니다.

API 문서
AI 프로그래밍 어시스턴트 IDE 또는 대형 모델에 대한 코드를 자동으로 생성합니다.
open_in_new


회사
keyboard_arrow_down
회사 소개
영업팀에 문의
인턴 프로그램
우리와 함께
open_in_new
로고 다운로드
open_in_new
이용약관


로그인
login
새로운 아키텍처
시작하기
평가
결론
star
선택
보도 자료
4월 08, 2025

jina-reranker-m0: 다국어 멀티모달 문서 재정렬기

시각적 문서를 검색하기 위한 새로운 다국어 멀티모달 리랭커인 jina-reranker-m0를 소개합니다. 다국어 긴 문서와 코드 검색 작업에서 최고 수준(SOTA)의 성능을 제공합니다.
Jina AI
Jina AI • 20 독서의 분
jinaai/jina-reranker-m0 · Hugging Face
우리는 오픈소스와 오픈 사이언스를 통해 인공지능을 발전시키고 대중화하는 여정을 걷고 있습니다.

오늘 우리는 jina-reranker-m0를 공개합니다. 이는 여러 언어에 걸친 시각적 문서 랭킹을 위한 새로운 다국어 멀티모달 리랭커 모델입니다. 이 모델은 쿼리와 함께 텍스트, 그림, 표, 인포그래픽 및 다양한 레이아웃을 포함하는 시각적으로 풍부한 문서 이미지 컬렉션을 29개 이상의 언어로 처리할 수 있습니다. 입력 쿼리에 대한 관련성에 따라 문서의 순위가 매겨진 목록을 출력합니다. jina-reranker-v2-base-multilingual와 비교하여, jina-reranker-m0는 다국어 콘텐츠, 긴 문서, 코드 검색 작업에 대한 텍스트 리랭킹도 개선했습니다.

jina-reranker-m0의 ViDoRe, MBEIR, Winoground 시각적 검색 벤치마크에서의 성능은 여러 도메인과 언어에 걸친 다양한 멀티모달 검색 작업에서의 능력을 보여줍니다. 각 점은 다양한 유형/작업의 시각적 문서에 대한 성능 점수를 나타냅니다. 박스 플롯은 이러한 점수들의 분포를 보여주며, 강조된 숫자는 평균 성능을 나타냅니다. 전체 벤치마크 결과는 이 게시물의 부록을 참조하시기 바랍니다.
이 박스 플롯은 jina-reranker-m0의 4가지 텍스트 전용 리랭킹 벤치마크에서의 성능을 보여줍니다. 각 벤치마크는 박스 플롯 내의 개별 점으로 표시되는 여러 데이터셋, 언어 또는 작업을 포함할 수 있습니다. 박스 플롯은 이러한 점수들의 분포를 보여주며, 강조된 숫자는 평균 성능을 나타냅니다. 대부분의 벤치마크가 NDCG@10을 성능 지표로 사용하지만, MKQA는 recall@10을 사용합니다. 이는 MKQA의 주석 데이터가 NDCG 계산을 지원하지 않기 때문입니다(공식 평가는 휴리스틱을 통해 문서 관련성을 결정하는 recall을 사용합니다). 전체 벤치마크 결과는 이 게시물의 부록에서 확인할 수 있습니다.

tag새로운 아키텍처

jina-reranker-m0의 아키텍처는 Qwen2-VL-2B를 기반으로 하며 21억 개의 매개변수로 구성되어 있습니다. 이 모델은 쿼리와 관련하여 문서의 시각적 및 텍스트 요소를 쌍별 비교를 통해 평가하여 효율적으로 순위를 매깁니다.

jina-reranker-v2-base-multilingual와 달리, jina-reranker-m0는 기존의 크로스 인코더 아키텍처에서 디코더 전용 비전 언어 모델로 전환했습니다. Qwen2-VL의 사전 학습된 비전 인코더와 프로젝터를 활용하고, LoRA로 LLM을 미세 조정했으며, 쿼리-문서 관련성을 측정하는 랭킹 로짓을 생성하기 위해 MLP를 후속 학습했습니다. 이는 랭킹 작업에 최적화된 판별 모델을 제공합니다.

jina-reranker-m0 jina-reranker-v2
아키텍처 Vision Language Model Cross-Encoder
기본 모델 Qwen2-VL-2B Jina-XLM-RoBERTa
매개변수 2.4 B 278 M
최대 컨텍스트 길이 (쿼리 + 문서) 10,240 8,192
최대 이미지 패치 (동적 해상도) 768 × 28 × 28 ❌
다국어 지원 ✅ ✅
지원 작업 Text2Text, Text2Image, Image2Text, Text2Mixed Text2Text

이 새로운 아키텍처를 통해 jina-reranker-m0는 최대 32K 토큰을 처리할 수 있으며, 시각적 및 텍스트 입력을 원활하게 결합할 수 있습니다. 이 모델은 최소 56×56 픽셀에서 4K 해상도까지의 이미지를 지원합니다. 이미지를 처리할 때, ViT와 프로젝터는 인접한 2×2 토큰을 LLM 입력을 위한 단일 시각적 토큰으로 압축합니다. <|vision_start|>와 <|vision_end|>와 같은 특수 토큰은 시각적 토큰 경계를 명확히 표시하여, 언어 모델이 시각적 정보를 적절히 처리하고 시각적 및 텍스트 요소를 통합하는 정교한 멀티모달 추론을 수행할 수 있게 합니다.

이 아키텍처는 또한 jina-clip-v1과 jina-clip-v2와 같은 이전 모델들을 괴롭혔던 모달리티 갭 문제를 효과적으로 해결합니다. 이전에는 이미지는 다른 이미지 근처에 클러스터링되고 텍스트는 다른 텍스트 근처에 클러스터링되어 표현 공간에서 단절이 발생했습니다. 이는 후보 문서에 이미지와 텍스트가 모두 포함되어 있을 때 텍스트 쿼리를 사용하여 이미지를 검색하는 것이 문제가 된다는 것을 의미했습니다. jina-reranker-m0를 사용하면 이제 이 갭에 대해 걱정할 필요 없이 이미지와 문서의 순위를 함께 매길 수 있어 진정으로 통합된 멀티모달 검색 경험을 만들 수 있습니다.

멀티모달 검색 시스템에서 "모달리티 갭"은 모델이 텍스트-텍스트 유사도와 텍스트-이미지 유사도를 점수화하는 방식의 차이를 의미합니다. 왼쪽 이미지(jina-clip-v2)를 보면 두 분포 간에 명확한 분리가 있습니다: 텍스트-텍스트 유사도 분포(빨간색)는 0.35 근처에서 정점을 이룹니다. 텍스트-이미지 유사도(파란색)는 0.65-0.7 근처에서 정점을 이룹니다. 이 현저한 분리는 큰 모달리티 갭을 나타냅니다 - 모델이 텍스트-텍스트와 텍스트-이미지 쌍을 근본적으로 다른 범위에서 점수화합니다. 이는 모달리티 간의 점수를 직접 비교하기 어렵게 만듭니다. 모달리티 갭이 없는 시스템에서는 분포가 크게 겹치기를 기대할 수 있으며, 이는 모델이 모달리티 유형이 아닌 순수한 관련성에 기반하여 두 유형의 쌍을 비슷한 범위에서 점수화한다는 것을 의미합니다.

우리의 학습은 최대 10K 입력 토큰으로 제한되었으며, 이미지당 최대 768 토큰(<|vision_start|>와 <|vision_end|> 마커 사이)을 사용했다는 점을 주목할 만합니다. 또한 우리는 image-to-image, image-to-multimodal, 또는 text-to-multimodal 리랭킹 작업을 위한 특별한 학습을 하지 않았습니다. 여기서 "멀티모달"은 입력에서 이미지와 텍스트 토큰을 모두 포함하는 단일 문서를 의미합니다. 쿼리와 문서에서 가능한 모든 이미지 및 텍스트 토큰의 조합을 살펴보면, jina-reranker-m0가 지원하는 전체 작업 범위를 아래 표에 요약할 수 있습니다.

jina-reranker-m0 는 재순위 지정을 위한 다양한 쿼리와 문서 입력 조합을 지원합니다. 광범위한 학습 덕분에 텍스트-텍스트, 텍스트-이미지, 이미지-텍스트, 텍스트-혼합-단일 모달 작업에서 최첨단 성능을 달성합니다. 이 모델은 특별히 학습하지 않은 다른 입력 조합도 제로샷 방식으로 처리할 수 있습니다 - 아키텍처가 이러한 토큰 조합을 수용하지만 이러한 작업에 대해 특별히 학습하지는 않았습니다.

테스트에서 모델이 이러한 학습되지 않은 순위 지정 작업으로 확장될 수 있다는 몇 가지 증거를 발견했지만, 이러한 영역에서의 효과는 모델의 제로샷 전이성이나 의도하지 않은 학습 부작용의 결과로 보아야 합니다. 우리는 이러한 작업에 대한 모델의 성능을 심각하게 평가하지 않았으며, 향후 연구에서 이러한 기능을 더 철저히 탐구할 계획입니다.

tag시작하기

tagAPI를 통해

아래 코드는 쿼리 "small language model data extraction"와 이미지 및 텍스트 문서 컬렉션 간의 관련성 점수를 계산하는 방법을 보여줍니다. 텍스트 문자열, base64로 인코딩된 이미지 또는 이미지 URL을 전달할 수 있습니다. 신규 사용자는 100만 개의 무료 토큰이 포함된 Jina API 키를 받을 수 있습니다. API는 이미지를 쿼리로 사용하는 것을 지원하지 않지만, Hugging Face Transformers 라이브러리를 통해 모델에 접근할 때는 이미지를 쿼리로 사용할 수 있습니다.

curl -X POST \
  https://api.jina.ai/v1/rerank \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer JINA_API_KEY" \
  -d '{
  "model": "jina-reranker-m0",
  "query": "small language model data extraction",
  "documents": [
    {
      "image": "https://raw.githubusercontent.com/jina-ai/multimodal-reranker-test/main/handelsblatt-preview.png"
    },
    {
      "image": "https://raw.githubusercontent.com/jina-ai/multimodal-reranker-test/main/paper-11.png"
    },
    {
      "image": "https://raw.githubusercontent.com/jina-ai/multimodal-reranker-test/main/wired-preview.png"
    },
    {
      "text": "We present ReaderLM-v2, a compact 1.5 billion parameter language model designed for efficient web content extraction. Our model processes documents up to 512K tokens, transforming messy HTML into clean Markdown or JSON formats with high accuracy -- making it an ideal tool for grounding large language models. The models effectiveness results from two key innovations: (1) a three-stage data synthesis pipeline that generates high quality, diverse training data by iteratively drafting, refining, and critiquing web content extraction; and (2) a unified training framework combining continuous pre-training with multi-objective optimization. Intensive evaluation demonstrates that ReaderLM-v2 outperforms GPT-4o-2024-08-06 and other larger models by 15-20% on carefully curated benchmarks, particularly excelling at documents exceeding 100K tokens, while maintaining significantly lower computational requirements."
    },
    {
      "image": "https://jina.ai/blog-banner/using-deepseek-r1-reasoning-model-in-deepsearch.webp"
    },
    {
      "text": "数据提取么?为什么不用正则啊,你用正则不就全解决了么?"
    },
    {
      "text": "During the California Gold Rush, some merchants made more money selling supplies to miners than the miners made finding gold."
    },
    {
      "text": "Die wichtigsten Beiträge unserer Arbeit sind zweifach: Erstens führen wir eine neuartige dreistufige Datensynthese-Pipeline namens Draft-Refine-Critique ein, die durch iterative Verfeinerung hochwertige Trainingsdaten generiert; und zweitens schlagen wir eine umfassende Trainingsstrategie vor, die kontinuierliches Vortraining zur Längenerweiterung, überwachtes Feintuning mit spezialisierten Kontrollpunkten, direkte Präferenzoptimierung (DPO) und iteratives Self-Play-Tuning kombiniert. Um die weitere Forschung und Anwendung der strukturierten Inhaltsextraktion zu erleichtern, ist das Modell auf Hugging Face öffentlich verfügbar."
    }
  ],
  "return_documents": false
}'

아래는 응답 결과입니다. 첫 번째 결과 index=1는 ReaderLM-v2 논문 스크린샷에 해당합니다.

{"model":"jina-reranker-m0","usage":{"total_tokens":2829},"results":[{"index":1,"relevance_score":0.9587112551898949},{"index":3,"relevance_score":0.9337408271911014},{"index":7,"relevance_score":0.8922925217195924},{"index":2,"relevance_score":0.8891905997562045},{"index":0,"relevance_score":0.8827516945848907},{"index":4,"relevance_score":0.8701035914834407},{"index":6,"relevance_score":0.8676828987527296},{"index":5,"relevance_score":0.8455347349164652}]}

tagCSP 마켓플레이스를 통해

jina-reranker-m0는 곧 AWS, Azure 및 GCP에서 해당 플랫폼에 명시된 가격으로 직접 이용할 수 있습니다.

tagHuggingFace를 통해

Hugging Face 페이지에서 로컬로 모델을 사용할 수도 있습니다. 작동 방식을 보여주는 Google Colab 노트북을 준비했습니다. 웹 API와 비교하여 로컬에서 모델을 사용하면 이미지를 쿼리로 사용하고 멀티모달 문서로 작업하는 등 더 큰 유연성을 제공합니다.

Google Colab

tag평가

[public]-jina-reranker-m0-evaluation-results
Google Docs

전체 평가 결과는 이 Google Spreadsheet에서 확인할 수 있습니다.

tagBEIR (텍스트-텍스트, 영어만)

BEIR: A Heterogenous Benchmark for Zero-shot Evaluation of Information Retrieval Models
Existing neural information retrieval (IR) models have often been studied in homogeneous and narrow settings, which has considerably limited insights into their out-of-distribution (OOD) generalization capabilities. To address this, and to facilitate researchers to broadly evaluate the effectiveness of their models, we introduce Benchmarking-IR (BEIR), a robust and heterogeneous evaluation benchmark for information retrieval. We leverage a careful selection of 18 publicly available datasets from diverse text retrieval tasks and domains and evaluate 10 state-of-the-art retrieval systems including lexical, sparse, dense, late-interaction and re-ranking architectures on the BEIR benchmark. Our results show BM25 is a robust baseline and re-ranking and late-interaction-based models on average achieve the best zero-shot performances, however, at high computational costs. In contrast, dense and sparse-retrieval models are computationally more efficient but often underperform other approaches, highlighting the considerable room for improvement in their generalization capabilities. We hope this framework allows us to better evaluate and understand existing retrieval systems, and contributes to accelerating progress towards better robust and generalizable systems in the future. BEIR is publicly available at https://github.com/UKPLab/beir.
arXiv.orgNandan Thakur

BEIR는 IR 모델의 다양성과 견고성을 평가하기 위해 설계된 이질적인 정보 검색 벤치마크입니다. 다양한 도메인의 데이터셋을 포함하고 있으며 제로샷 평가에 중점을 둡니다. NDCG, Recall@K, MRR과 같은 표준화된 평가 지표가 사용됩니다.

Model AVG (NDCG@10) TREC-COVID NFCorpus NQ HotpotQA FiQA ArguAna Touche-2020 DBPedia SCIDOCS FEVER Climate-FEVER SciFact Quora
jina-reranker-m0 58.95 84.17 41.03 72.25 76.99 51.62 40.69 31.79 49.34 22.91 91.14 36.42 79.94 88.01
jina-embeddings-v3 (1024 tokens) 55.81 77.81 36.65 64.31 64.63 47.47 54.31 26.55 41.07 19.91 89.00 42.33 72.4 89.06
bge-reranker-v2-m3 56.51 82.19 34.33 69.52 77.89 45.45 36.21 33.12 46.72 17.79 91.03 38.69 72.64 89.10
jina-reranker-v2-multilingual 57.06 80.53 37.17 67.39 76.17 46.48 39.28 32.35 47.81 20.03 93.02 37.17 76.50 87.83

tagMIRACL (Text2Text, 다국어, 18개 언어)

Making a MIRACL: 연속적인 언어들에 걸친 다국어 정보 검색
MIRACL (Multilingual Information Retrieval Across a Continuum of Languages)은 전 세계적으로 30억 이상의 원어민을 포괄하는 18개의 서로 다른 언어에 걸친 애드혹 검색에 초점을 맞춘 WSDM 2023 Cup 챌린지를 위해 구축한 다국어 데이터셋입니다. 이 언어들은 다양한 유형학을 가지고 있고, 많은 다른 언어군에서 유래했으며, 연구자들이 일반적으로 고자원 및 저자원 언어로 특징짓는 다양한 수준의 가용 자원과 관련이 있습니다. 우리의 데이터셋은 쿼리와 코퍼스가 동일한 언어인 단일어 검색을 위한 모델의 생성과 평가를 지원하도록 설계되었습니다. 총 18개 언어의 위키피디아에서 약 77,000개의 쿼리에 대해 700,000개 이상의 고품질 관련성 판단을 수집했으며, 모든 평가는 우리 팀이 고용한 원어민들에 의해 수행되었습니다. 우리의 목표는 연속적인 언어들에 걸쳐 검색을 개선하는 연구를 촉진하여, 특히 전통적으로 소외되었던 사람들을 포함한 전 세계의 다양한 인구를 위한 정보 접근성을 향상시키는 것입니다. 이 개요 논문은 우리가 커뮤니티와 공유하는 데이터셋과 기준선에 대해 설명합니다. MIRACL 웹사이트는 http://miracl.ai/에서 이용할 수 있습니다.
arXiv.orgXinyu Zhang

MIRACL은 18개 언어에 걸친 대규모 다국어 애드혹 정보 검색 데이터셋입니다. 30억 명 이상의 원어민 화자를 포함하며 철저한 인간 주석이 특징입니다. 단일어 검색 작업에 중점을 두고 있습니다.

Model AVG (NDCG@10) ar bn en es fa fi fr hi id ja ko ru sw te th zh de yo
jina-reranker-m0 66.75 79.78 78.01 59.21 53.56 58.80 78.00 56.66 62.83 54.92 66.51 72.86 67.26 59.04 70.19 80.37 64.51 58.50 80.44
jina-embeddings-v3 (8192 tokens) 58.90 71.53 69.86 48.37 46.91 54.13 71.15 50.90 55.05 47.83 56.46 64.76 55.63 54.07 70.48 73.56 55.29 49.18 65.01
bge-reranker-v2-m3 69.32 80.51 81.85 57.67 57.64 61.92 80.38 59.60 67.66 58.86 67.37 75.14 67.61 68.92 76.69 82.29 64.46 58.32 80.85
jina-reranker-v2-multilingual 63.65 72.50 79.42 46.66 51.54 57.81 73.05 50.90 60.94 56.66 59.15 72.60 53.43 66.47 74.62 77.75 62.49 53.06 76.69

tagMLDR (Text2Text, 다국어 긴 문서, 13개 언어)

BGE M3-Embedding: 자가 지식 증류를 통한 다국어, 다기능, 다중 입도 텍스트 임베딩
본 논문에서는 다국어성, 다기능성, 다중 입도를 특징으로 하는 M3-Embedding이라는 새로운 임베딩 모델을 소개합니다. 100개 이상의 작업 언어를 지원하여 다국어 및 교차 언어 검색 작업에서 새로운 최첨단 성능을 이끌어냅니다. 실제 IR 응용 프로그램을 위한 통합 모델 기반을 제공하는 밀집 검색, 다중 벡터 검색, 희소 검색이라는 세 가지 일반적인 검색 기능을 동시에 수행할 수 있습니다. 짧은 문장부터 최대 8192 토큰의 긴 문서까지 다양한 입도의 입력을 처리할 수 있습니다. M3-Embedding의 효과적인 훈련에는 다음과 같은 기술적 기여가 포함됩니다. 서로 다른 검색 기능의 관련성 점수를 교사 신호로 통합하여 훈련 품질을 향상시킬 수 있는 새로운 자가 지식 증류 접근 방식을 제안합니다. 또한 배치 전략을 최적화하여 대규모 배치 크기와 높은 훈련 처리량을 가능하게 함으로써 임베딩의 식별력을 보장합니다. 우리가 아는 한, M3-Embedding은 이러한 강력한 다양성을 실현한 최초의 임베딩 모델입니다. 모델과 코드는 https://github.com/FlagOpen/FlagEmbedding에서 공개될 예정입니다.
arXiv.orgJianlv Chen

MLDR은 장문 문서 검색을 위해 특별히 설계된 다국어 데이터셋으로, 13개 언어를 지원합니다. GPT-3.5를 사용하여 문서에 대한 질문을 생성합니다. 이 데이터셋은 Wikipedia, Wudao 및 mC4를 기반으로 구축되었습니다.

Model AVG (NDCG@10) ar de en es fr hi it ja ko pt ru th zh
jina-reranker-m0 59.83 55.86 51.25 54.67 87.63 82.59 32.76 73.25 58.93 55.73 86.08 66.73 39.17 33.14
jina-embeddings-v3 (8192 tokens) 39.71 28.44 31.57 29.07 62.08 59.79 25.47 53.72 38.36 32.37 63.26 49.65 25.15 17.26
bge-reranker-v2-m3 53.53 49.19 45.39 43.92 74.57 68.67 44.75 62.79 49.27 48.24 76.45 62.84 38.82 31.02
jina-reranker-v2-multilingual 59.50 51.96 50.13 46.85 86.34 82.25 49.50 69.00 59.07 52.19 85.26 68.06 38.73 34.15

tagMKQA (Text2Text, 다국어 질의응답, 24개 언어, 중국어 3가지 변형)

MKQA: A Linguistically Diverse Benchmark for Multilingual Open Domain Question Answering
교차 언어 모델링의 발전은 도전적이고 현실적이며 다양한 평가 세트에 달려있습니다. 우리는 26개의 유형학적으로 다양한 언어에 걸쳐 정렬된 10k개의 질문-답변 쌍(총 260k 질문-답변 쌍)으로 구성된 개방형 도메인 질의응답 평가 세트인 Multilingual Knowledge Questions and Answers (MKQA)를 소개합니다. 답변은 철저하게 검토된 언어 독립적 데이터 표현을 기반으로 하여, 언어 간 결과를 비교할 수 있고 언어별 구절에 독립적입니다. 26개 언어로 구성된 이 데이터셋은 질의응답 평가를 위한 가장 광범위한 언어를 제공합니다. 우리는 Natural Questions에서 학습된 다양한 최신 방법과 생성적 및 추출적 질의응답을 위한 기준선을 제로샷 및 번역 설정에서 벤치마크했습니다. 결과는 이 데이터셋이 영어에서도 어렵지만, 특히 저자원 언어에서 더욱 어렵다는 것을 보여줍니다.
arXiv.orgShayne Longpre

MKQA는 Google Natural Questions에서 추출한 10k개의 질문-답변 쌍을 26개의 유형학적으로 다양한 언어로 정렬한 오픈 도메인 질문 답변 평가 세트입니다.

Model AVG (recall@10) ar da de es en fi fr he hu it ja km ko ms nl no pl pt ru sv th tr vi zh_cn zh_hk zh_tw
jina-reranker-m0 68.19 63.88 70.57 70.52 71.26 73.47 64.10 71.11 63.68 63.23 70.30 69.13 50.43 64.30 70.78 71.73 70.25 69.72 70.57 70.78 70.69 69.80 67.90 69.68 69.12 68.23 67.79
jina-embeddings-v3 (8192 tokens) 65.63 59.00 69.12 68.27 68.15 71.14 65.66 68.30 59.51 63.23 68.30 64.36 56.13 58.98 68.30 69.53 68.65 67.26 67.93 67.06 68.68 66.32 66.97 66.87 63.38 63.59 61.55
bge-reranker-v2-m3 67.88 63.09 70.15 68.91 68.92 73.00 68.71 68.71 70.27 64.00 68.15 68.47 60.43 63.95 68.80 70.77 69.10 67.44 67.40 69.77 70.03 69.68 66.04 68.29 67.84 66.70 66.34
jina-reranker-v2-multilingual 67.90 63.88 70.31 70.09 70.51 73.09 67.50 70.38 63.00 64.59 69.90 67.34 57.79 62.14 70.36 71.58 69.51 68.61 70.13 70.07 70.15 68.80 68.02 69.39 67.23 65.77 65.37

tagCoIR (Text2Text, 코드 정보 검색)

CoIR: 코드 정보 검색 모델을 위한 종합적인 벤치마크
정보 검색(IR)이 다양한 NLP 작업에서 상당한 성공을 거두었음에도 불구하고, 대부분의 IR 시스템은 주로 자연어로 된 쿼리와 코퍼스를 처리하며 코드 검색 영역을 간과하고 있습니다. 코드 검색은 매우 중요하지만 아직 충분히 연구되지 않았으며, 기존의 방법과 벤치마크는 다양한 도메인과 작업에서의 코드 다양성을 적절히 반영하지 못하고 있습니다. 이러한 간극을 해소하기 위해, 우리는 코드 검색 능력을 평가하기 위해 특별히 설계된 강력하고 포괄적인 벤치마크인 COIR (코드 정보 검색 벤치마크)를 제시합니다. COIR는 7개의 다양한 도메인에 걸쳐 8개의 특징적인 검색 작업을 포함하는 10개의 세심하게 선별된 코드 데이터셋으로 구성되어 있습니다. 우리는 먼저 COIR의 구축과 다양한 데이터셋 구성에 대해 논의합니다. 또한, COIR를 사용하여 9개의 널리 사용되는 검색 모델을 평가하여 최첨단 시스템에서도 코드 검색 작업 수행에 상당한 어려움이 있음을 밝혀냈습니다. 기존 연구 워크플로우에 쉽게 적용하고 통합할 수 있도록 COIR는 pip를 통해 쉽게 설치할 수 있는 사용자 친화적인 Python 프레임워크로 개발되었습니다. MTEB와 BEIR와 같은 다른 인기 있는 벤치마크와 동일한 데이터 스키마를 공유하여 원활한 벤치마크 간 평가를 가능하게 합니다. COIR를 통해 우리는 코드 검색 도메인의 연구를 활성화하고, 코드 검색 시스템의 추가 개발과 탐구를 장려하는 다목적 벤치마킹 도구를 제공하고자 합니다 https://github.com/CoIR-team/coir.
arXiv.orgXiangyang Li

CoIR은 코드 검색에서 모델의 성능을 평가하기 위해 설계된 종합적인 벤치마크입니다. 7개의 다양한 도메인에 걸쳐 8개의 검색 작업을 포함하는 10개의 큐레이트된 코드 데이터셋을 포함합니다. 이 벤치마크를 위한 Python 프레임워크가 제공됩니다.

Model Name Avg (NDCG@10) Text-to-Code Code-to-Text Code-to-Code Hybrid Code
Apps CosQA SQL CSN CSN-CCR CodeTransOcean StackOver
Flow
CodeFeedBack
AVG python javascript go ruby java php AVG python javascript go ruby java php -Contest -DL -MT -ST
jina-reranker-m0 63.55 26.21 37.75 57.92 80.76 98.37 71.16 86.14 72.74 79.02 77.14 74.57 81.66 77.92 68.71 75.44 77.54 66.13 79.79 31.89 90.41 72.25 83.95
jina-embeddings-v2-base-code
(top 100)
56.90 16.34 41.72 49.79 83.95 94.71 76.35 87.39 78.23 82.69 84.35 59.65 68.23 62.31 49.15 65.40 63.89 48.92 79.20 30.35 89.42 49.62 68.93
bge-reranker-v2-m3 35.97 8.33 30.06 50.63 49.26 67.62 39.55 58.11 41.37 44.77 44.13 40.81 42.57 42.75 38.04 38.04 41.73 41.73 34.93 5.09 60.12 16.44 64.05
jina-reranker-v2-multilingual 56.14 21.90 37.26 53.56 78.88 97.83 67.43 84.64 68.93 75.73 78.71 63.59 72.62 67.80 55.07 67.25 64.25 54.54 73.67 25.74 91.24 42.03 73.59

tagViDoRe (텍스트-이미지 변환, 시각적 문서 검색 벤치마크)

ColPali: Vision Language Models를 활용한 효율적인 문서 검색
문서는 텍스트뿐만 아니라 그림, 페이지 레이아웃, 표, 심지어 폰트를 통해 정보를 전달하는 시각적으로 풍부한 구조입니다. 현대의 검색 시스템은 주로 문서 페이지에서 추출한 텍스트 정보에 의존하여 문서를 색인화하기 때문에 (종종 길고 불안정한 프로세스를 통해), 핵심 시각적 단서를 효율적으로 활용하는 데 어려움을 겪습니다. 이는 검색 증강 생성(RAG)과 같은 많은 실용적인 문서 검색 애플리케이션에서 그들의 능력을 제한합니다. 시각적으로 풍부한 문서 검색에서 현재 시스템의 성능을 벤치마크하기 위해, 우리는 다양한 도메인, 언어 및 실용적 설정을 포괄하는 여러 페이지 수준의 검색 작업으로 구성된 Visual Document Retrieval Benchmark ViDoRe를 소개합니다. 현대 시스템의 내재적 복잡성과 성능 부족은 새로운 개념을 동기화합니다. 문서 페이지의 이미지를 직접 임베딩하여 문서 검색을 수행하는 것입니다. 우리는 문서 페이지의 이미지에서 고품질 다중 벡터 임베딩을 생성하도록 훈련된 Vision Language Model인 ColPali를 공개합니다. 후기 상호작용 매칭 메커니즘과 결합된 ColPali는 현대의 문서 검색 파이프라인보다 훨씬 단순하고 빠르며 종단간 훈련이 가능하면서도 크게 성능을 향상시킵니다. 우리는 모델, 데이터, 코드 및 벤치마크를 https://hf.co/vidore에서 오픈 라이선스로 공개합니다.
arXiv.orgManuel Faysse

ViDoRe는 시각적 특징을 사용하여 쿼리를 관련 문서에 매칭하는 검색 시스템의 능력을 평가하기 위해 설계된 벤치마크입니다. 여러 도메인과 언어에 걸쳐 다양한 페이지 수준의 검색 작업을 다룹니다. 이 벤치마크는 문서의 시각적 요소에 중점을 둡니다.

Model Name AVG
(NDCG@5)
TAT-DQA Shift
Project
Artificial
Intelligence
Government
Reports
ArxivQA DocVQA Healthcare
Industry
InfoVQA Energy TabFQuad
jina-reranker-m0 91.02 81.83 93.22 99.63 97.59 89.82 62.58 99.26 92.88 96.06 97.32
MrLight/dse-qwen2-2b-mr1-v1 84.48 66.64 79.39 96.45 95.30 84.53 55.47 96.85 86.39 91.80 92.03
MonoQwen2-VL-v0.1 87.64 79.50 76.38 98.39 93.63 89.50 57.47 98.39 92.12 95.29 95.75

tagM-BEIR (Text2Image,Image2Text,멀티모달 지시 검색을 위한 벤치마크)

UniIR: Training and Benchmarking Universal Multimodal Information Retrievers
기존의 정보 검색(IR) 모델들은 동일한 형식을 가정하는 경우가 많아서,텍스트 설명으로 이미지를 검색하거나,헤드라인 이미지로 뉴스 기사를 검색하거나,쿼리 이미지로 유사한 사진을 찾는 등 다양한 사용자 요구를 충족시키는 데 제한이 있습니다. 이러한 다양한 정보 검색 요구를 해결하기 위해,우리는 8가지 서로 다른 모달리티 간 검색 작업을 처리할 수 있는 통합된 지시 기반 멀티모달 검색기인 UniIR을 소개합니다. 10개의 다양한 멀티모달 IR 데이터셋에서 공동 훈련된 단일 검색 시스템인 UniIR은 사용자 지시를 해석하여 다양한 검색 작업을 수행하며,기존 데이터셋에서 강력한 성능을 보이고 새로운 작업에 대한 제로샷 일반화를 보여줍니다. 우리의 실험은 멀티태스크 훈련과 지시 튜닝이 UniIR의 일반화 능력의 핵심임을 보여줍니다. 또한,우리는 종합적인 결과를 포함하는 멀티모달 검색 벤치마크인 M-BEIR을 구축하여 범용 멀티모달 정보 검색의 평가를 표준화했습니다.
arXiv.orgCong Wei

M-BEIR은 멀티모달 검색 모델을 훈련하고 평가하기 위해 설계된 포괄적인 대규모 검색 벤치마크입니다. 다양한 도메인과 소스에서 가져온 8가지 멀티모달 검색 작업과 10개의 데이터셋으로 구성되어 있습니다. 이 벤치마크는 지시사항을 따르는 검색에 중점을 둡니다.

Model MBEIR t2i VisualNews
Recall@5
MBEIR t2i MSCOCO
Recall@5
MBEIR t2i Fashion200K
Recall@10
MBEIR i2t VisualNews
Recall@5
MBEIR i2t MSCOCO
Recall@5
MBEIR i2t Fashion200K
Recall@10
jina-reranker-m0 23.89 72.19 9.79 17.61 41.21 11.56
jinaai/jina-clip-v2 15.42 52.28 7.03 11.63 28.80 8.78
MonoQwen2-VL-v0.1 22.74 71.29 10.00 15.08 42.24 11.25

tagWinoground (Text2Text,Text2Image)

Winoground: Probing Vision and Language Models for Visio-Linguistic Compositionality
우리는 비전 및 언어 모델의 시각-언어적 구성 추론 능력을 평가하기 위한 새로운 작업과 데이터셋인 Winoground를 제시합니다. 두 개의 이미지와 두 개의 캡션이 주어졌을 때,이들을 올바르게 매칭하는 것이 목표인데 - 중요한 점은 두 캡션이 완전히 동일한 단어 집합을 포함하되 순서만 다르다는 것입니다. 이 데이터셋은 전문 주석자들이 신중하게 수작업으로 큐레이션했으며,모델 성능 분석을 돕기 위해 상세한 태그 세트로 레이블링되어 있습니다. 우리는 다양한 최신 비전 및 언어 모델을 테스트했고,놀랍게도 어떤 모델도 우연의 수준보다 크게 나은 성능을 보이지 못했습니다. 명백히 이러한 모델들은 우리가 기대했던 만큼 시각-언어적 구성 추론에 능숙하지 않습니다. 우리는 향후 연구가 이러한 모델들의 단점을 어떻게 개선할 수 있을지에 대한 통찰을 얻기 위해 광범위한 분석을 수행했습니다. Winoground가 최신 기술을 발전시키고 이 분야의 추가 발전을 이끄는 유용한 평가 세트로 기능하기를 기대합니다. 데이터셋은 https://huggingface.co/datasets/facebook/winoground에서 이용할 수 있습니다.
arXiv.orgTristan Thrush

Winoground는 시각 및 언어 모델의 시각-언어적 조합 추론 능력을 평가하기 위한 새로운 과제와 데이터셋입니다. 동일한 단어 내용을 가진 쌍둥이 캡션을 사용하고 대조적인 이미지-캡션 쌍을 활용합니다. 조합적 추론에 초점을 맞추고 있습니다.

Model Text Image Group Avg
jina-reranker-m0 57.00 40.75 34.00 43.92
MrLight/dse-qwen2-2b-mrl-v1 7.50 9.25 1.75 6.17
MonoQwen2-VL-v0.1 52.00 36.25 31.50 39.92

Winoground는 세 가지 주요 지표를 사용하여 시각-언어 모델을 평가합니다: Text Score, Image Score, Group Score입니다. Text Score는 모델이 캡션을 이미지와 올바르게 매칭하는지 측정하고, Image Score는 캡션에 대해 올바른 이미지를 선택하는지 평가합니다. 가장 엄격한 지표인 Group Score는 모든 캡션-이미지 관계가 올바르게 식별되어야 합니다. 점수는 정확도를 나타내는 백분율로, 높은 값일수록 더 나은 추론 능력을 나타냅니다.

tag결론

jina-reranker-m0는 텍스트와 시각적 모달리티를 단일 디코더 전용 모델로 통합하려는 우리의 첫 시도입니다. 이 새로운 아키텍처는 jina-clip-v2, jina-embeddings-v3, jina-reranker-v2-base-multilingual 및 jina-embeddings-v2-base-code를 포함한 이전의 인코더 전용 검색 모델에서 얻은 교훈을 반영합니다.

새로운 모델은 텍스트-이미지 재순위화 및 시각적 문서 재순위화와 같은 멀티모달 검색 작업에 대한 기능을 제공할 뿐만 아니라, 텍스트-텍스트 및 텍스트-코드 재순위화 작업에서 jina-reranker-v2-base-multilingual보다 향상된 성능을 보여줍니다. 우리는 이 새로운 모델 시리즈를 멀티모달 특성을 강조하기 위해 "m-시리즈"로 지정합니다.

jina-reranker-m0를 jina-reranker-v2-base-multilingual와 비교할 때, m-시리즈의 목표는 텍스트 전용 작업에서 전문화된 텍스트 전용 모델과 비슷한 수준의 성능을 개선하면서 멀티모달리티를 달성하는 것입니다. 텍스트 전용 작업에서의 성능 향상이 미미해 보이는데 8배 더 큰 모델을 사용하는 것이 의미가 있는지 의문을 제기할 수 있습니다. 현재로서는 텍스트 전용 애플리케이션에서 m0가 v2보다 실질적인 부가가치를 제공하지 않을 수 있지만, 디코더 전용 아키텍처는 인코더 전용 아키텍처로는 달성할 수 없었던 많은 새로운 가능성을 제공합니다. 여기에는 다음이 포함됩니다:

  • 진정한 혼합 모달리티 재순위화
  • 리스트 방식 재순위화 및 문서 중복 제거
  • 어텐션 메커니즘을 통한 순위 점수 설명 가능성

우리의 향후 작업은 텍스트 전용 재순위화 기능을 더욱 개선하고 이 멀티모달 아키텍처가 제공하는 새로운 기능을 충분히 활용하여 더 나은 그리고 더 폭넓은 검색을 달성하는 데 초점을 맞출 것입니다.

범주:
star
선택
보도 자료
rss_feed
사무실
location_on
캘리포니아주 서니베일
710 Lakeway Dr, Ste 200, 서니베일, CA 94085, 미국
location_on
독일 베를린(본사)
Prinzessinnenstraße 19-20, 10969 베를린, 독일
location_on
중국 베이징
중국 베이징 하이뎬구 서가 48호 6호관 5층
location_on
중국 선전
중국 선전 푸안 테크놀로지 빌딩 4층 402호
검색 기반
심층 검색
리더
벡터 모델
재배열자
분류자
얇게 써는 기계
API 문서
Jina API 키 받기
비율 제한
API 상태
회사
회사 소개
영업팀에 문의
소식
인턴 프로그램
우리와 함께
open_in_new
로고 다운로드
open_in_new
자귀
안전
이용약관
은둔
쿠키 관리
email
Jina AI © 2020-2025.