
저희는 시각적으로 복잡한 문서를 얼마나 잘 검색하는지 평가하기 위한 새로운 벤치마크인 JinaVDR(Visual Document Retrieval)을 출시합니다. JinaVDR은 그래프, 차트, 테이블, 텍스트, 이미지와 스캔 사본 및 스크린샷이 결합된 복잡한 레이아웃의 다국어 문서를 포함합니다. 이 벤치마크는 다양한 시각적 문서를 대상 텍스트 쿼리와 연결하여 실제 문서 복잡성과 더 넓은 도메인 범위에서 검색 성능에 대한 포괄적인 평가를 가능하게 합니다.
Benchmark | Task focus | Languages | Number of tasks |
---|---|---|---|
JinaVDR | Visually rich documents | 20 languages | 95 |
MIEB | Mostly natural images | 38 languages | 130 |
ViDoRe v1 | Visually rich documents | English | 5 |
ViDoRe v2 | Visually rich documents | English, French, Spanish, German | 4 |

JinaVDR은 실제 검색 시나리오를 반영하기 위해 다양한 언어, 도메인 및 문서 형식을 포괄합니다. 영어는 쿼리와 문서 모두에서 여전히 주를 이루지만, 벤치마크는 12개 이상의 추가 언어를 통합하여 훨씬 더 광범위한 다국어 지원을 제공합니다. 도메인에는 역사적 문서, 소프트웨어 문서, 의료 기록, 법률 텍스트 및 과학 논문이 포함되어 다양한 전문 사용 사례를 캡처합니다. 문서 형식은 웹 페이지 및 PDF에서 스캔 자료, 프레젠테이션 슬라이드 및 독립 실행형 이미지에 이르기까지 다양합니다. 많은 데이터 세트가 의도적으로 언어와 형식을 혼합하여 모델이 실제 응용 프로그램에서 접하는 복잡성을 처리하도록 도전하는 현실적인 조건을 만듭니다.
tagJinaVDR 구축 방법
JinaVDR 벤치마크는 차트, 지도, 전통적인 스캔 문서, 마크다운 파일 및 복잡한 테이블과 같은 도메인이 다양하고 레이아웃이 풍부한 문서를 포함하여 20개 언어에 걸쳐 95개의 작업에 걸친 평가 프레임워크를 제공합니다. 시각적 질의 응답(예: “How many civil lawsuits were dismissed at the Valladolid audience in 1855?”
)과 키워드 쿼리(예: “growth of the LED market across different regions”
)를 통해 모델을 평가하여 실제 세계에서 볼 수 있는 다양한 문서 유형에 대한 검색 기능을 보다 명확하게 평가합니다.
데이터 다양성과 작업 진정성에 중점을 두고 JinaVDR을 구축하기 위해 4가지 기술을 사용했습니다.
첫째, 규칙 기반 쿼리 템플릿을 사용하여 OCR 데이터 세트를 검색 작업으로 변환(예: MPMQA 데이터 변환)하고 질문-답변 데이터 세트를 검색 시나리오로 재구성하여 기존 벤치마크를 재활용했습니다.

둘째, 고품질 검색 쌍을 만들기 위해 StanfordSlides, TextbookQA 및 ShanghaiMasterPlan을 포함한 기존 PDF 데이터 세트를 수동으로 주석 처리했습니다.

세 번째 접근 방식은 Europeana와 같은 소스의 기존 문서 모음을 사용하여 Qwen2-VL-7B-Instruct와 함께 문맥적으로 관련된 쿼리를 만들고 EasyOCR 텍스트 설명을 사용하는 합성 쿼리 및/또는 문서 생성을 포함했습니다.

또한 테이블 형식 데이터 세트를 시각적 테이블로 렌더링하고 AirBnBRetrieval 작업에서 입증된 것처럼 원래 텍스트 데이터에서 파생된 템플릿을 통해 해당 쿼리를 생성했습니다.
마지막으로, 기사의 텍스트 스니펫을 쿼리로 사용하고 해당 차트를 대상 문서로 사용하는 기사-차트 쌍이 있는 기존 크롤링된 데이터 세트를 재활용했습니다. 이는 OWIDRetrieval 데이터 세트에서 볼 수 있습니다.

이러한 다각적인 접근 방식을 통해 문서 유형, 언어 및 검색 시나리오 전반에 걸쳐 포괄적인 지원이 가능합니다.
tag기존 벤치마크
진정으로 다중 모드 모델(시각적으로 복잡한 문서를 처리할 수 있는 모델)을 개발하려면 기존의 텍스트 전용 평가 방법을 뛰어넘는 벤치마크가 필요합니다. MTEB(Massive Text Embedding Benchmark)와 같은 프레임워크는 다양한 도메인과 언어에 걸쳐 텍스트 검색을 평가하는 데 유용할 수 있지만, 정확한 검색이 시각적 레이아웃, 차트, 테이블 및 서식에 따라 달라지는 문서를 검색하는 데는 적합하지 않습니다. 이것이 바로 ViDoRe 시리즈와 같은 시각적 문서 검색 벤치마크와 MIEB(Massive Image Embedding Benchmark)와 같은 이미지 검색 벤치마크가 등장하는 이유입니다.
ColPali 논문에서는 학술 및 합성 영어 데이터 세트 5개를 결합한 ViDoRe v1을 소개했습니다. 이 벤치마크는 광학 문자 인식(OCR)과 잘 작동하는 단일 페이지 문서에 중점을 두고 과학 논문 및 의료와 같은 좁은 도메인을 다루며 검색어가 종종 대상 문서에 직접 나타나는 추출 쿼리를 사용합니다.

ColPali와 같은 모델이 ViDoRe v1에서 90% nDCG@5 점수를 기록한 후 새로운 벤치마크가 필요했습니다. ViDoRe v2는 더 길고 교차 문서 쿼리, 블라인드 문맥 쿼리 및 더 많은 언어(영어 외에 프랑스어, 독일어, 스페인어)를 지원하여 v1을 개선했습니다. 두 벤치마크 모두 여전히 언어 다양성이 제한적이고 도메인 범위가 좁아 새로운 검색 시스템을 평가하는 데 격차가 있습니다.

MIEB는 검색 외 다른 작업도 포함하여 130개 작업 전반에 걸쳐 시각적 向量模型에 중점을 둔 다른 접근 방식을 취합니다. 그러나 시각적으로 풍부한 문서보다는 텍스트 콘텐츠가 많지 않은 이미지를 주로 평가합니다. 이 벤치마크는 시각적 이해 능력을 테스트하는 데 탁월하지만 시각적 레이아웃과 텍스트 콘텐츠를 기반으로 문서를 검색해야 하는 경우에는 성능이 좋지 않습니다.

JinaVDR (Visual Document Retrieval) 벤치마크를 통해 그래프, 차트, 표(텍스트 및 이미지와 혼합됨)와 같은 복잡한 레이아웃의 시각적으로 풍부한 다국어 문서를 통합하고 실제 쿼리 및 질문을 추가하여 이전 벤치마크 작업을 확장하는 것을 목표로 합니다.
tagJinaVDR에서 向量模型 평가하기
벤치마킹 결과에 따르면 최근의 많은 向量模型이 JinaVDR의 광범위한 시각적 문서 작업에 어려움을 겪고 있으며, OCR 기반 기준선 및 이전 모델은 특히 영어 이외의 언어 및 구조화된 문서 데이터 세트에서 훨씬 더 약한 결과를 보여줍니다. 간단한 텍스트 추출로 검색이 가능한 모든 데이터 세트에 대해 OCR과 함께 BM25를 포함했습니다.
이에 대한 예외는 jina-embeddings-v4입니다. 결과에 따르면 다중 모드 向量模型 접근 방식은 이전 세대 모델 또는 기존 OCR 기반 파이프라인보다 복잡하고 다국어 문서 검색을 더 잘 처리합니다. 이 모델의 다중 벡터 기능은 단일 벡터 접근 방식의 압축 제한을 피하므로 최고의 성능을 제공합니다. 단일 벡터는 전체 페이지의 콘텐츠를 하나의 표현으로 압축해야 하기 때문에 특정 세부 정보를 캡처하기 어렵지만, 다중 벡터 접근 방식은 유사한 문서를 정확하게 검색하는 데 필요한 세분화된 정보를 유지합니다.

평균 | medical-prescriptions | DonutVQA | TableVQA | europeana-de-news | europeana-es-news | europeana-it-scans | europeana-nl-legal | hindi-gov-vqa | jdocqa_jp | wikimedia-commons-documents (ar) | github-readme-retrieval-ml-filtered (ru) | |
---|---|---|---|---|---|---|---|---|---|---|---|---|
BM25 + OCR | 26.67% | 38.18% | 19.39% | 35.64% | 11.26% | 51.99% | 39.11% | 34.97% | 1.83% | 1.64% | 19.60% | 39.78% |
jina-embeddings-v3 + OCR |
27.49% | 37.25% | 2.60% | 34.24% | 12.05% | 44.03% | 38.69% | 29.07% | 7.52% | 7.79% | 38.06% | 51.07% |
jina-clip-v2 | 17.79% | 15.66% | 1.63% | 21.06% | 11.19% | 13.14% | 16.23% | 9.79% | 5.02% | 19.91% | 45.29% | 36.80% |
colpali-v1.2 |
46.44% | 83.91% | 32.53% | 54.66% | 34.64% | 44.74% | 54.32% | 30.89% | 13.04% | 39.45% | 41.96% | 80.67% |
colqwen2-v0.1 |
58.26% | 77.72% | 46.34% | 57.52% | 53.42% | 74.28% | 71.23% | 46.13% | 20.53% | 74.38% | 36.94% | 0.82388 |
MrLight/dse-qwen2-2b-mrl-v1 |
47.95% | 38.22% | 25.31% | 57.39% | 44.75% | 60.58% | 53.92% | 29.50% | 9.80% | 66.73% | 62.47% | 78.77% |
jina-embeddings-v4 (single-vector) |
61.39% | 81.17% | 78.48% | 58.90% | 49.05% | 60.10% | 57.88% | 37.14% | 15.40% | 75.57% | 72.07% | 89.55% |
jina-embeddings-v4 (multivector) |
70.89% | 97.95% | 73.55% | 60.91% | 65.65% | 80.58% | 73.14% | 54.15% | 21.94% | 82.34% | 81.19% | 88.39% |
tagMTEB 통합
MTEB가 검색 벤치마킹의 사실상 표준이 되었으므로 사용 편의성을 극대화하기 위해 JinaVDR을 MTEB 프레임워크에 직접 통합하고 있습니다. 이를 통해 연구자들은 친숙한 평가 인프라를 사용하여 벤치마크에서 시각적 검색 모델을 더 쉽게 실행할 수 있습니다. 그러나 데이터를 BEIR 형식으로 마이그레이션하려면 MTEB 버전에 OCR 결과를 포함하지 않는 것과 같은 몇 가지 절충이 필요했습니다. 즉, BM25와 같은 기존 텍스트 기반 방법은 MTEB의 일부로 직접 실행할 수 없으므로 텍스트 기반 검색 방법으로 대체하기보다는 시각적 문서 이해에 대한 초점을 강화합니다.
tag제한 사항
광범위한 소스에서 포괄적인 벤치마크를 구축하기 위해 실용적인 유용성과 평가 품질을 모두 보장하기 위해 신중한 전처리를 수행해야 했습니다. 각 데이터 세트를 최대 1,000개의 예로 서브샘플링하여 크기 정규화를 적용하여(수천 또는 수만 개에서 줄임) 작업 전반에 걸쳐 우수한 커버리지를 유지하면서 벤치마크를 실제로 실행할 수 있도록 했습니다. 이러한 제약 조건은 고해상도 시각적 문서를 처리하는 데 필요한 높은 수준의 컴퓨팅을 고려할 때 특히 중요했습니다.
품질 필터링을 사용하여 실제 문서 컬렉션에서 흔히 발생하는 여러 문제를 해결했습니다. 스캔된 문서의 열악한 이미지 품질은 종종 현실적인 사용 사례를 반영하지만 합성 데이터의 품질을 제어하기가 더 어려워졌습니다. 일관성 필터링을 구현하여 중복 항목을 제거하고(대규모 문서 컬렉션에서 흔함) LLM을 사용하여 "차트에서 무엇을 볼 수 있나요?"
와 같이 지나치게 일반적인 질문과 같이 유용한 평가 신호를 제공하지 않는 저품질 쿼리를 필터링했습니다. 합성 데이터 생성의 경우 다양한 提示词 전략을 사용했음에도 불구하고 쿼리 다양성에 제한이 있었고 다양한 검색 시나리오에서 충분한 평가 범위를 보장하기 위해 수동 큐레이션을 수행해야 했습니다.
tag결론
시각적 문서 검색 평가는 이제 기존의 텍스트 기반 벤치마크가 더 이상 인간이 정보를 실제로 검색하고 소비하는 방식의 복잡성을 포착하지 못하는 상황에 놓여 있습니다. JinaVDR은 이전 벤치마크를 훨씬 능가하는 광범위한 작업과 언어에 걸쳐 포괄적인 평가를 제공하여 이러한 장벽을 극복합니다.
앞으로 업계는 인위적인 제약 조건이 아닌 진정한 검색 문제를 반영하는 벤치마크가 필요합니다. 법률 연구에서 의료 진단에 이르기까지 작업에 대한 시각적 문서 검색에 대한 조직의 의존도가 높아짐에 따라 평가 프레임워크는 좁은 학술 데이터 세트에서 벗어나 우리가 실제 세계에서 발견하는 지저분하고 다국어이며 시각적으로 복잡한 문서로 진화해야 합니다. JinaVDR은 시각적 정보와 텍스트 정보가 실제로 어떻게 함께 작동하는지 진정으로 이해하는 검색 시스템을 구축하는 첫 번째 단계일 뿐입니다.