jina-reranker-m0: Reranker multilingue e multimodale per documenti

Oggi rilasciamo jina-reranker-m0, il nostro nuovo modello di riordinamento multilingue e multimodale per il ranking di documenti visivi in più lingue: accetta una query insieme a una collezione di immagini di documenti ricchi di elementi visivi, incluse pagine con testo, figure, tabelle, infografiche e vari layout attraverso molteplici domini e oltre 29 lingue. Produce una lista ordinata di documenti in base alla loro rilevanza rispetto alla query di input. Rispetto a jina-reranker-v2-base-multilingual, jina-reranker-m0 migliora anche il riordinamento del testo per contenuti multilingue, documenti lunghi e attività di ricerca del codice.

Le prestazioni di jina-reranker-m0 sui benchmark di recupero visivo ViDoRe, MBEIR e Winoground mostrano le sue capacità in diverse attività di recupero multimodale che abbracciano molteplici domini e lingue. Ogni punto rappresenta i punteggi di prestazione per diversi tipi/attività di documenti visivi. I box plot illustrano la distribuzione di questi punteggi, con i numeri evidenziati che indicano la prestazione media. Per i risultati completi dei benchmark, consultare l'appendice di questo post.

Questo box plot mostra le prestazioni di jina-reranker-m0 su quattro benchmark di riordinamento solo testo. Ogni benchmark può includere più dataset, lingue o attività, rappresentati da singoli punti all'interno del box plot. Il box plot mostra la distribuzione di questi punteggi, con il numero evidenziato che mostra la prestazione media. Mentre la maggior parte dei benchmark usa NDCG@10 come metrica di prestazione, MKQA usa invece recall@10, poiché i dati di annotazione di MKQA non supportano il calcolo NDCG (la valutazione ufficiale usa il recall, che determina la rilevanza del documento attraverso euristiche). I risultati completi dei benchmark sono disponibili nell'appendice di questo post.

tagNuova Architettura

L'architettura di jina-reranker-m0 è basata su Qwen2-VL-2B e consiste di 2,1 miliardi di parametri. Questo modello classifica efficientemente i documenti valutando sia i loro elementi visivi che testuali in relazione alle query, utilizzando il confronto a coppie.

A differenza di jina-reranker-v2-base-multilingual, jina-reranker-m0 passa dall'architettura classica cross-encoder a un modello di linguaggio visivo decoder-only. Sfrutta l'encoder visivo e il proiettore preaddestrati di Qwen2-VL, ha messo a punto il suo LLM con LoRA e ha post-addestrato un MLP per generare logit di ranking che misurano la rilevanza query-documento. Questo fornisce un modello discriminativo ottimizzato per le attività di ranking.

	jina-reranker-m0	`jina-reranker-v2`
Architettura	Vision Language Model	Cross-Encoder
Modello base	Qwen2-VL-2B	Jina-XLM-RoBERTa
Parametri	2,4 B	278 M
Lunghezza massima del contesto (query + documento)	10.240	8.192
Patch massime di immagine (risoluzione dinamica)	768 × 28 × 28	❌
Supporto multilingue	✅	✅
Attività supportate	Text2Text, Text2Image, Image2Text, Text2Mixed	Text2Text

Questa nuova architettura permette a jina-reranker-m0 di gestire fino a 32K token, combinando perfettamente input sia visivi che testuali. Il modello supporta immagini che vanno da una dimensione minima di 56×56 pixel fino a risoluzione 4K. Durante l'elaborazione delle immagini, il ViT e il proiettore condensano token adiacenti 2×2 in singoli token visivi per l'input LLM. Token speciali come <|vision_start|> e <|vision_end|> marcano chiaramente i confini dei token visivi, permettendo al modello di linguaggio di elaborare correttamente le informazioni visive e eseguire un ragionamento multimodale sofisticato che integra sia elementi visivi che testuali.

Questa architettura risolve anche efficacemente il problema del gap di modalità che affliggeva i modelli precedenti come jina-clip-v1 e jina-clip-v2. In precedenza, le immagini si raggruppavano vicino ad altre immagini mentre il testo si raggruppava vicino ad altro testo nello spazio di rappresentazione, creando una disconnessione. Questo significava che quando i documenti candidati contenevano sia immagini che testo, il recupero di immagini usando query testuali era problematico. Con jina-reranker-m0, ora puoi classificare immagini e documenti insieme senza preoccuparti di questo gap, creando un'esperienza di ricerca multimodale veramente unificata.

Nei sistemi di recupero multimodale, un "gap di modalità" si riferisce alla differenza nel modo in cui il modello valuta la similarità testo-testo rispetto alla similarità testo-immagine. Guardando l'immagine a sinistra (jina-clip-v2), c'è una chiara separazione tra le due distribuzioni: La distribuzione della similarità testo-testo (rossa) ha un picco intorno a 0,35. La similarità testo-immagine (blu) ha un picco intorno a 0,65-0,7. Questa significativa separazione indica un ampio gap di modalità - il modello valuta le coppie testo-testo e testo-immagine in range fondamentalmente diversi. Questo rende difficile confrontare direttamente i punteggi tra le modalità. In un sistema senza gap di modalità (es. jina-reranker-m0), ci aspetteremmo che le distribuzioni si sovrappongano ampiamente, significando che il modello valuta entrambi i tipi di coppie in range simili basati puramente sulla rilevanza, non sul tipo di modalità.

Vale la pena notare che il nostro addestramento era limitato a un massimo di 10K token di input, con fino a 768 token per immagine (tra i marcatori <|vision_start|> e <|vision_end|>). Inoltre, non abbiamo specificamente addestrato il modello per attività di riordinamento image-to-image, image-to-multimodal, o text-to-multimodal. In questo contesto, "multimodale" si riferisce a un singolo documento contenente sia token di immagine che di testo nell'input. Guardando tutte le possibili combinazioni di token di immagine e testo sia nelle query che nei documenti, possiamo riassumere l'intera gamma di attività supportate da jina-reranker-m0 nella tabella sottostante.

jina-reranker-m0 supporta un'ampia gamma di combinazioni di input tra query e documenti per scopi di riordinamento. Raggiunge prestazioni all'avanguardia in compiti di text-to-text, text-to-image, image-to-text e text-to-mixed-unimodal, grazie ad un estensivo addestramento. Il modello gestisce anche altre combinazioni di input in modalità zero-shot - l'architettura accoglie queste combinazioni di token, anche se non abbiamo specificamente addestrato per questi compiti.

Nei nostri test, abbiamo trovato alcune evidenze che suggeriscono che il modello può estrapolare questi compiti di ranking non addestrati, ma qualsiasi efficacia in queste aree dovrebbe essere vista come risultato della trasferibilità zero-shot del modello o effetti collaterali non intenzionali dell'addestramento. Non abbiamo condotto valutazioni serie delle prestazioni del modello su questi compiti e pianifichiamo di esplorare queste capacità più approfonditamente in ricerche future.

tagPer Iniziare

tagTramite API

Il codice qui sotto mostra come calcolare i punteggi di rilevanza tra la query "small language model data extraction" e una collezione di immagini e documenti di testo. Puoi passare una stringa di testo, un'immagine codificata in base64 o un URL di un'immagine. I nuovi utenti possono ottenere una chiave API Jina con 1 milione di token gratuiti. Mentre la nostra API non supporta l'uso di immagini come query, puoi usare immagini come query quando accedi al modello attraverso la libreria Hugging Face Transformers.

curl -X POST \
  https://api.jina.ai/v1/rerank \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer JINA_API_KEY" \
  -d '{
  "model": "jina-reranker-m0",
  "query": "small language model data extraction",
  "documents": [
    {
      "image": "https://raw.githubusercontent.com/jina-ai/multimodal-reranker-test/main/handelsblatt-preview.png"
    },
    {
      "image": "https://raw.githubusercontent.com/jina-ai/multimodal-reranker-test/main/paper-11.png"
    },
    {
      "image": "https://raw.githubusercontent.com/jina-ai/multimodal-reranker-test/main/wired-preview.png"
    },
    {
      "text": "We present ReaderLM-v2, a compact 1.5 billion parameter language model designed for efficient web content extraction. Our model processes documents up to 512K tokens, transforming messy HTML into clean Markdown or JSON formats with high accuracy -- making it an ideal tool for grounding large language models. The models effectiveness results from two key innovations: (1) a three-stage data synthesis pipeline that generates high quality, diverse training data by iteratively drafting, refining, and critiquing web content extraction; and (2) a unified training framework combining continuous pre-training with multi-objective optimization. Intensive evaluation demonstrates that ReaderLM-v2 outperforms GPT-4o-2024-08-06 and other larger models by 15-20% on carefully curated benchmarks, particularly excelling at documents exceeding 100K tokens, while maintaining significantly lower computational requirements."
    },
    {
      "image": "https://jina.ai/blog-banner/using-deepseek-r1-reasoning-model-in-deepsearch.webp"
    },
    {
      "text": "数据提取么？为什么不用正则啊，你用正则不就全解决了么？"
    },
    {
      "text": "During the California Gold Rush, some merchants made more money selling supplies to miners than the miners made finding gold."
    },
    {
      "text": "Die wichtigsten Beiträge unserer Arbeit sind zweifach: Erstens führen wir eine neuartige dreistufige Datensynthese-Pipeline namens Draft-Refine-Critique ein, die durch iterative Verfeinerung hochwertige Trainingsdaten generiert; und zweitens schlagen wir eine umfassende Trainingsstrategie vor, die kontinuierliches Vortraining zur Längenerweiterung, überwachtes Feintuning mit spezialisierten Kontrollpunkten, direkte Präferenzoptimierung (DPO) und iteratives Self-Play-Tuning kombiniert. Um die weitere Forschung und Anwendung der strukturierten Inhaltsextraktion zu erleichtern, ist das Modell auf Hugging Face öffentlich verfügbar."
    }
  ],
  "return_documents": false
}'

La risposta è mostrata qui sotto, dove il primo risultato index=1 corrisponde allo screenshot del nostro paper ReaderLM-v2 paper screenshot.

{"model":"jina-reranker-m0","usage":{"total_tokens":2829},"results":[{"index":1,"relevance_score":0.9587112551898949},{"index":3,"relevance_score":0.9337408271911014},{"index":7,"relevance_score":0.8922925217195924},{"index":2,"relevance_score":0.8891905997562045},{"index":0,"relevance_score":0.8827516945848907},{"index":4,"relevance_score":0.8701035914834407},{"index":6,"relevance_score":0.8676828987527296},{"index":5,"relevance_score":0.8455347349164652}]}

tagTramite i Marketplace CSP

jina-reranker-m0 sarà presto disponibile direttamente su AWS, Azure e GCP ai prezzi elencati.

tagTramite HuggingFace

Puoi anche utilizzare il modello localmente dalla nostra pagina Hugging Face. Abbiamo preparato un notebook Google Colab che dimostra come funziona. Rispetto alla nostra API web, l'utilizzo del modello localmente offre maggiore flessibilità, come la possibilità di utilizzare immagini come query e lavorare con documenti multimodali.

tagValutazione

Le valutazioni complete sono disponibili in questo foglio Google.

tagBEIR (Text2Text, solo inglese)

BEIR: A Heterogenous Benchmark for Zero-shot Evaluation of Information Retrieval Models

Existing neural information retrieval (IR) models have often been studied in homogeneous and narrow settings, which has considerably limited insights into their out-of-distribution (OOD) generalization capabilities. To address this, and to facilitate researchers to broadly evaluate the effectiveness of their models, we introduce Benchmarking-IR (BEIR), a robust and heterogeneous evaluation benchmark for information retrieval. We leverage a careful selection of 18 publicly available datasets from diverse text retrieval tasks and domains and evaluate 10 state-of-the-art retrieval systems including lexical, sparse, dense, late-interaction and re-ranking architectures on the BEIR benchmark. Our results show BM25 is a robust baseline and re-ranking and late-interaction-based models on average achieve the best zero-shot performances, however, at high computational costs. In contrast, dense and sparse-retrieval models are computationally more efficient but often underperform other approaches, highlighting the considerable room for improvement in their generalization capabilities. We hope this framework allows us to better evaluate and understand existing retrieval systems, and contributes to accelerating progress towards better robust and generalizable systems in the future. BEIR is publicly available at https://github.com/UKPLab/beir.

arXiv.orgNandan Thakur

BEIR è un benchmark eterogeneo per il recupero delle informazioni, progettato per valutare la versatilità e la robustezza dei modelli IR. Contiene un insieme diversificato di dataset provenienti da vari domini e si concentra sulla valutazione zero-shot. Vengono utilizzate metriche di valutazione standardizzate come NDCG, Recall@K e MRR.

Model	AVG (NDCG@10)	TREC-COVID	NFCorpus	NQ	HotpotQA	FiQA	ArguAna	Touche-2020	DBPedia	SCIDOCS	FEVER	Climate-FEVER	SciFact	Quora
jina-reranker-m0	58.95	84.17	41.03	72.25	76.99	51.62	40.69	31.79	49.34	22.91	91.14	36.42	79.94	88.01
jina-embeddings-v3 (1024 tokens)	55.81	77.81	36.65	64.31	64.63	47.47	54.31	26.55	41.07	19.91	89.00	42.33	72.4	89.06
bge-reranker-v2-m3	56.51	82.19	34.33	69.52	77.89	45.45	36.21	33.12	46.72	17.79	91.03	38.69	72.64	89.10
jina-reranker-v2-multilingual	57.06	80.53	37.17	67.39	76.17	46.48	39.28	32.35	47.81	20.03	93.02	37.17	76.50	87.83

tagMIRACL (Text2Text, Multilingue, 18 lingue)

Making a MIRACL: Multilingual Information Retrieval Across a Continuum of Languages

MIRACL (Multilingual Information Retrieval Across a Continuum of Languages) è un dataset multilingue che abbiamo costruito per la WSDM 2023 Cup challenge che si concentra sul recupero ad hoc in 18 lingue diverse, che complessivamente comprendono oltre tre miliardi di madrelingua in tutto il mondo. Queste lingue hanno tipologie diverse, provengono da molte famiglie linguistiche differenti e sono associate a quantità variabili di risorse disponibili -- includendo sia quelle che i ricercatori tipicamente caratterizzano come lingue ad alte risorse che quelle a basse risorse. Il nostro dataset è progettato per supportare la creazione e la valutazione di modelli per il recupero monolingue, dove le query e i corpora sono nella stessa lingua. In totale, abbiamo raccolto oltre 700k valutazioni di rilevanza di alta qualità per circa 77k query su Wikipedia in queste 18 lingue, dove tutte le valutazioni sono state effettuate da madrelingua assunti dal nostro team. Il nostro obiettivo è stimolare la ricerca che migliorerà il recupero attraverso un continuum di lingue, migliorando così le capacità di accesso alle informazioni per diverse popolazioni in tutto il mondo, in particolare quelle tradizionalmente meno servite. Questo documento di panoramica descrive il dataset e i baseline che condividiamo con la comunità. Il sito web MIRACL è attivo su http://miracl.ai/.

arXiv.orgXinyu Zhang

MIRACL è un ampio dataset multilingue per il recupero di informazioni ad hoc in 18 lingue. Comprende oltre tre miliardi di parlanti nativi e presenta accurate annotazioni umane. L'attenzione è rivolta ai task di recupero monolingue.

Model	AVG (NDCG@10)	ar	bn	en	es	fa	fi	fr	hi	id	ja	ko	ru	sw	te	th	zh	de	yo
jina-reranker-m0	66.75	79.78	78.01	59.21	53.56	58.80	78.00	56.66	62.83	54.92	66.51	72.86	67.26	59.04	70.19	80.37	64.51	58.50	80.44
jina-embeddings-v3 (8192 tokens)	58.90	71.53	69.86	48.37	46.91	54.13	71.15	50.90	55.05	47.83	56.46	64.76	55.63	54.07	70.48	73.56	55.29	49.18	65.01
bge-reranker-v2-m3	69.32	80.51	81.85	57.67	57.64	61.92	80.38	59.60	67.66	58.86	67.37	75.14	67.61	68.92	76.69	82.29	64.46	58.32	80.85
jina-reranker-v2-multilingual	63.65	72.50	79.42	46.66	51.54	57.81	73.05	50.90	60.94	56.66	59.15	72.60	53.43	66.47	74.62	77.75	62.49	53.06	76.69

tagMLDR (Text2Text, Documenti Multilingue Lunghi, 13 lingue)

BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation

In questo articolo, presentiamo un nuovo modello di embedding, chiamato M3-Embedding, che si distingue per la sua versatilità in Multi-Lingualità, Multi-Funzionalità e Multi-Granularità. Può supportare più di 100 lingue di lavoro, portando a nuovi risultati all'avanguardia nei task di recupero multilingue e cross-lingue. Può eseguire simultaneamente le tre funzionalità di recupero comuni del modello di embedding: recupero denso, recupero multi-vettoriale e recupero sparso, fornendo una base modello unificata per applicazioni IR nel mondo reale. È in grado di elaborare input di diverse granularità, dalle frasi brevi ai documenti lunghi fino a 8192 token. L'efficace addestramento di M3-Embedding coinvolge i seguenti contributi tecnici. Proponiamo un nuovo approccio di auto-distillazione della conoscenza, dove i punteggi di rilevanza da diverse funzionalità di recupero possono essere integrati come segnale di insegnamento per migliorare la qualità dell'addestramento. Ottimizziamo anche la strategia di batching, consentendo un batch size ampio e un alto throughput di addestramento per garantire la discriminatività degli embedding. Per quanto ne sappiamo, M3-Embedding è il primo modello di embedding che realizza una tale forte versatilità. Il modello e il codice saranno disponibili pubblicamente su https://github.com/FlagOpen/FlagEmbedding.

arXiv.orgJianlv Chen

MLDR è un dataset multilingue progettato specificamente per il recupero di documenti lunghi, che copre 13 lingue. Utilizza GPT-3.5 per generare domande per i documenti. Il dataset è costruito su Wikipedia, Wudao e mC4.

Model	AVG (NDCG@10)	ar	de	en	es	fr	hi	it	ja	ko	pt	ru	th	zh
jina-reranker-m0	59.83	55.86	51.25	54.67	87.63	82.59	32.76	73.25	58.93	55.73	86.08	66.73	39.17	33.14
jina-embeddings-v3 (8192 tokens)	39.71	28.44	31.57	29.07	62.08	59.79	25.47	53.72	38.36	32.37	63.26	49.65	25.15	17.26
bge-reranker-v2-m3	53.53	49.19	45.39	43.92	74.57	68.67	44.75	62.79	49.27	48.24	76.45	62.84	38.82	31.02
jina-reranker-v2-multilingual	59.50	51.96	50.13	46.85	86.34	82.25	49.50	69.00	59.07	52.19	85.26	68.06	38.73	34.15

tagMKQA (Text2Text, Domande e Risposte Multilingue, 24 lingue, 3 varianti per il cinese)

MKQA: A Linguistically Diverse Benchmark for Multilingual Open Domain Question Answering

Progress in cross-lingual modeling depends on challenging, realistic, and diverse evaluation sets. We introduce Multilingual Knowledge Questions and Answers (MKQA), an open-domain question answering evaluation set comprising 10k question-answer pairs aligned across 26 typologically diverse languages (260k question-answer pairs in total). Answers are based on a heavily curated, language-independent data representation, making results comparable across languages and independent of language-specific passages. With 26 languages, this dataset supplies the widest range of languages to-date for evaluating question answering. We benchmark a variety of state-of-the-art methods and baselines for generative and extractive question answering, trained on Natural Questions, in zero shot and translation settings. Results indicate this dataset is challenging even in English, but especially in low-resource languages

arXiv.orgShayne Longpre

MKQA è un set di valutazione per il question answering in dominio aperto che comprende 10.000 coppie domanda-risposta allineate in 26 lingue tipologicamente diverse. Le coppie domanda-risposta sono campionate da Google Natural Questions.

Model	AVG (recall@10)	ar	da	de	es	en	fi	fr	he	hu	it	ja	km	ko	ms	nl	no	pl	pt	ru	sv	th	tr	vi	zh_cn	zh_hk	zh_tw
jina-reranker-m0	68.19	63.88	70.57	70.52	71.26	73.47	64.10	71.11	63.68	63.23	70.30	69.13	50.43	64.30	70.78	71.73	70.25	69.72	70.57	70.78	70.69	69.80	67.90	69.68	69.12	68.23	67.79
jina-embeddings-v3 (8192 tokens)	65.63	59.00	69.12	68.27	68.15	71.14	65.66	68.30	59.51	63.23	68.30	64.36	56.13	58.98	68.30	69.53	68.65	67.26	67.93	67.06	68.68	66.32	66.97	66.87	63.38	63.59	61.55
bge-reranker-v2-m3	67.88	63.09	70.15	68.91	68.92	73.00	68.71	68.71	70.27	64.00	68.15	68.47	60.43	63.95	68.80	70.77	69.10	67.44	67.40	69.77	70.03	69.68	66.04	68.29	67.84	66.70	66.34
jina-reranker-v2-multilingual	67.90	63.88	70.31	70.09	70.51	73.09	67.50	70.38	63.00	64.59	69.90	67.34	57.79	62.14	70.36	71.58	69.51	68.61	70.13	70.07	70.15	68.80	68.02	69.39	67.23	65.77	65.37

tagCoIR (Text2Text, Code Information Retrieval)

CoIR: Un Benchmark Completo per i Modelli di Information Retrieval del Codice

Nonostante il notevole successo dell'Information Retrieval (IR) in vari task NLP, la maggior parte dei sistemi IR gestisce principalmente query e corpora in linguaggio naturale, trascurando il dominio del recupero del codice. Il recupero del codice è di cruciale importanza ma rimane poco esplorato, con metodi e benchmark esistenti che rappresentano inadeguatamente la diversità del codice in vari domini e task. Per colmare questa lacuna, presentiamo COIR (Code Information Retrieval Benchmark), un benchmark robusto e completo specificamente progettato per valutare le capacità di recupero del codice. COIR comprende dieci dataset di codice accuratamente curati, che coprono otto distinti task di recupero in sette diversi domini. Prima discutiamo la costruzione di COIR e la sua diversa composizione del dataset. Inoltre, valutiamo nove modelli di recupero ampiamente utilizzati usando COIR, scoprendo significative difficoltà nell'eseguire task di recupero del codice anche con sistemi allo stato dell'arte. Per facilitare una facile adozione e integrazione nei flussi di lavoro di ricerca esistenti, COIR è stato sviluppato come un framework Python user-friendly, facilmente installabile tramite pip. Condivide lo stesso schema dati di altri benchmark popolari come MTEB e BEIR, permettendo valutazioni trasversali tra benchmark senza soluzione di continuità. Attraverso COIR, miriamo a rinvigorire la ricerca nel dominio del recupero del codice, fornendo uno strumento di benchmarking versatile che incoraggia l'ulteriore sviluppo ed esplorazione dei sistemi di recupero del codice https://github.com/CoIR-team/coir.

arXiv.orgXiangyang Li

CoIR è un benchmark completo progettato per valutare le capacità dei modelli nel recupero di codice. Include 10 dataset di codice curati che coprono 8 attività di recupero in 7 diversi domini. Viene fornito un framework Python per questo benchmark.

Model Name	Avg (NDCG@10)	Text-to-Code			Code-to-Text							Code-to-Code									Hybrid Code
		Apps	CosQA	SQL	CSN							CSN-CCR							CodeTransOcean		StackOver Flow	CodeFeedBack
		Apps	CosQA	SQL	AVG	python	javascript	go	ruby	java	php	AVG	python	javascript	go	ruby	java	php	-Contest	-DL	StackOver Flow	-MT	-ST
jina-reranker-m0	63.55	26.21	37.75	57.92	80.76	98.37	71.16	86.14	72.74	79.02	77.14	74.57	81.66	77.92	68.71	75.44	77.54	66.13	79.79	31.89	90.41	72.25	83.95
jina-embeddings-v2-base-code (top 100)	56.90	16.34	41.72	49.79	83.95	94.71	76.35	87.39	78.23	82.69	84.35	59.65	68.23	62.31	49.15	65.40	63.89	48.92	79.20	30.35	89.42	49.62	68.93
bge-reranker-v2-m3	35.97	8.33	30.06	50.63	49.26	67.62	39.55	58.11	41.37	44.77	44.13	40.81	42.57	42.75	38.04	38.04	41.73	41.73	34.93	5.09	60.12	16.44	64.05
jina-reranker-v2-multilingual	56.14	21.90	37.26	53.56	78.88	97.83	67.43	84.64	68.93	75.73	78.71	63.59	72.62	67.80	55.07	67.25	64.25	54.54	73.67	25.74	91.24	42.03	73.59

tagViDoRe (Text2Image, Benchmark per il Recupero di Documenti Visivi)

ColPali: Recupero Efficiente di Documenti con Modelli di Linguaggio Visivo

I documenti sono strutture visivamente ricche che trasmettono informazioni attraverso il testo, ma anche figure, layout di pagina, tabelle o persino font. Poiché i moderni sistemi di recupero si basano principalmente sulle informazioni testuali che estraggono dalle pagine dei documenti per indicizzarli - spesso attraverso processi lunghi e fragili - faticano a sfruttare efficacemente gli indizi visivi chiave. Questo limita le loro capacità in molte applicazioni pratiche di recupero documenti come la Retrieval Augmented Generation (RAG). Per valutare i sistemi attuali sul recupero di documenti visivamente ricchi, introduciamo il Visual Document Retrieval Benchmark ViDoRe, composto da varie attività di recupero a livello di pagina che coprono molteplici domini, lingue e impostazioni pratiche. La complessità intrinseca e le carenze prestazionali dei sistemi moderni motivano un nuovo concetto: effettuare il recupero dei documenti incorporando direttamente le immagini delle pagine del documento. Rilasciamo ColPali, un Modello di Linguaggio Visivo addestrato per produrre embedding multi-vettoriali di alta qualità dalle immagini delle pagine dei documenti. Combinato con un meccanismo di matching a interazione tardiva, ColPali supera ampiamente le moderne pipeline di recupero documenti pur essendo drasticamente più semplice, più veloce e addestrabile end-to-end. Rilasciamo modelli, dati, codice e benchmark con licenze open su https://hf.co/vidore.

arXiv.orgManuel Faysse

ViDoRe è un benchmark progettato per valutare la capacità dei sistemi di recupero di abbinare le query ai documenti rilevanti utilizzando caratteristiche visive. Copre varie attività di recupero a livello di pagina attraverso più domini e lingue. Il benchmark si concentra sugli elementi visivi dei documenti.

Model Name	AVG (NDCG@5)	TAT-DQA	Shift Project	Artificial Intelligence	Government Reports	ArxivQA	DocVQA	Healthcare Industry	InfoVQA	Energy	TabFQuad
jina-reranker-m0	91.02	81.83	93.22	99.63	97.59	89.82	62.58	99.26	92.88	96.06	97.32
MrLight/dse-qwen2-2b-mr1-v1	84.48	66.64	79.39	96.45	95.30	84.53	55.47	96.85	86.39	91.80	92.03
MonoQwen2-VL-v0.1	87.64	79.50	76.38	98.39	93.63	89.50	57.47	98.39	92.12	95.29	95.75

tagM-BEIR (Text2Image, Image2Text, Benchmark Multimodale per il Recupero Istruito)

UniIR: Training and Benchmarking Universal Multimodal Information Retrievers

I modelli di recupero delle informazioni (IR) esistenti spesso presuppongono un formato omogeneo, limitando la loro applicabilità a diverse esigenze degli utenti, come la ricerca di immagini con descrizioni testuali, la ricerca di un articolo di notizie con un'immagine di intestazione o la ricerca di una foto simile con un'immagine di query. Per affrontare tali diverse esigenze di ricerca di informazioni, introduciamo UniIR, un recuperatore multimodale unificato guidato da istruzioni in grado di gestire otto distinti compiti di recupero attraverso le modalità. UniIR, un singolo sistema di recupero addestrato congiuntamente su dieci diversi dataset multimodali-IR, interpreta le istruzioni dell'utente per eseguire vari compiti di recupero, dimostrando prestazioni robuste su dataset esistenti e generalizzazione zero-shot a nuovi compiti. I nostri esperimenti evidenziano che l'addestramento multi-task e il tuning delle istruzioni sono le chiavi della capacità di generalizzazione di UniIR. Inoltre, costruiamo M-BEIR, un benchmark di recupero multimodale con risultati completi, per standardizzare la valutazione del recupero universale di informazioni multimodali.

arXiv.orgCong Wei

M-BEIR è un benchmark completo su larga scala progettato per addestrare e valutare modelli di recupero multimodali. Comprende otto attività di recupero multimodale e dieci dataset provenienti da diversi domini e fonti. Il benchmark si concentra sul recupero basato su istruzioni.

Model	MBEIR t2i VisualNews Recall@5	MBEIR t2i MSCOCO Recall@5	MBEIR t2i Fashion200K Recall@10	MBEIR i2t VisualNews Recall@5	MBEIR i2t MSCOCO Recall@5	MBEIR i2t Fashion200K Recall@10
jina-reranker-m0	23.89	72.19	9.79	17.61	41.21	11.56
jinaai/jina-clip-v2	15.42	52.28	7.03	11.63	28.80	8.78
MonoQwen2-VL-v0.1	22.74	71.29	10.00	15.08	42.24	11.25

tagWinoground (Text2Text, Text2Image)

Winoground: Probing Vision and Language Models for Visio-Linguistic Compositionality

Presentiamo un nuovo compito e dataset per valutare la capacità dei modelli di visione e linguaggio di condurre ragionamenti composizionali visivo-linguistici, che chiamiamo Winoground. Date due immagini e due didascalie, l'obiettivo è abbinarle correttamente - ma, aspetto cruciale, entrambe le didascalie contengono un set di parole completamente identico, solo in un ordine diverso. Il dataset è stato attentamente curato a mano da annotatori esperti ed è etichettato con un ricco set di tag dettagliati per aiutare nell'analisi delle prestazioni del modello. Testiamo una vasta gamma di modelli di visione e linguaggio all'avanguardia e scopriamo che, sorprendentemente, nessuno di loro fa molto meglio del caso. Evidentemente, questi modelli non sono così abili nel ragionamento composizionale visivo-linguistico come avremmo sperato. Effettuiamo un'analisi approfondita per ottenere spunti su come i lavori futuri potrebbero cercare di mitigare le carenze di questi modelli. Miriamo a far sì che Winoground serva come un utile set di valutazione per far avanzare lo stato dell'arte e guidare ulteriori progressi nel campo. Il dataset è disponibile su https://huggingface.co/datasets/facebook/winoground.

arXiv.orgTristan Thrush

Winoground è un nuovo task e dataset per valutare la capacità dei modelli di visione e linguaggio di eseguire il ragionamento composizionale visivo-linguistico. Utilizza didascalie gemelle con contenuto verbale identico e impiega coppie contrastive di immagini e didascalie. L'attenzione è concentrata sul ragionamento composizionale.

Model	Text	Image	Group	Avg
jina-reranker-m0	57.00	40.75	34.00	43.92
MrLight/dse-qwen2-2b-mrl-v1	7.50	9.25	1.75	6.17
MonoQwen2-VL-v0.1	52.00	36.25	31.50	39.92

Winoground valuta i modelli visione-linguaggio utilizzando tre metriche chiave: Text Score, Image Score e Group Score. Il Text Score misura se un modello abbina correttamente le didascalie alle immagini, mentre l'Image Score valuta se seleziona l'immagine giusta per una didascalia. Il Group Score, la metrica più rigorosa, richiede che tutte le relazioni didascalia-immagine siano identificate correttamente. I punteggi sono percentuali che rappresentano i tassi di accuratezza, dove valori più alti indicano migliori capacità di ragionamento.

tagConclusione

jina-reranker-m0 è il nostro primo tentativo di unificare le modalità testuali e visive in un singolo modello decoder-only. Questa nuova architettura incorpora le lezioni apprese dai nostri precedenti modelli encoder-only per il recupero, inclusi jina-clip-v2, jina-embeddings-v3, jina-reranker-v2-base-multilingual e jina-embeddings-v2-base-code.

Il nuovo modello non solo sblocca funzionalità per task di recupero multimodale, come il reranking testo-immagine e il reranking di documenti visivi, ma dimostra anche prestazioni migliorate rispetto a jina-reranker-v2-base-multilingual nei task di reranking testo-testo e testo-codice. Designiamo questa nuova serie di modelli come "m-series" per evidenziare la sua natura multimodale.

Nel confrontare jina-reranker-m0 con jina-reranker-v2-base-multilingual, il nostro obiettivo per la m-series è raggiungere la multimodalità migliorando al contempo le prestazioni sui task solo testuali a un livello paragonabile ai modelli specializzati solo per il testo. Alcuni potrebbero mettere in discussione il valore di utilizzare un modello 8 volte più grande se il miglioramento delle prestazioni sui task solo testuali appare marginale. Sebbene sia vero per il momento che m0 potrebbe non fornire un valore aggiunto sostanziale rispetto a v2 per applicazioni solo testuali, l'architettura decoder-only apre molte nuove possibilità che non erano realizzabili con architetture encoder-only, tra cui:

Reranking multimodale vero
Reranking listwise e deduplicazione dei documenti
Spiegabilità del punteggio di ranking tramite meccanismo di attenzione

Il nostro lavoro futuro si concentrerà sull'ulteriore aggiornamento del reranker solo testuale e sullo sfruttamento completo delle nuove funzionalità abilitate da questa architettura multimodale per ottenere una ricerca migliore e più ampia.