
Oggi rilasciamo jina-reranker-m0, il nostro nuovo modello di riordinamento multilingue e multimodale per il ranking di documenti visivi in più lingue: accetta una query insieme a una collezione di immagini di documenti ricchi di elementi visivi, incluse pagine con testo, figure, tabelle, infografiche e vari layout attraverso molteplici domini e oltre 29 lingue. Produce una lista ordinata di documenti in base alla loro rilevanza rispetto alla query di input. Rispetto a jina-reranker-v2-base-multilingual, jina-reranker-m0 migliora anche il riordinamento del testo per contenuti multilingue, documenti lunghi e attività di ricerca del codice.


tagNuova Architettura
A differenza di jina-reranker-v2-base-multilingual, jina-reranker-m0 passa dall'architettura classica cross-encoder a un modello di linguaggio visivo decoder-only. Sfrutta l'encoder visivo e il proiettore preaddestrati di Qwen2-VL, ha messo a punto il suo LLM con LoRA e ha post-addestrato un MLP per generare logit di ranking che misurano la rilevanza query-documento. Questo fornisce un modello discriminativo ottimizzato per le attività di ranking.
jina-reranker-m0 | jina-reranker-v2 |
|
---|---|---|
Architettura | Vision Language Model | Cross-Encoder |
Modello base | Qwen2-VL-2B | Jina-XLM-RoBERTa |
Parametri | 2,4 B | 278 M |
Lunghezza massima del contesto (query + documento) | 10.240 | 8.192 |
Patch massime di immagine (risoluzione dinamica) | 768 × 28 × 28 | ❌ |
Supporto multilingue | ✅ | ✅ |
Attività supportate | Text2Text, Text2Image, Image2Text, Text2Mixed | Text2Text |
Questa nuova architettura permette a jina-reranker-m0 di gestire fino a 32K token, combinando perfettamente input sia visivi che testuali. Il modello supporta immagini che vanno da una dimensione minima di 56×56 pixel fino a risoluzione 4K. Durante l'elaborazione delle immagini, il ViT e il proiettore condensano token adiacenti 2×2 in singoli token visivi per l'input LLM. Token speciali come <|vision_start|>
e <|vision_end|>
marcano chiaramente i confini dei token visivi, permettendo al modello di linguaggio di elaborare correttamente le informazioni visive e eseguire un ragionamento multimodale sofisticato che integra sia elementi visivi che testuali.
Questa architettura risolve anche efficacemente il problema del gap di modalità che affliggeva i modelli precedenti come jina-clip-v1 e jina-clip-v2. In precedenza, le immagini si raggruppavano vicino ad altre immagini mentre il testo si raggruppava vicino ad altro testo nello spazio di rappresentazione, creando una disconnessione. Questo significava che quando i documenti candidati contenevano sia immagini che testo, il recupero di immagini usando query testuali era problematico. Con jina-reranker-m0, ora puoi classificare immagini e documenti insieme senza preoccuparti di questo gap, creando un'esperienza di ricerca multimodale veramente unificata.
Vale la pena notare che il nostro addestramento era limitato a un massimo di 10K token di input, con fino a 768 token per immagine (tra i marcatori <|vision_start|>
e <|vision_end|>
). Inoltre, non abbiamo specificamente addestrato il modello per attività di riordinamento image-to-image
, image-to-multimodal
, o text-to-multimodal
. In questo contesto, "multimodale" si riferisce a un singolo documento contenente sia token di immagine che di testo nell'input. Guardando tutte le possibili combinazioni di token di immagine e testo sia nelle query che nei documenti, possiamo riassumere l'intera gamma di attività supportate da jina-reranker-m0 nella tabella sottostante.

Nei nostri test, abbiamo trovato alcune evidenze che suggeriscono che il modello può estrapolare questi compiti di ranking non addestrati, ma qualsiasi efficacia in queste aree dovrebbe essere vista come risultato della trasferibilità zero-shot del modello o effetti collaterali non intenzionali dell'addestramento. Non abbiamo condotto valutazioni serie delle prestazioni del modello su questi compiti e pianifichiamo di esplorare queste capacità più approfonditamente in ricerche future.
tagPer Iniziare
tagTramite API
Il codice qui sotto mostra come calcolare i punteggi di rilevanza tra la query "small language model data extraction"
e una collezione di immagini e documenti di testo. Puoi passare una stringa di testo, un'immagine codificata in base64 o un URL di un'immagine. I nuovi utenti possono ottenere una chiave API Jina con 1 milione di token gratuiti. Mentre la nostra API non supporta l'uso di immagini come query, puoi usare immagini come query quando accedi al modello attraverso la libreria Hugging Face Transformers.
curl -X POST \
https://api.jina.ai/v1/rerank \
-H "Content-Type: application/json" \
-H "Authorization: Bearer JINA_API_KEY" \
-d '{
"model": "jina-reranker-m0",
"query": "small language model data extraction",
"documents": [
{
"image": "https://raw.githubusercontent.com/jina-ai/multimodal-reranker-test/main/handelsblatt-preview.png"
},
{
"image": "https://raw.githubusercontent.com/jina-ai/multimodal-reranker-test/main/paper-11.png"
},
{
"image": "https://raw.githubusercontent.com/jina-ai/multimodal-reranker-test/main/wired-preview.png"
},
{
"text": "We present ReaderLM-v2, a compact 1.5 billion parameter language model designed for efficient web content extraction. Our model processes documents up to 512K tokens, transforming messy HTML into clean Markdown or JSON formats with high accuracy -- making it an ideal tool for grounding large language models. The models effectiveness results from two key innovations: (1) a three-stage data synthesis pipeline that generates high quality, diverse training data by iteratively drafting, refining, and critiquing web content extraction; and (2) a unified training framework combining continuous pre-training with multi-objective optimization. Intensive evaluation demonstrates that ReaderLM-v2 outperforms GPT-4o-2024-08-06 and other larger models by 15-20% on carefully curated benchmarks, particularly excelling at documents exceeding 100K tokens, while maintaining significantly lower computational requirements."
},
{
"image": "https://jina.ai/blog-banner/using-deepseek-r1-reasoning-model-in-deepsearch.webp"
},
{
"text": "数据提取么?为什么不用正则啊,你用正则不就全解决了么?"
},
{
"text": "During the California Gold Rush, some merchants made more money selling supplies to miners than the miners made finding gold."
},
{
"text": "Die wichtigsten Beiträge unserer Arbeit sind zweifach: Erstens führen wir eine neuartige dreistufige Datensynthese-Pipeline namens Draft-Refine-Critique ein, die durch iterative Verfeinerung hochwertige Trainingsdaten generiert; und zweitens schlagen wir eine umfassende Trainingsstrategie vor, die kontinuierliches Vortraining zur Längenerweiterung, überwachtes Feintuning mit spezialisierten Kontrollpunkten, direkte Präferenzoptimierung (DPO) und iteratives Self-Play-Tuning kombiniert. Um die weitere Forschung und Anwendung der strukturierten Inhaltsextraktion zu erleichtern, ist das Modell auf Hugging Face öffentlich verfügbar."
}
],
"return_documents": false
}'
La risposta è mostrata qui sotto, dove il primo risultato index=1
corrisponde allo screenshot del nostro paper ReaderLM-v2 paper screenshot.
{"model":"jina-reranker-m0","usage":{"total_tokens":2829},"results":[{"index":1,"relevance_score":0.9587112551898949},{"index":3,"relevance_score":0.9337408271911014},{"index":7,"relevance_score":0.8922925217195924},{"index":2,"relevance_score":0.8891905997562045},{"index":0,"relevance_score":0.8827516945848907},{"index":4,"relevance_score":0.8701035914834407},{"index":6,"relevance_score":0.8676828987527296},{"index":5,"relevance_score":0.8455347349164652}]}
tagTramite i Marketplace CSP
jina-reranker-m0 sarà presto disponibile direttamente su AWS, Azure e GCP ai prezzi elencati.
tagTramite HuggingFace
Puoi anche utilizzare il modello localmente dalla nostra pagina Hugging Face. Abbiamo preparato un notebook Google Colab che dimostra come funziona. Rispetto alla nostra API web, l'utilizzo del modello localmente offre maggiore flessibilità, come la possibilità di utilizzare immagini come query e lavorare con documenti multimodali.

tagValutazione
Le valutazioni complete sono disponibili in questo foglio Google.
tagBEIR (Text2Text, solo inglese)

BEIR è un benchmark eterogeneo per il recupero delle informazioni, progettato per valutare la versatilità e la robustezza dei modelli IR. Contiene un insieme diversificato di dataset provenienti da vari domini e si concentra sulla valutazione zero-shot. Vengono utilizzate metriche di valutazione standardizzate come NDCG, Recall@K e MRR.
Model | AVG (NDCG@10) | TREC-COVID | NFCorpus | NQ | HotpotQA | FiQA | ArguAna | Touche-2020 | DBPedia | SCIDOCS | FEVER | Climate-FEVER | SciFact | Quora |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
jina-reranker-m0 | 58.95 | 84.17 | 41.03 | 72.25 | 76.99 | 51.62 | 40.69 | 31.79 | 49.34 | 22.91 | 91.14 | 36.42 | 79.94 | 88.01 |
jina-embeddings-v3 (1024 tokens) | 55.81 | 77.81 | 36.65 | 64.31 | 64.63 | 47.47 | 54.31 | 26.55 | 41.07 | 19.91 | 89.00 | 42.33 | 72.4 | 89.06 |
bge-reranker-v2-m3 | 56.51 | 82.19 | 34.33 | 69.52 | 77.89 | 45.45 | 36.21 | 33.12 | 46.72 | 17.79 | 91.03 | 38.69 | 72.64 | 89.10 |
jina-reranker-v2-multilingual | 57.06 | 80.53 | 37.17 | 67.39 | 76.17 | 46.48 | 39.28 | 32.35 | 47.81 | 20.03 | 93.02 | 37.17 | 76.50 | 87.83 |
tagMIRACL (Text2Text, Multilingue, 18 lingue)

MIRACL è un ampio dataset multilingue per il recupero di informazioni ad hoc in 18 lingue. Comprende oltre tre miliardi di parlanti nativi e presenta accurate annotazioni umane. L'attenzione è rivolta ai task di recupero monolingue.
Model | AVG (NDCG@10) | ar | bn | en | es | fa | fi | fr | hi | id | ja | ko | ru | sw | te | th | zh | de | yo |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
jina-reranker-m0 | 66.75 | 79.78 | 78.01 | 59.21 | 53.56 | 58.80 | 78.00 | 56.66 | 62.83 | 54.92 | 66.51 | 72.86 | 67.26 | 59.04 | 70.19 | 80.37 | 64.51 | 58.50 | 80.44 |
jina-embeddings-v3 (8192 tokens) | 58.90 | 71.53 | 69.86 | 48.37 | 46.91 | 54.13 | 71.15 | 50.90 | 55.05 | 47.83 | 56.46 | 64.76 | 55.63 | 54.07 | 70.48 | 73.56 | 55.29 | 49.18 | 65.01 |
bge-reranker-v2-m3 | 69.32 | 80.51 | 81.85 | 57.67 | 57.64 | 61.92 | 80.38 | 59.60 | 67.66 | 58.86 | 67.37 | 75.14 | 67.61 | 68.92 | 76.69 | 82.29 | 64.46 | 58.32 | 80.85 |
jina-reranker-v2-multilingual | 63.65 | 72.50 | 79.42 | 46.66 | 51.54 | 57.81 | 73.05 | 50.90 | 60.94 | 56.66 | 59.15 | 72.60 | 53.43 | 66.47 | 74.62 | 77.75 | 62.49 | 53.06 | 76.69 |
tagMLDR (Text2Text, Documenti Multilingue Lunghi, 13 lingue)

MLDR è un dataset multilingue progettato specificamente per il recupero di documenti lunghi, che copre 13 lingue. Utilizza GPT-3.5 per generare domande per i documenti. Il dataset è costruito su Wikipedia, Wudao e mC4.
Model | AVG (NDCG@10) | ar | de | en | es | fr | hi | it | ja | ko | pt | ru | th | zh |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
jina-reranker-m0 | 59.83 | 55.86 | 51.25 | 54.67 | 87.63 | 82.59 | 32.76 | 73.25 | 58.93 | 55.73 | 86.08 | 66.73 | 39.17 | 33.14 |
jina-embeddings-v3 (8192 tokens) | 39.71 | 28.44 | 31.57 | 29.07 | 62.08 | 59.79 | 25.47 | 53.72 | 38.36 | 32.37 | 63.26 | 49.65 | 25.15 | 17.26 |
bge-reranker-v2-m3 | 53.53 | 49.19 | 45.39 | 43.92 | 74.57 | 68.67 | 44.75 | 62.79 | 49.27 | 48.24 | 76.45 | 62.84 | 38.82 | 31.02 |
jina-reranker-v2-multilingual | 59.50 | 51.96 | 50.13 | 46.85 | 86.34 | 82.25 | 49.50 | 69.00 | 59.07 | 52.19 | 85.26 | 68.06 | 38.73 | 34.15 |
tagMKQA (Text2Text, Domande e Risposte Multilingue, 24 lingue, 3 varianti per il cinese)

MKQA è un set di valutazione per il question answering in dominio aperto che comprende 10.000 coppie domanda-risposta allineate in 26 lingue tipologicamente diverse. Le coppie domanda-risposta sono campionate da Google Natural Questions.
Model | AVG (recall@10) | ar | da | de | es | en | fi | fr | he | hu | it | ja | km | ko | ms | nl | no | pl | pt | ru | sv | th | tr | vi | zh_cn | zh_hk | zh_tw |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
jina-reranker-m0 | 68.19 | 63.88 | 70.57 | 70.52 | 71.26 | 73.47 | 64.10 | 71.11 | 63.68 | 63.23 | 70.30 | 69.13 | 50.43 | 64.30 | 70.78 | 71.73 | 70.25 | 69.72 | 70.57 | 70.78 | 70.69 | 69.80 | 67.90 | 69.68 | 69.12 | 68.23 | 67.79 |
jina-embeddings-v3 (8192 tokens) | 65.63 | 59.00 | 69.12 | 68.27 | 68.15 | 71.14 | 65.66 | 68.30 | 59.51 | 63.23 | 68.30 | 64.36 | 56.13 | 58.98 | 68.30 | 69.53 | 68.65 | 67.26 | 67.93 | 67.06 | 68.68 | 66.32 | 66.97 | 66.87 | 63.38 | 63.59 | 61.55 |
bge-reranker-v2-m3 | 67.88 | 63.09 | 70.15 | 68.91 | 68.92 | 73.00 | 68.71 | 68.71 | 70.27 | 64.00 | 68.15 | 68.47 | 60.43 | 63.95 | 68.80 | 70.77 | 69.10 | 67.44 | 67.40 | 69.77 | 70.03 | 69.68 | 66.04 | 68.29 | 67.84 | 66.70 | 66.34 |
jina-reranker-v2-multilingual | 67.90 | 63.88 | 70.31 | 70.09 | 70.51 | 73.09 | 67.50 | 70.38 | 63.00 | 64.59 | 69.90 | 67.34 | 57.79 | 62.14 | 70.36 | 71.58 | 69.51 | 68.61 | 70.13 | 70.07 | 70.15 | 68.80 | 68.02 | 69.39 | 67.23 | 65.77 | 65.37 |
tagCoIR (Text2Text, Code Information Retrieval)

CoIR è un benchmark completo progettato per valutare le capacità dei modelli nel recupero di codice. Include 10 dataset di codice curati che coprono 8 attività di recupero in 7 diversi domini. Viene fornito un framework Python per questo benchmark.
Model Name | Avg (NDCG@10) | Text-to-Code | Code-to-Text | Code-to-Code | Hybrid Code | ||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Apps | CosQA | SQL | CSN | CSN-CCR | CodeTransOcean | StackOver Flow |
CodeFeedBack | ||||||||||||||||
AVG | python | javascript | go | ruby | java | php | AVG | python | javascript | go | ruby | java | php | -Contest | -DL | -MT | -ST | ||||||
jina-reranker-m0 | 63.55 | 26.21 | 37.75 | 57.92 | 80.76 | 98.37 | 71.16 | 86.14 | 72.74 | 79.02 | 77.14 | 74.57 | 81.66 | 77.92 | 68.71 | 75.44 | 77.54 | 66.13 | 79.79 | 31.89 | 90.41 | 72.25 | 83.95 |
jina-embeddings-v2-base-code (top 100) |
56.90 | 16.34 | 41.72 | 49.79 | 83.95 | 94.71 | 76.35 | 87.39 | 78.23 | 82.69 | 84.35 | 59.65 | 68.23 | 62.31 | 49.15 | 65.40 | 63.89 | 48.92 | 79.20 | 30.35 | 89.42 | 49.62 | 68.93 |
bge-reranker-v2-m3 | 35.97 | 8.33 | 30.06 | 50.63 | 49.26 | 67.62 | 39.55 | 58.11 | 41.37 | 44.77 | 44.13 | 40.81 | 42.57 | 42.75 | 38.04 | 38.04 | 41.73 | 41.73 | 34.93 | 5.09 | 60.12 | 16.44 | 64.05 |
jina-reranker-v2-multilingual | 56.14 | 21.90 | 37.26 | 53.56 | 78.88 | 97.83 | 67.43 | 84.64 | 68.93 | 75.73 | 78.71 | 63.59 | 72.62 | 67.80 | 55.07 | 67.25 | 64.25 | 54.54 | 73.67 | 25.74 | 91.24 | 42.03 | 73.59 |
tagViDoRe (Text2Image, Benchmark per il Recupero di Documenti Visivi)

ViDoRe è un benchmark progettato per valutare la capacità dei sistemi di recupero di abbinare le query ai documenti rilevanti utilizzando caratteristiche visive. Copre varie attività di recupero a livello di pagina attraverso più domini e lingue. Il benchmark si concentra sugli elementi visivi dei documenti.
Model Name | AVG (NDCG@5) |
TAT-DQA | Shift Project |
Artificial Intelligence |
Government Reports |
ArxivQA | DocVQA | Healthcare Industry |
InfoVQA | Energy | TabFQuad |
---|---|---|---|---|---|---|---|---|---|---|---|
jina-reranker-m0 | 91.02 | 81.83 | 93.22 | 99.63 | 97.59 | 89.82 | 62.58 | 99.26 | 92.88 | 96.06 | 97.32 |
MrLight/dse-qwen2-2b-mr1-v1 | 84.48 | 66.64 | 79.39 | 96.45 | 95.30 | 84.53 | 55.47 | 96.85 | 86.39 | 91.80 | 92.03 |
MonoQwen2-VL-v0.1 | 87.64 | 79.50 | 76.38 | 98.39 | 93.63 | 89.50 | 57.47 | 98.39 | 92.12 | 95.29 | 95.75 |
tagM-BEIR (Text2Image, Image2Text, Benchmark Multimodale per il Recupero Istruito)

M-BEIR è un benchmark completo su larga scala progettato per addestrare e valutare modelli di recupero multimodali. Comprende otto attività di recupero multimodale e dieci dataset provenienti da diversi domini e fonti. Il benchmark si concentra sul recupero basato su istruzioni.
Model | MBEIR t2i VisualNews Recall@5 |
MBEIR t2i MSCOCO Recall@5 |
MBEIR t2i Fashion200K Recall@10 |
MBEIR i2t VisualNews Recall@5 |
MBEIR i2t MSCOCO Recall@5 |
MBEIR i2t Fashion200K Recall@10 |
---|---|---|---|---|---|---|
jina-reranker-m0 | 23.89 | 72.19 | 9.79 | 17.61 | 41.21 | 11.56 |
jinaai/jina-clip-v2 | 15.42 | 52.28 | 7.03 | 11.63 | 28.80 | 8.78 |
MonoQwen2-VL-v0.1 | 22.74 | 71.29 | 10.00 | 15.08 | 42.24 | 11.25 |
tagWinoground (Text2Text, Text2Image)

Winoground è un nuovo task e dataset per valutare la capacità dei modelli di visione e linguaggio di eseguire il ragionamento composizionale visivo-linguistico. Utilizza didascalie gemelle con contenuto verbale identico e impiega coppie contrastive di immagini e didascalie. L'attenzione è concentrata sul ragionamento composizionale.
Model | Text | Image | Group | Avg |
---|---|---|---|---|
jina-reranker-m0 | 57.00 | 40.75 | 34.00 | 43.92 |
MrLight/dse-qwen2-2b-mrl-v1 | 7.50 | 9.25 | 1.75 | 6.17 |
MonoQwen2-VL-v0.1 | 52.00 | 36.25 | 31.50 | 39.92 |
Winoground valuta i modelli visione-linguaggio utilizzando tre metriche chiave: Text Score, Image Score e Group Score. Il Text Score misura se un modello abbina correttamente le didascalie alle immagini, mentre l'Image Score valuta se seleziona l'immagine giusta per una didascalia. Il Group Score, la metrica più rigorosa, richiede che tutte le relazioni didascalia-immagine siano identificate correttamente. I punteggi sono percentuali che rappresentano i tassi di accuratezza, dove valori più alti indicano migliori capacità di ragionamento.
tagConclusione
jina-reranker-m0 è il nostro primo tentativo di unificare le modalità testuali e visive in un singolo modello decoder-only. Questa nuova architettura incorpora le lezioni apprese dai nostri precedenti modelli encoder-only per il recupero, inclusi jina-clip-v2, jina-embeddings-v3, jina-reranker-v2-base-multilingual e jina-embeddings-v2-base-code.
Il nuovo modello non solo sblocca funzionalità per task di recupero multimodale, come il reranking testo-immagine e il reranking di documenti visivi, ma dimostra anche prestazioni migliorate rispetto a jina-reranker-v2-base-multilingual nei task di reranking testo-testo e testo-codice. Designiamo questa nuova serie di modelli come "m-series" per evidenziare la sua natura multimodale.
Nel confrontare jina-reranker-m0 con jina-reranker-v2-base-multilingual, il nostro obiettivo per la m-series è raggiungere la multimodalità migliorando al contempo le prestazioni sui task solo testuali a un livello paragonabile ai modelli specializzati solo per il testo. Alcuni potrebbero mettere in discussione il valore di utilizzare un modello 8 volte più grande se il miglioramento delle prestazioni sui task solo testuali appare marginale. Sebbene sia vero per il momento che m0
potrebbe non fornire un valore aggiunto sostanziale rispetto a v2
per applicazioni solo testuali, l'architettura decoder-only apre molte nuove possibilità che non erano realizzabili con architetture encoder-only, tra cui:
- Reranking multimodale vero
- Reranking listwise e deduplicazione dei documenti
- Spiegabilità del punteggio di ranking tramite meccanismo di attenzione
Il nostro lavoro futuro si concentrerà sull'ulteriore aggiornamento del reranker solo testuale e sullo sfruttamento completo delle nuove funzionalità abilitate da questa architettura multimodale per ottenere una ricerca migliore e più ampia.