Notizia
Modelli
Prodotti
keyboard_arrow_down
Ricerca profonda
Cerca, leggi e ragiona finché non trovi la risposta migliore.
Lettore
Leggi gli URL e cerca sul web per ottenere LLM più approfonditi.
Incorporamenti
Incorporamenti multilingue multimodali di livello mondiale.
Riclassificazione
Recupero neurale di livello mondiale per massimizzare la pertinenza della ricerca.
Di più
keyboard_arrow_down
Classificatore
Classificazione zero-shot e few-shot per immagini e testo.
Segmentatore
Tagliare il testo lungo in blocchi ed effettuare la tokenizzazione.

Documentazione API
Generazione automatica di codice per il tuo IDE o LLM di Copilot
open_in_new


Azienda
keyboard_arrow_down
Chi siamo
Contatta le vendite
Programma di stagista
Unisciti a noi
open_in_new
Scarica il logo
open_in_new
Termini & Condizioni


Login
login
copyright

ReaderLM-v2

Un piccolo modello linguistico per convertire HTML grezzo in markdown o JSON
Pubblicazione postarrow_forward
Licenza
copyright
CC-BY-NC-4.0
Data di rilascio
calendar_month
2025-01-16
Ingresso
abc
Testo (HTML)
arrow_forward
Produzione
abc
Testo (Markdown)
abc
Testo (JSON)
Dettagli del modello
Parametri: 1.54B
Lunghezza del token di input: 512K
Supporto linguistico
🌍 Supporto multilingue
Modelli correlati
link
reader-lm-1.5b
Etichette
reader
language-model
multilingual
document-processing
long-context
text-understanding
content-extraction
cross-lingual
Disponibile tramite
API di JinaLicenza commercialeAWS SageMakerMicrosoft AzureGoogle CloudFaccia abbracciata
Grafico I/O 1
Grafico I/O 2
Grafico I/O 3
Scegli i modelli da confrontare
Pubblicazioni (1)
ICLR 2025
marzo 04, 2025
ReaderLM-v2: Small Language Model for HTML to Markdown and JSON

Panoramica

ReaderLM-v2 è un modello di linguaggio con parametri da 1,5 miliardi che converte HTML grezzo in markdown o JSON, gestendo fino a 512K token di lunghezza input/output combinata con supporto per 29 lingue. A differenza del suo predecessore che trattava HTML-to-markdown come un'attività di "copia selettiva", v2 lo affronta come un processo di traduzione, consentendo una gestione superiore di elementi complessi come code fence, elenchi nidificati, tabelle ed equazioni LaTeX. Il modello mantiene prestazioni costanti su diverse lunghezze di contesto e introduce capacità di generazione diretta HTML-to-JSON con schemi predefiniti.

Metodi

Basato su Qwen2.5-1.5B-Instruction, l'addestramento di ReaderLM-v2 ha coinvolto un dataset html-markdown-1m di dieci milioni di documenti HTML, con una media di 56.000 token ciascuno. Il processo di addestramento includeva: 1) pre-addestramento a lungo contesto utilizzando l'attenzione ring-zag e RoPE per espandere il contesto da 32.000 a 256.000 token, 2) ottimizzazione supervisionata con dataset raffinati, 3) ottimizzazione diretta delle preferenze per l'allineamento dell'output e 4) ottimizzazione del rinforzo auto-riproduzione. La preparazione dei dati ha seguito una pipeline in tre fasi (Bozza-Affinamento-Critica) basata su Qwen2.5-32B-Instruction, con modelli specializzati addestrati per attività specifiche prima della fusione tramite interpolazione lineare dei parametri.

Prestazione

Nei benchmark completi, ReaderLM-v2 supera modelli più grandi come Qwen2.5-32B-Instruct e Gemini2-flash-expr su attività HTML-to-Markdown. Per l'estrazione del contenuto principale, ottiene ROUGE-L di 0,84, Jaro-Winkler di 0,82 e una distanza di Levenshtein significativamente inferiore (0,22) rispetto ai concorrenti. Nelle attività HTML-to-JSON, mantiene prestazioni competitive con punteggi F1 di 0,81 e un tasso di superamento del 98%. Il modello elabora a 67 token/s in input e 36 token/s in output su una GPU T4, con problemi di degenerazione significativamente ridotti tramite training di perdita contrastiva.

Orientamento

Il modello è accessibile tramite un notebook Google Colab che dimostra la conversione da HTML a markdown, l'estrazione JSON e il rispetto delle istruzioni. Per le attività da HTML a Markdown, gli utenti possono immettere HTML grezzo senza istruzioni di prefisso, mentre l'estrazione JSON richiede una formattazione di schema specifica. La funzione helper create_prompt facilita la creazione di prompt per entrambe le attività. Mentre il modello funziona sul livello GPU T4 gratuito di Colab (che richiede vllm e triton), presenta delle limitazioni senza il supporto bfloat16 o flash attention 2. RTX 3090/4090 è consigliato per l'uso in produzione. Il modello sarà disponibile su AWS SageMaker, Azure e GCP marketplace, con licenza CC BY-NC 4.0 per uso non commerciale.
Blog che menzionano questo modello
gennaio 15, 2025 • 17 minuti letti
ReaderLM v2: Modello linguistico di frontiera di piccole dimensioni per HTML verso Markdown e JSON
ReaderLM-v2 è un piccolo modello linguistico da 1.5B per la conversione da HTML a Markdown e l'estrazione da HTML a JSON con precisione eccezionale.
Jina AI
Orange text "ReaderLM-u2" on a vibrant dark red digital screen.
maggio 07, 2025 • 9 minuti letti
La ricetta di Model Soup per gli Embeddings
Aumenta la robustezza e le prestazioni con le model soups: media dei pesi. Nessun costo aggiuntivo, risultati migliori.
Bo Wang
Scott Martens
Still life drawing of a purple bowl filled with apples and oranges on a white table. The scene features rich colors against a
aprile 08, 2025 • 21 minuti letti
jina-reranker-m0: Reranker multilingue e multimodale per documenti
Presentiamo jina-reranker-m0, il nostro nuovo reranker multimodale multilingue per il recupero di documenti visivi, con prestazioni allo stato dell'arte su documenti lunghi multilingue e attività di ricerca codice.
Jina AI
Modern dot matrix text display on a dark blue background, conveying a digital feel.
gennaio 31, 2025 • 14 minuti letti
Una Guida Pratica per il Deployment dei Modelli Foundation di Ricerca in Produzione
Offriamo analisi dettagliate dei costi e delle prestazioni per tre strategie di deployment: Jina API, K8s self-hosted e AWS SageMaker, per aiutarti a prendere la decisione giusta.
Saahil Ognawala
Scott Martens
Abstract cityscape illustration with orange, grey and white buildings, featuring visible balconies with a potted plant.
Uffici
location_on
Sunnyvale, California
710 Lakeway Dr, Ste 200, Sunnyvale, CA 94085, Stati Uniti
location_on
Berlino, Germania (sede centrale)
Prinzessinnenstraße 19-20, 10969 Berlino, Germania
location_on
Pechino, Cina
Livello 5, Edificio 6, No.48 Haidian West St. Pechino, Cina
location_on
Shenzen, Cina
402 Piano 4, Fu'an Technology Building, Shenzhen, Cina
Fondazione di ricerca
Ricerca profonda
Lettore
Incorporamenti
Riclassificazione
Classificatore
Segmentatore
Documentazione API
Ottieni la chiave API Jina
Limite di velocità
Stato dell'API
Azienda
Chi siamo
Contatta le vendite
Sala stampa
Programma di stagista
Unisciti a noi
open_in_new
Scarica il logo
open_in_new
Termini
Sicurezza
Termini & Condizioni
Privacy
Gestisci i cookie
email
Jina AI © 2020-2025.