ReaderLM-v2 – Foundation-Modelle durchsuchen

ReaderLM-v2

Ein kleines Sprachmodell zur Konvertierung von reinem HTML in Markdown oder JSON

Beitrag veröffentlichen

Lizenz

CC-BY-NC-4.0

Veröffentlichungsdatum

2025-01-16

Eingang

Text (HTML)

Ausgabe

Text (Markdown)

Text (JSON)

Modelldetails

Parameter: 1.54B

Länge des Eingabetokens: 512K

Sprachunterstützung

🌍 Mehrsprachiger Support

Ähnliche Modelle

reader-lm-1.5b

Schlagwörter

reader

language-model

multilingual

document-processing

long-context

text-understanding

content-extraction

cross-lingual

Erhältlich über

Jina-API Kommerzielle Lizenz AWS SageMaker Microsoft Azure Google Cloud Umarmendes Gesicht

E/A-Diagramm 1

E/A-Diagramm 2

E/A-Diagramm 3

Wählen Sie Modelle zum Vergleichen aus

ReaderLM-v2

reader-lm-1.5b

Publikationen (1)

ICLR 2025

März 04, 2025

ReaderLM-v2: Small Language Model for HTML to Markdown and JSON

Überblick

ReaderLM-v2 ist ein 1,5-B-Parameter-Sprachmodell, das reines HTML in Markdown oder JSON konvertiert und bis zu 512.000 Tokens kombinierte Eingabe-/Ausgabelänge mit Unterstützung für 29 Sprachen verarbeitet. Anders als sein Vorgänger, der HTML-zu-Markdown als „selektives Kopieren“ behandelte, geht v2 es als Übersetzungsprozess an und ermöglicht so eine bessere Verarbeitung komplexer Elemente wie Codezäune, verschachtelte Listen, Tabellen und LaTeX-Gleichungen. Das Modell behält eine konsistente Leistung über verschiedene Kontextlängen hinweg bei und führt direkte HTML-zu-JSON-Generierungsfunktionen mit vordefinierten Schemata ein.

Methoden

Das Training von ReaderLM-v2 basiert auf der Qwen2.5-1.5B-Anweisung und umfasste einen html-markdown-1m-Datensatz mit zehn Millionen HTML-Dokumenten und durchschnittlich jeweils 56.000 Token. Der Trainingsprozess umfasste: 1) Langkontext-Vortraining mit Ring-Zag-Attention und RoPE zur Erweiterung des Kontexts von 32.000 auf 256.000 Token, 2) überwachtes Feintuning mit verfeinerten Datensätzen, 3) direkte Präferenzoptimierung zur Ausgabeausrichtung und 4) Self-Play-Verstärkungstuning. Die Datenaufbereitung erfolgte in einem dreistufigen Prozess (Entwurf-Verfeinerung-Kritik) auf Basis der Qwen2.5-32B-Anweisung, wobei spezialisierte Modelle für spezifische Aufgaben trainiert und anschließend mittels linearer Parameterinterpolation zusammengeführt wurden.

Leistung

In umfassenden Benchmarks übertrifft ReaderLM-v2 größere Modelle wie Qwen2.5-32B-Instruct und Gemini2-flash-expr bei HTML-zu-Markdown-Aufgaben. Bei der Extraktion von Hauptinhalten erreicht es einen ROUGE-L von 0,84, einen Jaro-Winkler von 0,82 und eine deutlich niedrigere Levenshtein-Distanz (0,22) im Vergleich zu Mitbewerbern. Bei HTML-zu-JSON-Aufgaben hält es mit F1-Ergebnissen von 0,81 und einer Erfolgsquote von 98 % eine konkurrenzfähige Leistung aufrecht. Das Modell verarbeitet 67 Token/s Eingabe und 36 Token/s Ausgabe auf einer T4-GPU, wobei die Degenerationsprobleme durch kontrastives Verlusttraining deutlich reduziert werden.

Anleitung

Das Modell ist über ein Google Colab-Notebook zugänglich, das die Konvertierung von HTML in Markdown, die JSON-Extraktion und das Befolgen von Anweisungen demonstriert. Für HTML-zu-Markdown-Aufgaben können Benutzer reines HTML ohne Präfixanweisungen eingeben, während die JSON-Extraktion eine bestimmte Schemaformatierung erfordert. Die Hilfsfunktion create_prompt erleichtert die einfache Erstellung von Eingabeaufforderungen für beide Aufgaben. Obwohl das Modell auf der kostenlosen T4-GPU-Stufe von Colab funktioniert (erfordert vllm und triton), weist es ohne Unterstützung von bfloat16 oder Flash Attention 2 Einschränkungen auf. Für den Produktionseinsatz wird RTX 3090/4090 empfohlen. Das Modell wird auf AWS SageMaker, Azure und dem GCP-Marktplatz verfügbar sein und unter CC BY-NC 4.0 für die nichtkommerzielle Nutzung lizenziert sein.

Blogs, die dieses Modell erwähnen

Januar 15, 2025 • 17 Minuten gelesen

ReaderLM v2: Fortschrittliches kleines Sprachmodell für HTML zu Markdown und JSON

ReaderLM-v2 ist ein kleines Sprachmodell mit 1,5 Milliarden Parametern für HTML-to-Markdown-Konvertierung und HTML-to-JSON-Extraktion mit außergewöhnlicher Genauigkeit.