Pressemitteilungen
Modelle
Produkte
keyboard_arrow_down
DeepSearch
Suchen, lesen und überlegen, bis die beste Antwort gefunden ist.
Leser
Lesen Sie URLs und suchen Sie im Internet nach fundierteren LLMs.
Einbettungen
Multimodale und mehrsprachige Einbettungen von Weltklasse.
Reranker
Neural Retriever der Weltklasse zur Maximierung der Suchrelevanz.
Mehr
keyboard_arrow_down
Klassifikator
Zero-Shot- und Few-Shot-Klassifizierung für Bild und Text.
Segmentierer
Schneiden Sie langen Text in Abschnitte und führen Sie eine Tokenisierung durch.

API-Dokumente
Automatische Codegenerierung für Ihre Copilot-IDE oder LLM
open_in_new


Unternehmen
keyboard_arrow_down
Über uns
Kontaktieren Sie unseren Vertrieb
Praktikantenprogramm
Begleiten Sie uns
open_in_new
Logo herunterladen
open_in_new
Terms & amp; Bedingungen


Einloggen
login
copyright

ReaderLM-v2

Ein kleines Sprachmodell zur Konvertierung von reinem HTML in Markdown oder JSON
Beitrag veröffentlichenarrow_forward
Lizenz
copyright
CC-BY-NC-4.0
Veröffentlichungsdatum
calendar_month
2025-01-16
Eingang
abc
Text (HTML)
arrow_forward
Ausgabe
abc
Text (Markdown)
abc
Text (JSON)
Modelldetails
Parameter: 1.54B
Länge des Eingabetokens: 512K
Sprachunterstützung
🌍 Mehrsprachiger Support
Ähnliche Modelle
link
reader-lm-1.5b
Schlagwörter
reader
language-model
multilingual
document-processing
long-context
text-understanding
content-extraction
cross-lingual
Erhältlich über
Jina-APIKommerzielle LizenzAWS SageMakerMicrosoft AzureGoogle CloudUmarmendes Gesicht
E/A-Diagramm 1
E/A-Diagramm 2
E/A-Diagramm 3
Wählen Sie Modelle zum Vergleichen aus
Publikationen (1)
ICLR 2025
März 04, 2025
ReaderLM-v2: Small Language Model for HTML to Markdown and JSON

Überblick

ReaderLM-v2 ist ein 1,5-B-Parameter-Sprachmodell, das reines HTML in Markdown oder JSON konvertiert und bis zu 512.000 Tokens kombinierte Eingabe-/Ausgabelänge mit Unterstützung für 29 Sprachen verarbeitet. Anders als sein Vorgänger, der HTML-zu-Markdown als „selektives Kopieren“ behandelte, geht v2 es als Übersetzungsprozess an und ermöglicht so eine bessere Verarbeitung komplexer Elemente wie Codezäune, verschachtelte Listen, Tabellen und LaTeX-Gleichungen. Das Modell behält eine konsistente Leistung über verschiedene Kontextlängen hinweg bei und führt direkte HTML-zu-JSON-Generierungsfunktionen mit vordefinierten Schemata ein.

Methoden

Das Training von ReaderLM-v2 basiert auf der Qwen2.5-1.5B-Anweisung und umfasste einen html-markdown-1m-Datensatz mit zehn Millionen HTML-Dokumenten und durchschnittlich jeweils 56.000 Token. Der Trainingsprozess umfasste: 1) Langkontext-Vortraining mit Ring-Zag-Attention und RoPE zur Erweiterung des Kontexts von 32.000 auf 256.000 Token, 2) überwachtes Feintuning mit verfeinerten Datensätzen, 3) direkte Präferenzoptimierung zur Ausgabeausrichtung und 4) Self-Play-Verstärkungstuning. Die Datenaufbereitung erfolgte in einem dreistufigen Prozess (Entwurf-Verfeinerung-Kritik) auf Basis der Qwen2.5-32B-Anweisung, wobei spezialisierte Modelle für spezifische Aufgaben trainiert und anschließend mittels linearer Parameterinterpolation zusammengeführt wurden.

Leistung

In umfassenden Benchmarks übertrifft ReaderLM-v2 größere Modelle wie Qwen2.5-32B-Instruct und Gemini2-flash-expr bei HTML-zu-Markdown-Aufgaben. Bei der Extraktion von Hauptinhalten erreicht es einen ROUGE-L von 0,84, einen Jaro-Winkler von 0,82 und eine deutlich niedrigere Levenshtein-Distanz (0,22) im Vergleich zu Mitbewerbern. Bei HTML-zu-JSON-Aufgaben hält es mit F1-Ergebnissen von 0,81 und einer Erfolgsquote von 98 % eine konkurrenzfähige Leistung aufrecht. Das Modell verarbeitet 67 Token/s Eingabe und 36 Token/s Ausgabe auf einer T4-GPU, wobei die Degenerationsprobleme durch kontrastives Verlusttraining deutlich reduziert werden.

Anleitung

Das Modell ist über ein Google Colab-Notebook zugänglich, das die Konvertierung von HTML in Markdown, die JSON-Extraktion und das Befolgen von Anweisungen demonstriert. Für HTML-zu-Markdown-Aufgaben können Benutzer reines HTML ohne Präfixanweisungen eingeben, während die JSON-Extraktion eine bestimmte Schemaformatierung erfordert. Die Hilfsfunktion create_prompt erleichtert die einfache Erstellung von Eingabeaufforderungen für beide Aufgaben. Obwohl das Modell auf der kostenlosen T4-GPU-Stufe von Colab funktioniert (erfordert vllm und triton), weist es ohne Unterstützung von bfloat16 oder Flash Attention 2 Einschränkungen auf. Für den Produktionseinsatz wird RTX 3090/4090 empfohlen. Das Modell wird auf AWS SageMaker, Azure und dem GCP-Marktplatz verfügbar sein und unter CC BY-NC 4.0 für die nichtkommerzielle Nutzung lizenziert sein.
Blogs, die dieses Modell erwähnen
Januar 15, 2025 • 17 Minuten gelesen
ReaderLM v2: Fortschrittliches kleines Sprachmodell für HTML zu Markdown und JSON
ReaderLM-v2 ist ein kleines Sprachmodell mit 1,5 Milliarden Parametern für HTML-to-Markdown-Konvertierung und HTML-to-JSON-Extraktion mit außergewöhnlicher Genauigkeit.
Jina AI
Orange text "ReaderLM-u2" on a vibrant dark red digital screen.
Mai 07, 2025 • 9 Minuten gelesen
Model Soup’s Rezept für Embeddings
Verbessern Sie Robustheit und Leistung mit Model Soups: Gewichte mitteln. Keine zusätzlichen Kosten, bessere Ergebnisse.
Bo Wang
Scott Martens
Still life drawing of a purple bowl filled with apples and oranges on a white table. The scene features rich colors against a
April 08, 2025 • 21 Minuten gelesen
jina-reranker-m0: Mehrsprachiger multimodaler Dokument-Reranker
Wir stellen jina-reranker-m0 vor, unseren neuen mehrsprachigen multimodalen Reranker für das Abrufen visueller Dokumente, mit SOTA-Performance bei mehrsprachigen langen Dokumenten und Code-Suchaufgaben.
Jina AI
Modern dot matrix text display on a dark blue background, conveying a digital feel.
Januar 31, 2025 • 14 Minuten gelesen
Ein praktischer Leitfaden zum Deployment von Search Foundation Models in der Produktion
Wir bieten detaillierte Kosten- und Leistungsaufschlüsselungen für drei Bereitstellungsstrategien an: Jina API, selbst gehostetes K8s und AWS SageMaker, um Ihnen bei der richtigen Entscheidung zu helfen.
Saahil Ognawala
Scott Martens
Abstract cityscape illustration with orange, grey and white buildings, featuring visible balconies with a potted plant.
Büros
location_on
Sunnyvale, Kalifornien
710 Lakeway Dr, Ste 200, Sunnyvale, CA 94085, USA
location_on
Berlin, Deutschland (Hauptsitz)
Prinzessinnenstraße 19-20, 10969 Berlin, Deutschland
location_on
Peking, China
Ebene 5, Gebäude 6, Nr. 48 Haidian West St. Peking, China
location_on
Shenzhen, China
402 Etage 4, Fu'an Technology Building, Shenzhen, China
Stiftung durchsuchen
DeepSearch
Leser
Einbettungen
Reranker
Klassifikator
Segmentierer
API-Dokumentation
Jina API-Schlüssel abrufen
Ratenbegrenzung
API-Status
Unternehmen
Über uns
Kontaktieren Sie unseren Vertrieb
Pressemitteilungen
Praktikantenprogramm
Begleiten Sie uns
open_in_new
Logo herunterladen
open_in_new
Bedingungen
Sicherheit
Terms & amp; Bedingungen
Privatsphäre
Cookie-Einstellungen
email
Jina AI © 2020-2025.