ReaderLM-v2

用於將原始 HTML 轉換為 markdown 或 JSON 的小型語言模型

發行説明

許可證

CC-BY-NC-4.0

發佈日期

2025-01-16

輸入

文本（HTML）

輸出

文本（Markdown）

文本（JSON）

模型詳細信息

參數: 1.54B

輸入詞元長度: 512K

語言支持

🌍 多語言支持

相關模型

reader-lm-1.5b

標籤

reader

language-model

multilingual

document-processing

long-context

text-understanding

content-extraction

cross-lingual

可通過以下方式獲取

Jina API 商業許可證亞馬遜雲微軟雲谷歌雲抱抱臉

I/O 圖 1

I/O 圖 2

I/O 圖 3

選擇要比較的模型

ReaderLM-v2

reader-lm-1.5b

出版物 (1)

ICLR 2025

三月 04, 2025

ReaderLM-v2: Small Language Model for HTML to Markdown and JSON

概述

ReaderLM-v2 是一個 1.5B 參數語言模型，可將原始 HTML 轉換為 markdown 或 JSON，處理最多 512K 個詞元組合輸入/輸出長度，支持 29 種語言。與將 HTML 到 markdown 視為“選擇性複製”任務的前身不同，v2 將其視為翻譯過程，從而能夠出色地處理代碼圍欄、嵌套列表、表格和 LaTeX 方程式等複雜元素。該模型在不同的上下文長度下保持一致的性能，並引入了具有預定義架構的直接 HTML 到 JSON 生成功能。

方法

ReaderLM-v2 基於 Qwen2.5-1.5B-Instruction 構建，其訓練基於一個包含一千萬個 HTML 文檔的 html-markdown-1m 數據集，每個文檔平均包含 56,000 個 token。訓練過程包括：1) 使用 Ring-zag Attention 和 RoPE 進行長上下文預訓練，將上下文從 32,000 個 token 擴展到 256,000 個 token；2) 使用精煉數據集進行監督微調；3) 直接偏好優化以實現輸出對齊；以及 4) 自我對弈強化調整。數據準備遵循由 Qwen2.5-32B-Instruction 驅動的三步流程（起草-精煉-評審），其中針對特定任務訓練了專門的模型，然後通過線性參數插值進行合併。

性能

在綜合基準測試中，ReaderLM-v2 在 HTML 到 Markdown 任務上的表現優於 Qwen2.5-32B-Instruct 和 Gemini2-flash-expr 等大型模型。對於主要內容提取，它實現了 0.84 的 ROUGE-L、0.82 的 Jaro-Winkler，並且與競爭對手相比，Levenshtein 距離 (0.22) 明顯更低。在 HTML 到 JSON 任務中，它保持了具有競爭力的性能，F1 得分為 0.81，通過率為 98%。該模型在 T4 GPU 上以 67 個 token/s 的輸入和 36 個 token/s 的輸出進行處理，通過對比損失訓練顯著減少了退化問題。

最佳實踐

該模型可通過 Google Colab 筆記本訪問，該筆記本演示了 HTML 到 Markdown 的轉換、JSON 提取和指令遵循。對於 HTML 到 Markdown 任務，用户可以輸入沒有前綴指令的原始 HTML，而 JSON 提取則需要特定的架構格式。create_prompt 輔助函數有助於輕鬆為這兩個任務創建提示。雖然該模型可以在 Colab 的免費 T4 GPU 層上運行（需要 vllm 和 triton），但如果不支持 bfloat16 或 flash Attention 2，則存在侷限性。建議將 RTX 3090/4090 用於生產用途。該模型將在 AWS SageMaker、Azure 和 GCP 市場上提供，根據 CC BY-NC 4.0 許可用於非商業用途。

提及此模型的博客

一月 15, 2025 • 17 分鐘的讀取量

ReaderLM v2：用於 HTML 轉換 Markdown 和 JSON 的前沿小型語言模型

ReaderLM-v2 是一個擁有 15 億參數的小型語言模型，專門用於 HTML 轉 Markdown 轉換和 HTML 轉 JSON 提取，具有卓越的準確性。