ReaderLM-v2

用于将原始 HTML 转换为 markdown 或 JSON 的小型语言模型

发行说明

许可证

CC-BY-NC-4.0

发布日期

2025-01-16

输入

文本（HTML）

输出

文本（Markdown）

文本（JSON）

模型详细信息

参数: 1.54B

输入词元长度: 512K

语言支持

🌍 多语言支持

概述

ReaderLM-v2 是一个 1.5B 参数语言模型，可将原始 HTML 转换为 markdown 或 JSON，处理最多 512K 个词元组合输入/输出长度，支持 29 种语言。与将 HTML 到 markdown 视为“选择性复制”任务的前身不同，v2 将其视为翻译过程，从而能够出色地处理代码围栏、嵌套列表、表格和 LaTeX 方程式等复杂元素。该模型在不同的上下文长度下保持一致的性能，并引入了具有预定义架构的直接 HTML 到 JSON 生成功能。

方法

ReaderLM-v2 基于 Qwen2.5-1.5B-Instruction 构建，其训练基于一个包含一千万个 HTML 文档的 html-markdown-1m 数据集，每个文档平均包含 56,000 个 token。训练过程包括：1) 使用 Ring-zag Attention 和 RoPE 进行长上下文预训练，将上下文从 32,000 个 token 扩展到 256,000 个 token；2) 使用精炼数据集进行监督微调；3) 直接偏好优化以实现输出对齐；以及 4) 自我对弈强化调整。数据准备遵循由 Qwen2.5-32B-Instruction 驱动的三步流程（起草-精炼-评审），其中针对特定任务训练了专门的模型，然后通过线性参数插值进行合并。

性能

在综合基准测试中，ReaderLM-v2 在 HTML 到 Markdown 任务上的表现优于 Qwen2.5-32B-Instruct 和 Gemini2-flash-expr 等大型模型。对于主要内容提取，它实现了 0.84 的 ROUGE-L、0.82 的 Jaro-Winkler，并且与竞争对手相比，Levenshtein 距离 (0.22) 明显更低。在 HTML 到 JSON 任务中，它保持了具有竞争力的性能，F1 得分为 0.81，通过率为 98%。该模型在 T4 GPU 上以 67 个 token/s 的输入和 36 个 token/s 的输出进行处理，通过对比损失训练显著减少了退化问题。

最佳实践

该模型可通过 Google Colab 笔记本访问，该笔记本演示了 HTML 到 Markdown 的转换、JSON 提取和指令遵循。对于 HTML 到 Markdown 任务，用户可以输入没有前缀指令的原始 HTML，而 JSON 提取则需要特定的架构格式。create_prompt 辅助函数有助于轻松为这两个任务创建提示。虽然该模型可以在 Colab 的免费 T4 GPU 层上运行（需要 vllm 和 triton），但如果不支持 bfloat16 或 flash Attention 2，则存在局限性。建议将 RTX 3090/4090 用于生产用途。该模型将在 AWS SageMaker、Azure 和 GCP 市场上提供，根据 CC BY-NC 4.0 许可用于非商业用途。

提及此模型的博客

一月 15, 2025 • 17 分钟的读取量

ReaderLM v2：用于 HTML 转 Markdown 和 JSON 的前沿小型语言模型

ReaderLM-v2 是一个参数量为 1.5B 的小型语言模型，专门用于 HTML 转 Markdown 转换和 HTML 转 JSON 提取，具有卓越的准确性。