reader-lm-1.5b

用于将原始 HTML 转换为 Markdown 的小型语言模型

许可证

CC-BY-NC-4.0

发布日期

2024-08-11

输入

文本（HTML）

输出

文本（Markdown）

模型详细信息

参数: 1.54B

输入词元长度: 256K

底座模型

Qwen2-1.5B-Instruct

训练过的语言

2 语言

支持的语言

29 语言

概述

Reader LM 1.5B 代表了高效文档处理方面的突破，解决了将复杂的 Web 内容转换为干净的结构化格式这一关键挑战。这种专门的语言模型解决了现代 AI 流程中的一个基本问题：需要高效处理和清理 HTML 内容以用于下游任务，而无需依赖脆弱的基于规则的系统或资源密集型的大型语言模型。这个模型真正引人注目的地方在于，它能够超越其大小 50 倍的模型，同时保持令人惊讶的紧凑的 1.54B 参数占用空间。处理大规模 Web 内容处理、文档自动化或内容管理系统的组织会发现这个模型特别有价值，因为它能够处理极长的文档，同时在 HTML 到 Markdown 的转换中提供卓越的准确性。

方法

该模型采用了一种创新的“浅而宽”架构，挑战了语言模型设计中的传统扩展方法。其核心是 28 个Transformer层，配置了 12 个查询头和 2 个键值头，从而创建了一种独特的平衡，可优化选择性复制操作，同时保持深度语义理解。该架构的隐藏大小为 1536，中间大小为 8960，经过精心调整，可处理最多 256K 个词元的序列。训练过程涉及两个不同的阶段：首先专注于具有 32K 个词元序列的短而简单的 HTML，然后推进到具有 128K 个词元的长而难的 HTML，实现锯齿状环注意以实现高效处理。这种方法与对比搜索和专门的重复检测机制相结合，使模型能够避免处理复杂文档处理任务的小型语言模型中通常存在的退化和死循环等常见问题。

性能

在全面的基准评估中，Reader LM 1.5B 展现出挑战行业标准的卓越能力。该模型的 ROUGE-L 得分为 0.72，Token 错误率为 0.19，在 HTML 到 Markdown 转换任务中明显优于 GPT-4（0.43 ROUGE-L、0.50 TER）和 Gemini-1.5-Pro（0.42 ROUGE-L、0.48 TER）等大型模型。其性能在四个关键维度的定性评估中尤为突出：标题提取、主要内容提取、丰富结构保存和 Markdown 语法使用。该模型在多种文档类型（从新闻文章和博客文章到登录页面和论坛帖子）中始终保持高精度，支持多种语言，包括英语、德语、日语和中文。这种性能是在处理长度高达 256K 的 token 的文档时实现的，无需使用大型模型通常需要的昂贵分块操作。

最佳实践

为了有效部署 Reader LM 1.5B，组织应专注于涉及复杂 HTML 文档处理的场景，其中准确性和效率至关重要。该模型需要具有 CUDA 功能的 GPU 基础设施才能获得最佳性能，但其高效的架构意味着与更大的替代方案相比，它可以在更适中的硬件上有效运行。对于生产部署，该模型可通过 AWS SageMaker 和 Azure Marketplace 获得，提供灵活的集成选项。虽然该模型在 HTML 到 markdown 的转换方面表现出色，但需要注意的是，它专门针对此任务进行了优化，可能不适合通用文本生成或其他 NLP 任务。在处理极长的文档（接近 512K 个词元）时，用户应注意性能可能会下降，因为这超出了模型的训练参数。为获得最佳结果，请实施提供的重复检测机制，并考虑在推理过程中使用对比搜索以保持输出质量。

提及此模型的博客

九月 11, 2024 • 13 分钟的读取量

Reader-LM：小型语言模型用于 HTML 清理和转换为 Markdown

Reader-LM-0.5B 和 Reader-LM-1.5B 是两个受 Jina Reader 启发的新型小型语言模型，它们被设计用来将开放网络中的原始、杂乱的 HTML 转换成整洁的 markdown。

一月 15, 2025 • 17 分钟的读取量

ReaderLM v2：用于 HTML 转 Markdown 和 JSON 的前沿小型语言模型

ReaderLM-v2 是一个参数量为 1.5B 的小型语言模型，专门用于 HTML 转 Markdown 转换和 HTML 转 JSON 提取，具有卓越的准确性。