新闻
模型
API
keyboard_arrow_down
读取器
读取URL或搜索为大模型提供更好的依据。
向量模型
世界一流的多模态多语言向量模型。
重排器
世界一流的重排器,最大限度地提高搜索相关性。
Elastic Inference Service
在 Elasticsearch 中原生运行 Jina 模型。
MCP terminal命令行articlellms.txtsmart_toy代理人data_object模式menu_book文档



登录
login
warning
此模型已被较新的模型弃用。
读取器
copyright CC BY-NC 4.0
open_in_new 发行说明

reader-lm-1.5b

用于将原始 HTML 转换为 Markdown 的小型语言模型
许可证
copyright CC-BY-NC-4.0
发布日期
calendar_month
2024-08-11
输入
abc
文本(HTML)
arrow_forward
输出
abc
文本(Markdown)
模型详细信息
参数: 1.54B
输入词元长度: 256K
底座模型 help_outline
open_in_new
Qwen2-1.5B-Instruct
训练过的语言 help_outline
2 语言
支持的语言 help_outline
29 语言
相关模型
link
reader-lm-0.5b
标签
reader
language-model
multilingual
document-processing
long-context
text-understanding
content-extraction
cross-lingual
可通过以下方式获取
亚马逊云微软云抱抱脸
I/O 图

HTML

reader-lm

Markdown

选择要比较的模型

概述

Reader LM 1.5B 代表了高效文档处理方面的突破,解决了将复杂的 Web 内容转换为干净的结构化格式这一关键挑战。这种专门的语言模型解决了现代 AI 流程中的一个基本问题:需要高效处理和清理 HTML 内容以用于下游任务,而无需依赖脆弱的基于规则的系统或资源密集型的大型语言模型。这个模型真正引人注目的地方在于,它能够超越其大小 50 倍的模型,同时保持令人惊讶的紧凑的 1.54B 参数占用空间。处理大规模 Web 内容处理、文档自动化或内容管理系统的组织会发现这个模型特别有价值,因为它能够处理极长的文档,同时在 HTML 到 Markdown 的转换中提供卓越的准确性。

方法

该模型采用了一种创新的“浅而宽”架构,挑战了语言模型设计中的传统扩展方法。其核心是 28 个Transformer层,配置了 12 个查询头和 2 个键值头,从而创建了一种独特的平衡,可优化选择性复制操作,同时保持深度语义理解。该架构的隐藏大小为 1536,中间大小为 8960,经过精心调整,可处理最多 256K 个词元的序列。训练过程涉及两个不同的阶段:首先专注于具有 32K 个词元序列的短而简单的 HTML,然后推进到具有 128K 个词元的长而难的 HTML,实现锯齿状环注意以实现高效处理。这种方法与对比搜索和专门的重复检测机制相结合,使模型能够避免处理复杂文档处理任务的小型语言模型中通常存在的退化和死循环等常见问题。

性能

在全面的基准评估中,Reader LM 1.5B 展现出挑战行业标准的卓越能力。该模型的 ROUGE-L 得分为 0.72,Token 错误率为 0.19,在 HTML 到 Markdown 转换任务中明显优于 GPT-4(0.43 ROUGE-L、0.50 TER)和 Gemini-1.5-Pro(0.42 ROUGE-L、0.48 TER)等大型模型。其性能在四个关键维度的定性评估中尤为突出:标题提取、主要内容提取、丰富结构保存和 Markdown 语法使用。该模型在多种文档类型(从新闻文章和博客文章到登录页面和论坛帖子)中始终保持高精度,支持多种语言,包括英语、德语、日语和中文。这种性能是在处理长度高达 256K 的 token 的文档时实现的,无需使用大型模型通常需要的昂贵分块操作。

最佳实践

为了有效部署 Reader LM 1.5B,组织应专注于涉及复杂 HTML 文档处理的场景,其中准确性和效率至关重要。该模型需要具有 CUDA 功能的 GPU 基础设施才能获得最佳性能,但其高效的架构意味着与更大的替代方案相比,它可以在更适中的硬件上有效运行。对于生产部署,该模型可通过 AWS SageMaker 和 Azure Marketplace 获得,提供灵活的集成选项。虽然该模型在 HTML 到 markdown 的转换方面表现出色,但需要注意的是,它专门针对此任务进行了优化,可能不适合通用文本生成或其他 NLP 任务。在处理极长的文档(接近 512K 个词元)时,用户应注意性能可能会下降,因为这超出了模型的训练参数。为获得最佳结果,请实施提供的重复检测机制,并考虑在推理过程中使用对比搜索以保持输出质量。
提及此模型的博客
九月 11, 2024 • 13 分钟的读取量
Reader-LM:小型语言模型用于 HTML 清理和转换为 Markdown
Reader-LM-0.5B 和 Reader-LM-1.5B 是两个受 Jina Reader 启发的新型小型语言模型,它们被设计用来将开放网络中的原始、杂乱的 HTML 转换成整洁的 markdown。
Jina AI
Technical screenshot displaying "REAPER-LM-0.5B/1.5B" with HTML source code for Jina's search grounding feature.
一月 15, 2025 • 17 分钟的读取量
ReaderLM v2:用于 HTML 转 Markdown 和 JSON 的前沿小型语言模型
ReaderLM-v2 是一个参数量为 1.5B 的小型语言模型,专门用于 HTML 转 Markdown 转换和 HTML 转 JSON 提取,具有卓越的准确性。
Jina AI
Orange text "ReaderLM-u2" on a vibrant dark red digital screen.
搜索底座
读取器
向量模型
重排器
Elastic Inference Service
open_in_new
获取 Jina API 密钥
速率限制
API 状态
公司
关于我们
新闻
下载 Jina 标志
open_in_new
下载 Elastic 徽标
open_in_new
条款
安全
条款及条件
隐私
管理 Cookie
Elastic © 2020-2026.