新闻
模型
产品
keyboard_arrow_down
读取器
读取URL或搜索为大模型提供更好的依据。
向量模型
世界一流的多模态多语言向量模型。
重排器
世界一流的重排器,最大限度地提高搜索相关性。
深度搜索
搜索、读取并推理直到找到最佳答案。
更多的
keyboard_arrow_down
分类器
图片和文本的零样本和少样本分类。
切分器
将长文本切分成块或词元。

API 文档
为您的AI 编程助手 IDE 或大模型自动生成代码
open_in_new


公司
keyboard_arrow_down
关于我们
联系销售
实习生计划
加入我们
open_in_new
下载Logo
open_in_new
条款及条件


登录
login
copyright

ReaderLM-v2

用于将原始 HTML 转换为 markdown 或 JSON 的小型语言模型
发行说明arrow_forward
许可证
copyright
CC-BY-NC-4.0
发布日期
calendar_month
2025-01-16
输入
abc
文本(HTML)
arrow_forward
输出
abc
文本(Markdown)
abc
文本(JSON)
模型详细信息
参数: 1.54B
输入词元长度: 512K
语言支持
🌍 多语言支持
相关模型
link
reader-lm-1.5b
标签
reader
language-model
multilingual
document-processing
long-context
text-understanding
content-extraction
cross-lingual
可通过以下方式获取
Jina API商业许可证亚马逊云微软云谷歌云抱抱脸
I/O 图 1
I/O 图 2
I/O 图 3
选择要比较的模型
出版物 (1)
ICLR 2025
三月 04, 2025
ReaderLM-v2: Small Language Model for HTML to Markdown and JSON

概述

ReaderLM-v2 是一个 1.5B 参数语言模型,可将原始 HTML 转换为 markdown 或 JSON,处理最多 512K 个词元组合输入/输出长度,支持 29 种语言。与将 HTML 到 markdown 视为“选择性复制”任务的前身不同,v2 将其视为翻译过程,从而能够出色地处理代码围栏、嵌套列表、表格和 LaTeX 方程式等复杂元素。该模型在不同的上下文长度下保持一致的性能,并引入了具有预定义架构的直接 HTML 到 JSON 生成功能。

方法

ReaderLM-v2 基于 Qwen2.5-1.5B-Instruction 构建,其训练基于一个包含一千万个 HTML 文档的 html-markdown-1m 数据集,每个文档平均包含 56,000 个 token。训练过程包括:1) 使用 Ring-zag Attention 和 RoPE 进行长上下文预训练,将上下文从 32,000 个 token 扩展到 256,000 个 token;2) 使用精炼数据集进行监督微调;3) 直接偏好优化以实现输出对齐;以及 4) 自我对弈强化调整。数据准备遵循由 Qwen2.5-32B-Instruction 驱动的三步流程(起草-精炼-评审),其中针对特定任务训练了专门的模型,然后通过线性参数插值进行合并。

性能

在综合基准测试中,ReaderLM-v2 在 HTML 到 Markdown 任务上的表现优于 Qwen2.5-32B-Instruct 和 Gemini2-flash-expr 等大型模型。对于主要内容提取,它实现了 0.84 的 ROUGE-L、0.82 的 Jaro-Winkler,并且与竞争对手相比,Levenshtein 距离 (0.22) 明显更低。在 HTML 到 JSON 任务中,它保持了具有竞争力的性能,F1 得分为 0.81,通过率为 98%。该模型在 T4 GPU 上以 67 个 token/s 的输入和 36 个 token/s 的输出进行处理,通过对比损失训练显著减少了退化问题。

最佳实践

该模型可通过 Google Colab 笔记本访问,该笔记本演示了 HTML 到 Markdown 的转换、JSON 提取和指令遵循。对于 HTML 到 Markdown 任务,用户可以输入没有前缀指令的原始 HTML,而 JSON 提取则需要特定的架构格式。create_prompt 辅助函数有助于轻松为这两个任务创建提示。虽然该模型可以在 Colab 的免费 T4 GPU 层上运行(需要 vllm 和 triton),但如果不支持 bfloat16 或 flash Attention 2,则存在局限性。建议将 RTX 3090/4090 用于生产用途。该模型将在 AWS SageMaker、Azure 和 GCP 市场上提供,根据 CC BY-NC 4.0 许可用于非商业用途。
提及此模型的博客
一月 15, 2025 • 17 分钟的读取量
ReaderLM v2:用于 HTML 转 Markdown 和 JSON 的前沿小型语言模型
ReaderLM-v2 是一个参数量为 1.5B 的小型语言模型,专门用于 HTML 转 Markdown 转换和 HTML 转 JSON 提取,具有卓越的准确性。
Jina AI
Orange text "ReaderLM-u2" on a vibrant dark red digital screen.
五月 25, 2025 • 21 分钟的读取量
我们在 ICLR2025 上学到了什么
我们收集了一些 ICLR 2025 中最有趣的论文,包括 TIPS、FlexPrefill、零样本重排器 (Zero-Shot Rerankers)、SVD-LLM、Hymba 等。
Jina AI
Three people smiling on a stage at a conference with an ICLR banner visible, suggesting a warm and lively event atmosphere.
五月 07, 2025 • 9 分钟的读取量
Model Soup 的 Embedding 配方
使用模型汤 (Model Soups) 提升稳健性和性能:平均权重。 无需额外成本,效果更佳。
Bo Wang
Scott Martens
Still life drawing of a purple bowl filled with apples and oranges on a white table. The scene features rich colors against a
四月 08, 2025 • 21 分钟的读取量
jina-reranker-m0:多语言多模态文档重排模型
介绍我们的新型多语言多模态重排序器 jina-reranker-m0,它专门用于视觉文档检索,在多语言长文档和代码搜索任务中达到了最先进的性能水平。
Jina AI
Modern dot matrix text display on a dark blue background, conveying a digital feel.
一月 31, 2025 • 14 分钟的读取量
在生产环境中部署搜索基础模型的实用指南
我们针对三种部署策略提供详细的成本和性能分析:Jina API、自托管 K8s 和 AWS SageMaker,以帮助您做出正确的选择。
Saahil Ognawala
Scott Martens
Abstract cityscape illustration with orange, grey and white buildings, featuring visible balconies with a potted plant.
办公室
location_on
加利福尼亚州桑尼维尔
710 Lakeway Dr, Ste 200, 桑尼维尔, CA 94085, 美国
location_on
德国柏林(总部)
Prinzessinnenstraße 19-20,10969 柏林,德国
location_on
中国北京
中国北京市海淀区西大街48号6号楼5层
location_on
中国深圳
中国深圳市赋安科技大厦4楼402
搜索底座
读取器
向量模型
重排器
深度搜索
分类器
切分器
API 文档
获取 Jina API 密钥
速率限制
API 状态
公司
关于我们
联系销售
新闻
实习生计划
加入我们
open_in_new
下载Logo
open_in_new
条款
安全
条款及条件
隐私
管理 Cookie
email
Jina AI © 2020-2025.