新聞
模型
產品
keyboard_arrow_down
讀取器
讀取URL或搜索為大模型提供更好的依據。
向量模型
世界一流的多模態多語言向量模型。
重排器
世界一流的重排器,最大限度地提高搜索相關性。
深度搜索
搜索、讀取並推理直到找到最佳答案。
更多的
keyboard_arrow_down
分類器
圖片和文本的零樣本和少樣本分類。
切分器
將長文本切分成塊或詞元。

API 文檔
為您的AI 編程助手 IDE 或大模型自動生成代碼
open_in_new


公司
keyboard_arrow_down
關於我們
聯繫銷售
實習生計劃
加入我們
open_in_new
下載Logo
open_in_new
條款及條件


登錄
login
copyright

ReaderLM-v2

用於將原始 HTML 轉換為 markdown 或 JSON 的小型語言模型
發行説明arrow_forward
許可證
copyright
CC-BY-NC-4.0
發佈日期
calendar_month
2025-01-16
輸入
abc
文本(HTML)
arrow_forward
輸出
abc
文本(Markdown)
abc
文本(JSON)
模型詳細信息
參數: 1.54B
輸入詞元長度: 512K
語言支持
🌍 多語言支持
相關模型
link
reader-lm-1.5b
標籤
reader
language-model
multilingual
document-processing
long-context
text-understanding
content-extraction
cross-lingual
可通過以下方式獲取
Jina API商業許可證亞馬遜雲微軟雲谷歌雲抱抱臉
I/O 圖 1
I/O 圖 2
I/O 圖 3
選擇要比較的模型
出版物 (1)
ICLR 2025
三月 04, 2025
ReaderLM-v2: Small Language Model for HTML to Markdown and JSON

概述

ReaderLM-v2 是一個 1.5B 參數語言模型,可將原始 HTML 轉換為 markdown 或 JSON,處理最多 512K 個詞元組合輸入/輸出長度,支持 29 種語言。與將 HTML 到 markdown 視為“選擇性複製”任務的前身不同,v2 將其視為翻譯過程,從而能夠出色地處理代碼圍欄、嵌套列表、表格和 LaTeX 方程式等複雜元素。該模型在不同的上下文長度下保持一致的性能,並引入了具有預定義架構的直接 HTML 到 JSON 生成功能。

方法

ReaderLM-v2 基於 Qwen2.5-1.5B-Instruction 構建,其訓練基於一個包含一千萬個 HTML 文檔的 html-markdown-1m 數據集,每個文檔平均包含 56,000 個 token。訓練過程包括:1) 使用 Ring-zag Attention 和 RoPE 進行長上下文預訓練,將上下文從 32,000 個 token 擴展到 256,000 個 token;2) 使用精煉數據集進行監督微調;3) 直接偏好優化以實現輸出對齊;以及 4) 自我對弈強化調整。數據準備遵循由 Qwen2.5-32B-Instruction 驅動的三步流程(起草-精煉-評審),其中針對特定任務訓練了專門的模型,然後通過線性參數插值進行合併。

性能

在綜合基準測試中,ReaderLM-v2 在 HTML 到 Markdown 任務上的表現優於 Qwen2.5-32B-Instruct 和 Gemini2-flash-expr 等大型模型。對於主要內容提取,它實現了 0.84 的 ROUGE-L、0.82 的 Jaro-Winkler,並且與競爭對手相比,Levenshtein 距離 (0.22) 明顯更低。在 HTML 到 JSON 任務中,它保持了具有競爭力的性能,F1 得分為 0.81,通過率為 98%。該模型在 T4 GPU 上以 67 個 token/s 的輸入和 36 個 token/s 的輸出進行處理,通過對比損失訓練顯著減少了退化問題。

最佳實踐

該模型可通過 Google Colab 筆記本訪問,該筆記本演示了 HTML 到 Markdown 的轉換、JSON 提取和指令遵循。對於 HTML 到 Markdown 任務,用户可以輸入沒有前綴指令的原始 HTML,而 JSON 提取則需要特定的架構格式。create_prompt 輔助函數有助於輕鬆為這兩個任務創建提示。雖然該模型可以在 Colab 的免費 T4 GPU 層上運行(需要 vllm 和 triton),但如果不支持 bfloat16 或 flash Attention 2,則存在侷限性。建議將 RTX 3090/4090 用於生產用途。該模型將在 AWS SageMaker、Azure 和 GCP 市場上提供,根據 CC BY-NC 4.0 許可用於非商業用途。
提及此模型的博客
一月 15, 2025 • 17 分鐘的讀取量
ReaderLM v2:用於 HTML 轉換 Markdown 和 JSON 的前沿小型語言模型
ReaderLM-v2 是一個擁有 15 億參數的小型語言模型,專門用於 HTML 轉 Markdown 轉換和 HTML 轉 JSON 提取,具有卓越的準確性。
Jina AI
Orange text "ReaderLM-u2" on a vibrant dark red digital screen.
五月 25, 2025 • 21 分鐘的讀取量
ICLR2025 大會心得
我們整理了一些 ICLR 2025 中最有趣的論文,包括 TIPS、FlexPrefill、零樣本重排器 (Zero-Shot Rerankers)、SVD-LLM、Hymba 等。
Jina AI
Three people smiling on a stage at a conference with an ICLR banner visible, suggesting a warm and lively event atmosphere.
五月 07, 2025 • 9 分鐘的讀取量
Model Soup 的 Embedding 食譜
使用模型湯(Model Soups)增強穩健性和效能:權重平均。 無需額外成本,效果更佳。
Bo Wang
Scott Martens
Still life drawing of a purple bowl filled with apples and oranges on a white table. The scene features rich colors against a
四月 08, 2025 • 21 分鐘的讀取量
jina-reranker-m0:多語言多模態文件重排序器
介紹 jina-reranker-m0,這是我們新的多語言多模態重排序器,用於檢索視覺文件,在多語言長文件和程式碼搜尋任務上都達到了最先進的效能。
Jina AI
Modern dot matrix text display on a dark blue background, conveying a digital feel.
一月 31, 2025 • 14 分鐘的讀取量
部署搜尋基礎模型到生產環境的實用指南
我們針對三種部署策略:Jina API、自建 K8s、以及 AWS SageMaker,提供詳細的成本和效能分析,協助您做出正確的決策。
Saahil Ognawala
Scott Martens
Abstract cityscape illustration with orange, grey and white buildings, featuring visible balconies with a potted plant.
辦公室
location_on
加利福尼亞州桑尼維爾
710 Lakeway Dr, Ste 200, 桑尼維爾, CA 94085, 美國
location_on
德國柏林(總部)
Prinzessinnenstraße 19-20,10969 柏林,德國
location_on
中國北京
中國北京市海淀區西大街48號6號樓5層
location_on
中國深圳
中國深圳市賦安科技大廈4樓402
搜索底座
讀取器
向量模型
重排器
深度搜索
分類器
切分器
API 文檔
獲取 Jina API 密鑰
速率限制
API 狀態
公司
關於我們
聯繫銷售
新聞
實習生計劃
加入我們
open_in_new
下載Logo
open_in_new
條款
安全
條款及條件
隱私
管理 Cookie
email
Jina AI © 2020-2025.