reader-lm-0.5b

生の HTML を Markdown に変換するための小さな言語モデル

リリースノート

ライセンス

CC-BY-NC-4.0

発売日

2024-08-11

入力

テキスト(HTML)

出力

テキスト (マークダウン)

モデル詳細

パラメータ: 494M

単語の長さを入力してください: 256K

言語サポート

🌍 多言語サポート

概要

Reader LM 0.5B は、HTML ドキュメントをクリーンかつ構造化された Markdown テキストに変換するという複雑な課題に対処するために設計された特殊な言語モデルです。このモデルは、乱雑な Web コンテンツを大規模なモデルやドキュメントシステムに適した形式に効率的に変換するという、最新のデータ処理パイプラインの主要なニーズを満たします。膨大なコンピューティングリソースを必要とする汎用言語モデルとは異なり、Reader LM 0.5B は、わずか 4 億 9,400 万個のパラメータを使用してプロフェッショナルレベルの HTML 処理を実現するため、コンピューティングリソースが限られているチームでも利用できます。 Web コンテンツの処理、ドキュメントの自動化、または大規模なモデルベースのアプリケーションの構築を扱う組織にとって、このモデルはコンテンツ準備ワークフローの合理化に特に役立ちます。

方法

このモデルは、クリエイティブなテキスト生成ではなく、選択的なコピー操作向けに特に最適化された革新的な「浅くて広い」アーキテクチャを使用しています。このモデルは、入力シーケンスを効率的に処理するために 14 のクエリヘッダーと 2 つのキー/値ヘッダーを備えた特殊なアテンションメカニズムを使用して、24 レイヤーと 896 の隠れ次元を備えたデコーダーのみのベースで構築されています。トレーニングプロセスには 2 つの異なる段階が含まれます。まず、短くて単純な HTML (32,000 トークン) を使用して基本的な変換パターンを学習し、次に複雑な現実世界の HTML (128,000 トークン) を使用して困難な状況に対処します。このモデルにはトレーニング中に対照的な検索が組み込まれており、トークンループなどの機能低下の問題を防ぐために重複検出メカニズムが実装されています。そのアーキテクチャのユニークな点は、鋸歯状リングアテンションメカニズムであり、これによりモデルは安定したパフォーマンスを維持しながら、最大 256,000 トークンの非常に長いシーケンスを処理できます。

パフォーマンス

実際のテストでは、Reader LM 0.5B は複数の指標にわたって優れた効率対パフォーマンス比を実証しました。このモデルは、ROUGE-L スコア 0.56 を達成し、コンテンツが良好に保存されていることを示し、トークンエラー率 0.34 を維持し、最小限のアーティファクトを示しました。多言語のニュース記事、ブログ投稿、電子商取引ページを含む 22 の異なる HTML ソースの定性的評価において、構造の保持とマークダウン構文の使用に関して良好なパフォーマンスを示しました。このモデルは、インライン CSS とスクリプトが数十万のトークンに拡張できる、複雑な最新の Web ページの処理に優れています。従来のルールベースのアプローチでは失敗することがよくあります。ただし、このモデルは単純な HTML からマークダウンへの変換タスクでは非常にうまく機能しますが、非常に動的なページや JavaScript を多用するページでは追加の処理が必要になる場合があることに注意することが重要です。

ガイド

Reader LM 0.5B を効果的に展開するには、組織はインフラストラクチャがモデルの CUDA 要件を満たしていることを確認する必要がありますが、その効率的なアーキテクチャによりコンシューマグレードの GPU で実行できます。このモデルは、生の HTML 入力で最もよく機能し、特別なプレフィックスやディレクティブを必要としません。最高のパフォーマンスを得るには、提供された重複検出メカニズムを実装して、出力生成における潜在的なトークンサイクルを防ぎます。このモデルは複数の言語とさまざまな HTML 構造をサポートしていますが、コンテンツの抽出とマークダウン変換用に設計されています。テキストの生成、要約、直接的な質疑応答などのタスクには使用しないでください。このモデルは、AWS SageMaker を使用して本番環境にデプロイする準備ができており、テストと実験用に Google Colab ノートブックが提供されています。チームは、このモデルは最大 256K トークンの非常に長いドキュメントを処理できますが、そのような大きな入力を処理するには追加のメモリ管理戦略が必要になる可能性があることに注意する必要があります。

このモデルについて言及しているブログ

9月 11, 2024 • 13 読む時間

Reader-LM：HTML を Markdown に変換・クリーニングするための小規模言語モデル

Reader-LM-0.5B と Reader-LM-1.5B は、Jina Reader にインスパイアされた 2 つの新しい小規模言語モデルで、オープンウェブ上の生の雑多な HTML をクリーンな markdown に変換するために設計されました。

1月 15, 2025 • 17 読む時間

ReaderLM v2：HTML から Markdown と JSON への変換を行う最先端の小規模言語モデル

ReaderLM-v2 は、HTML から Markdown への変換と HTML から JSON への抽出を高精度で行う 1.5B の小規模な言語モデルです。