ニュース
モデル
製品
keyboard_arrow_down
読者
URL を読み取ったり検索したりすると、大規模なモデルのサポートが向上します。
ベクトルモデル
世界クラスのマルチモーダル、多言語埋め込み。
並べ替え者
検索の関連性を最大化する世界クラスのニューラルレトリーバー。
ディープサーチ
最善の答えが見つかるまで、検索し、読み、推論してください。
もっと
keyboard_arrow_down
分類子
画像とテキストのゼロショットおよび少数ショットの分類。
スライサー
長いテキストをチャンクまたはトークンに分割します。

APIドキュメント
AIプログラミングアシスタントIDEまたは大規模モデル用のコードを自動生成
open_in_new


会社
keyboard_arrow_down
私たちについて
営業担当者に問い合わせる
インターンプログラム
参加しませんか
open_in_new
ロゴをダウンロード
open_in_new
利用規約


ログイン
login
warning
このモデルは、新しいモデルでは非推奨になりました。
copyright

reader-lm-0.5b

生の HTML を Markdown に変換するための小さな言語モデル
リリースノートarrow_forward
ライセンス
copyright
CC-BY-NC-4.0
発売日
calendar_month
2024-08-11
入力
abc
テキスト(HTML)
arrow_forward
出力
abc
テキスト (マークダウン)
モデル詳細
パラメータ: 494M
単語の長さを入力してください: 256K
言語サポート
🌍 多言語サポート
関連機種
link
reader-lm-1.5b
ラベル
text-understanding
multilingual
document-processing
resource-efficient
long-context
base-model
language-model
以下の方法で入手できます
商用ライセンスアマゾンクラウドマイクロソフトクラウド顔を抱きしめる
比較するモデルを選択してください

概要

Reader LM 0.5B は、HTML ドキュメントをクリーンかつ構造化された Markdown テキストに変換するという複雑な課題に対処するために設計された特殊な言語モデルです。このモデルは、乱雑な Web コンテンツを大規模なモデルやドキュメント システムに適した形式に効率的に変換するという、最新のデータ処理パイプラインの主要なニーズを満たします。膨大なコンピューティング リソースを必要とする汎用言語モデルとは異なり、Reader LM 0.5B は、わずか 4 億 9,400 万個のパラメータを使用してプロフェッショナル レベルの HTML 処理を実現するため、コンピューティング リソースが限られているチームでも利用できます。 Web コンテンツの処理、ドキュメントの自動化、または大規模なモデルベースのアプリケーションの構築を扱う組織にとって、このモデルはコンテンツ準備ワークフローの合理化に特に役立ちます。

方法

このモデルは、クリエイティブなテキスト生成ではなく、選択的なコピー操作向けに特に最適化された革新的な「浅くて広い」アーキテクチャを使用しています。このモデルは、入力シーケンスを効率的に処理するために 14 のクエリ ヘッダーと 2 つのキー/値ヘッダーを備えた特殊なアテンション メカニズムを使用して、24 レイヤーと 896 の隠れ次元を備えたデコーダーのみのベースで構築されています。トレーニング プロセスには 2 つの異なる段階が含まれます。まず、短くて単純な HTML (32,000 トークン) を使用して基本的な変換パターンを学習し、次に複雑な現実世界の HTML (128,000 トークン) を使用して困難な状況に対処します。このモデルにはトレーニング中に対照的な検索が組み込まれており、トークン ループなどの機能低下の問題を防ぐために重複検出メカニズムが実装されています。そのアーキテクチャのユニークな点は、鋸歯状リング アテンション メカニズムであり、これによりモデルは安定したパフォーマンスを維持しながら、最大 256,000 トークンの非常に長いシーケンスを処理できます。

パフォーマンス

実際のテストでは、Reader LM 0.5B は複数の指標にわたって優れた効率対パフォーマンス比を実証しました。このモデルは、ROUGE-L スコア 0.56 を達成し、コンテンツが良好に保存されていることを示し、トークン エラー率 0.34 を維持し、最小限のアーティファクトを示しました。多言語のニュース記事、ブログ投稿、電子商取引ページを含む 22 の異なる HTML ソースの定性的評価において、構造の保持とマークダウン構文の使用に関して良好なパフォーマンスを示しました。このモデルは、インライン CSS とスクリプトが数十万のトークンに拡張できる、複雑な最新の Web ページの処理に優れています。従来のルールベースのアプローチでは失敗することがよくあります。ただし、このモデルは単純な HTML からマークダウンへの変換タスクでは非常にうまく機能しますが、非常に動的なページや JavaScript を多用するページでは追加の処理が必要になる場合があることに注意することが重要です。

ガイド

Reader LM 0.5B を効果的に展開するには、組織はインフラストラクチャがモデルの CUDA 要件を満たしていることを確認する必要がありますが、その効率的なアーキテクチャによりコンシューマ グレードの GPU で実行できます。このモデルは、生の HTML 入力で最もよく機能し、特別なプレフィックスやディレクティブを必要としません。最高のパフォーマンスを得るには、提供された重複検出メカニズムを実装して、出力生成における潜在的なトークン サイクルを防ぎます。このモデルは複数の言語とさまざまな HTML 構造をサポートしていますが、コンテンツの抽出とマークダウン変換用に設計されています。テキストの生成、要約、直接的な質疑応答などのタスクには使用しないでください。このモデルは、AWS SageMaker を使用して本番環境にデプロイする準備ができており、テストと実験用に Google Colab ノートブックが提供されています。チームは、このモデルは最大 256K トークンの非常に長いドキュメントを処理できますが、そのような大きな入力を処理するには追加のメモリ管理戦略が必要になる可能性があることに注意する必要があります。
このモデルについて言及しているブログ
9月 11, 2024 • 13 読む時間
Reader-LM:HTML を Markdown に変換・クリーニングするための小規模言語モデル
Reader-LM-0.5B と Reader-LM-1.5B は、Jina Reader にインスパイアされた 2 つの新しい小規模言語モデルで、オープンウェブ上の生の雑多な HTML をクリーンな markdown に変換するために設計されました。
Jina AI
Technical screenshot displaying "REAPER-LM-0.5B/1.5B" with HTML source code for Jina's search grounding feature.
1月 15, 2025 • 17 読む時間
ReaderLM v2:HTML から Markdown と JSON への変換を行う最先端の小規模言語モデル
ReaderLM-v2 は、HTML から Markdown への変換と HTML から JSON への抽出を高精度で行う 1.5B の小規模な言語モデルです。
Jina AI
Orange text "ReaderLM-u2" on a vibrant dark red digital screen.
オフィス
location_on
カリフォルニア州サニーベール
710 Lakeway Dr、Ste 200、サニーベール、CA 94085、アメリカ合衆国
location_on
ドイツ、ベルリン(本社)
Prinzessinnenstraße 19-20、10969 ベルリン、ドイツ
location_on
中国、北京
中国北京市海淀区西街48号ビル6号5階
location_on
深セン、中国
ルーム 402、4 階、福安テクノロジービル、深セン、中国
検索ベース
読者
ベクトルモデル
並べ替え者
ディープサーチ
分類子
スライサー
APIドキュメント
Jina APIキーを取得する
レート制限
APIステータス
会社
私たちについて
営業担当者に問い合わせる
ニュース
インターンプログラム
参加しませんか
open_in_new
ロゴをダウンロード
open_in_new
条項
安全性
利用規約
プライバシー
Cookieを管理する
email
Jina AI © 2020-2025.