ニュース
モデル
製品
keyboard_arrow_down
読者
URL を読み取ったり検索したりすると、大規模なモデルのサポートが向上します。
ベクトルモデル
世界クラスのマルチモーダル、多言語埋め込み。
並べ替え者
検索の関連性を最大化する世界クラスのニューラルレトリーバー。
ディープサーチ
最善の答えが見つかるまで、検索し、読み、推論してください。
もっと
keyboard_arrow_down
分類子
画像とテキストのゼロショットおよび少数ショットの分類。
スライサー
長いテキストをチャンクまたはトークンに分割します。

APIドキュメント
AIプログラミングアシスタントIDEまたは大規模モデル用のコードを自動生成
open_in_new


会社
keyboard_arrow_down
私たちについて
営業担当者に問い合わせる
インターンプログラム
参加しませんか
open_in_new
ロゴをダウンロード
open_in_new
利用規約


ログイン
login
copyright

ReaderLM-v2

生の HTML をマークダウンまたは JSON に変換するための小規模な言語モデル
リリースノートarrow_forward
ライセンス
copyright
CC-BY-NC-4.0
発売日
calendar_month
2025-01-16
入力
abc
テキスト(HTML)
arrow_forward
出力
abc
テキスト (マークダウン)
abc
テキスト(JSON)
モデル詳細
パラメータ: 1.54B
単語の長さを入力してください: 512K
言語サポート
🌍 多言語サポート
関連機種
link
reader-lm-1.5b
ラベル
reader
language-model
multilingual
document-processing
long-context
text-understanding
content-extraction
cross-lingual
以下の方法で入手できます
ジナAPI商用ライセンスアマゾンクラウドマイクロソフトクラウドグーグルクラウド顔を抱きしめる
I/O 図 1
I/O 図 2
I/O 図 3
比較するモデルを選択してください
出版物 (1)
ICLR 2025
3月 04, 2025
ReaderLM-v2: Small Language Model for HTML to Markdown and JSON

概要

ReaderLM-v2 は、生の HTML をマークダウンまたは JSON に変換し、最大 512K のトークンの組み合わせの入出力長を処理し、29 の言語をサポートする 1.5B パラメーターの言語モデルです。 HTML からマークダウンまでを「選択コピー」タスクとして扱っていた前バージョンとは異なり、v2 はこれを翻訳プロセスとして扱い、コード フェンス、ネストされたリスト、テーブル、LaTeX 方程式などの複雑な要素の処理に優れています。このモデルは、さまざまなコンテキスト長にわたって一貫したパフォーマンスを維持し、事前定義されたスキーマを使用した HTML から JSON への直接生成を導入します。

方法

ReaderLM-v2 は Qwen2.5-1.5B-Instruction に基づいて構築され、平均 56,000 トークンを含む 1,000 万の HTML ドキュメントを含む html-markdown-1m データセットでトレーニングされています。トレーニング プロセスには、1) コンテキストを 32,000 トークンから 256,000 トークンに拡張するための、Ring-zag Attention と RoPE を使用した長期コンテキストの事前トレーニングが含まれます。 2) 洗練されたデータセットを使用した教師あり微調整3)出力アライメントのための直接的な設定最適化。 4)自己プレー強化調整。データ準備は、Qwen2.5-32B-Instruction によって実行される 3 段階のプロセス (ドラフト、リファイン、レビュー) に従います。このプロセスでは、特定のタスク用に特殊なモデルがトレーニングされ、線形パラメータ補間によってマージされます。

パフォーマンス

合成ベンチマークでは、ReaderLM-v2 は、HTML から Markdown へのタスクにおいて、Qwen2.5-32B-Instruct や Gemini2-flash-expr などの大規模モデルよりも優れたパフォーマンスを発揮します。一次コンテンツ抽出では、競合他社と比較して、ROUGE-L 0.84、Jaro-Winkler 0.82、および大幅に低いレーベンシュタイン距離 (0.22) を達成しています。 HTML から JSON へのタスクでは、F1 スコア 0.81、合格率 98% という競争力のあるパフォーマンスを維持しています。このモデルは、T4 GPU 上で 67 トークン/秒の入力と 36 トークン/秒の出力で処理し、コントラスト損失トレーニングを通じて劣化の問題を大幅に軽減します。

ガイド

このモデルには、HTML から Markdown への変換、JSON 抽出、および命令のフォローを示す Google Colab ノートブック経由でアクセスできます。 HTML からマークダウンへのタスクの場合、ユーザーはプレフィックス ディレクティブなしで生の HTML を入力できますが、JSON 抽出には特定のスキーマ形式が必要です。 create_prompt ヘルパー関数を使用すると、両方のタスクのプロンプトを簡単に作成できます。モデルは Colab の無料 T4 GPU 層 (vllm および triton が必要) で実行できますが、bfloat16 またはフラッシュ アテンション 2 がサポートされていないため制限があります。本番環境での使用には RTX 3090/4090 が推奨されます。このモデルは、AWS SageMaker、Azure、および GCP マーケットプレイスで入手可能になり、CC BY-NC 4.0 ライセンスに基づいて非営利使用がライセンスされます。
このモデルについて言及しているブログ
1月 15, 2025 • 17 読む時間
ReaderLM v2:HTML から Markdown と JSON への変換を行う最先端の小規模言語モデル
ReaderLM-v2 は、HTML から Markdown への変換と HTML から JSON への抽出を高精度で行う 1.5B の小規模な言語モデルです。
Jina AI
Orange text "ReaderLM-u2" on a vibrant dark red digital screen.
5月 25, 2025 • 21 読む時間
ICLR2025で学んだこと
ICLR 2025で最も興味深い論文をいくつか集めました。TIPS、FlexPrefill、ゼロショット重排器 (Zero-Shot Rerankers)、SVD-LLM、Hymbaなどが含まれています。
Jina AI
Three people smiling on a stage at a conference with an ICLR banner visible, suggesting a warm and lively event atmosphere.
5月 07, 2025 • 9 読む時間
埋め込みに対する Model Soup のレシピ
モデルスープでロバスト性とパフォーマンスを向上:重みを平均化します。追加コストなしで、より良い結果が得られます。
Bo Wang
Scott Martens
Still life drawing of a purple bowl filled with apples and oranges on a white table. The scene features rich colors against a
4月 08, 2025 • 21 読む時間
jina-reranker-m0:多言語マルチモーダルドキュメントリランカー
視覚的なドキュメントを検索するための新しい多言語・マルチモーダルリランカー jina-reranker-m0 を紹介します。多言語の長文ドキュメントやコード検索タスクにおいて、最先端(SOTA)の性能を実現しています。
Jina AI
Modern dot matrix text display on a dark blue background, conveying a digital feel.
1月 31, 2025 • 14 読む時間
実践的な検索基盤モデルの本番環境へのデプロイメントガイド
3つのデプロイメント戦略(Jina API、セルフホスト型 K8s、AWS SageMaker)について、コストとパフォーマンスの詳細な内訳を提供し、適切な判断をサポートします。
Saahil Ognawala
Scott Martens
Abstract cityscape illustration with orange, grey and white buildings, featuring visible balconies with a potted plant.
オフィス
location_on
カリフォルニア州サニーベール
710 Lakeway Dr、Ste 200、サニーベール、CA 94085、アメリカ合衆国
location_on
ドイツ、ベルリン(本社)
Prinzessinnenstraße 19-20、10969 ベルリン、ドイツ
location_on
中国、北京
中国北京市海淀区西街48号ビル6号5階
location_on
深セン、中国
ルーム 402、4 階、福安テクノロジービル、深セン、中国
検索ベース
読者
ベクトルモデル
並べ替え者
ディープサーチ
分類子
スライサー
APIドキュメント
Jina APIキーを取得する
レート制限
APIステータス
会社
私たちについて
営業担当者に問い合わせる
ニュース
インターンプログラム
参加しませんか
open_in_new
ロゴをダウンロード
open_in_new
条項
安全性
利用規約
プライバシー
Cookieを管理する
email
Jina AI © 2020-2025.