reader-lm-1.5b

Небольшая языковая модель для преобразования сырого HTML в разметку

Выпуск Пост

Лицензия

CC-BY-NC-4.0

Дата выпуска

2024-08-11

Вход

Текст (HTML)

Выход

Текст (разметка)

Подробности модели

Параметры: 1.54B

Длина входного токена: 256K

Поддержка языков

🌍 Многоязычная поддержка

Похожие модели

reader-lm-0.5b

Теги

reader

language-model

multilingual

document-processing

long-context

text-understanding

content-extraction

cross-lingual

Доступно через

Коммерческая лицензия AWS SageMaker Microsoft Azure Обнимающее лицо

Выберите модели для сравнения

reader-lm-1.5b

reader-lm-0.5b

Обзор

Reader LM 1.5B представляет собой прорыв в эффективной обработке документов, решая критическую задачу преобразования сложного веб-контента в чистые, структурированные форматы. Эта специализированная языковая модель решает фундаментальную проблему современных конвейеров ИИ: необходимость эффективной обработки и очистки HTML-контента для последующих задач без использования хрупких систем на основе правил или ресурсоемких больших языковых моделей. Что делает эту модель по-настоящему замечательной, так это ее способность превосходить модели в 50 раз по размеру, сохраняя при этом удивительно компактный размер параметров в 1,54 млрд. Организации, занимающиеся крупномасштабной обработкой веб-контента, автоматизацией документации или системами управления контентом, найдут эту модель особенно ценной из-за ее способности обрабатывать чрезвычайно длинные документы, обеспечивая при этом превосходную точность преобразования HTML в разметку.

Методы

Модель использует инновационную архитектуру «неглубокая, но широкая», которая бросает вызов традиционным подходам к масштабированию в разработке языковой модели. В ее основе лежат 28 слоев преобразователя, настроенных с 12 головками запросов и 2 головками ключ-значение, что создает уникальный баланс, который оптимизирует операции выборочного копирования, сохраняя при этом глубокое семантическое понимание. Архитектура имеет скрытый размер 1536 и промежуточный размер 8960, тщательно настроенные для обработки последовательностей до 256 тыс. токенов. Процесс обучения включал два отдельных этапа: сначала фокусировка на коротком и простом HTML с последовательностями из 32 тыс. токенов, затем переход к длинному и сложному HTML с 128 тыс. токенов, реализация зигзагообразного кольца-внимания для эффективной обработки. Этот подход в сочетании с контрастным поиском и специализированными механизмами обнаружения повторений позволяет модели избегать распространенных проблем, таких как вырождение и скучные циклы, которые обычно мешают небольшим языковым моделям обрабатывать сложные задачи обработки документов.

Производительность

В комплексных бенчмарк-оценках Reader LM 1.5B демонстрирует исключительные возможности, бросающие вызов отраслевым стандартам. Модель достигает оценки ROUGE-L 0,72 и коэффициента ошибок токенов 0,19, значительно превосходя более крупные модели, такие как GPT-4 (0,43 ROUGE-L, 0,50 TER) и Gemini-1.5-Pro (0,42 ROUGE-L, 0,48 TER) в задачах преобразования HTML в разметку. Ее производительность особенно блестит в качественных оценках по четырем ключевым измерениям: извлечение заголовка, извлечение основного контента, сохранение расширенной структуры и использование синтаксиса разметки. Модель постоянно поддерживает высокую точность для различных типов документов, от новостных статей и сообщений в блогах до целевых страниц и сообщений на форумах, на нескольких языках, включая английский, немецкий, японский и китайский. Такая производительность достигается при обработке документов длиной до 256 тыс. токенов, что устраняет необходимость в дорогостоящих операциях по фрагментации, которые обычно требуются для более крупных моделей.

Руководство

Для эффективного развертывания Reader LM 1.5B организации должны сосредоточиться на сценариях, включающих сложную обработку HTML-документов, где точность и эффективность имеют первостепенное значение. Для оптимальной производительности модели требуется инфраструктура графического процессора с поддержкой CUDA, хотя ее эффективная архитектура означает, что она может эффективно работать на более скромном оборудовании по сравнению с более крупными альтернативами. Для производственных развертываний модель доступна как через AWS SageMaker, так и через Azure Marketplace, предлагая гибкие возможности интеграции. Хотя модель отлично справляется с преобразованием HTML в markdown, важно отметить, что она специально оптимизирована для этой задачи и может не подходить для генерации текста общего назначения или других задач обработки естественного языка. При обработке очень длинных документов (приближающихся к 512 тыс. токенов) пользователи должны знать, что производительность может ухудшиться, поскольку это превышает параметры обучения модели. Для достижения оптимальных результатов реализуйте предоставленные механизмы обнаружения повторений и рассмотрите возможность использования сопоставительного поиска во время вывода для поддержания качества вывода.

Блоги, в которых упоминается эта модель

сентябрь 11, 2024 • 13 минуты чтения

Reader-LM: малые языковые модели для очистки и конвертации HTML в Markdown

Reader-LM-0.5B и Reader-LM-1.5B — это два новых компактных языковых модели, вдохновленных Jina Reader, предназначенные для преобразования необработанного, зашумленного HTML из открытого интернета в чистый markdown.

январь 15, 2025 • 17 минуты чтения

ReaderLM v2: Передовая малая языковая модель для преобразования HTML в Markdown и JSON

ReaderLM-v2 — это небольшая языковая модель размером 1.5B, предназначенная для конвертации HTML в Markdown и извлечения данных из HTML в JSON с исключительной точностью.