Новости
Модели
Продукты
keyboard_arrow_down
Глубокий поиск
Ищите, читайте и рассуждайте, пока не найдете лучший ответ.
Читатель
Читайте URL-адреса и ищите информацию в Интернете для получения более подходящей подготовки для получения степени магистра права.
Вложения
Мультимодальные многоязычные вложения мирового класса.
Реранкер
Нейронный ретривер мирового класса для максимального повышения релевантности поиска.
Более
keyboard_arrow_down
Классификатор
Классификация изображений и текста по нулевому и небольшому количеству кадров.
Сегментатор
Разрежьте длинный текст на куски и выполните токенизацию.

API-документы
Автоматическая генерация кода для вашего второго пилота IDE или LLM
open_in_new


Компания
keyboard_arrow_down
О нас
Связаться с отделом продаж
Стажерская программа
Присоединяйтесь к нам
open_in_new
Скачать логотип
open_in_new
Условия использования


Авторизоваться
login
warning
Эта модель устарела из-за появления новых моделей.
copyright

reader-lm-1.5b

Небольшая языковая модель для преобразования сырого HTML в разметку
Выпуск Постarrow_forward
Лицензия
copyright
CC-BY-NC-4.0
Дата выпуска
calendar_month
2024-08-11
Вход
abc
Текст (HTML)
arrow_forward
Выход
abc
Текст (разметка)
Подробности модели
Параметры: 1.54B
Длина входного токена: 256K
Поддержка языков
🌍 Многоязычная поддержка
Похожие модели
link
reader-lm-0.5b
Теги
reader
language-model
multilingual
document-processing
long-context
text-understanding
content-extraction
cross-lingual
Доступно через
Коммерческая лицензияAWS SageMakerMicrosoft AzureОбнимающее лицо
Выберите модели для сравнения

Обзор

Reader LM 1.5B представляет собой прорыв в эффективной обработке документов, решая критическую задачу преобразования сложного веб-контента в чистые, структурированные форматы. Эта специализированная языковая модель решает фундаментальную проблему современных конвейеров ИИ: необходимость эффективной обработки и очистки HTML-контента для последующих задач без использования хрупких систем на основе правил или ресурсоемких больших языковых моделей. Что делает эту модель по-настоящему замечательной, так это ее способность превосходить модели в 50 раз по размеру, сохраняя при этом удивительно компактный размер параметров в 1,54 млрд. Организации, занимающиеся крупномасштабной обработкой веб-контента, автоматизацией документации или системами управления контентом, найдут эту модель особенно ценной из-за ее способности обрабатывать чрезвычайно длинные документы, обеспечивая при этом превосходную точность преобразования HTML в разметку.

Методы

Модель использует инновационную архитектуру «неглубокая, но широкая», которая бросает вызов традиционным подходам к масштабированию в разработке языковой модели. В ее основе лежат 28 слоев преобразователя, настроенных с 12 головками запросов и 2 головками ключ-значение, что создает уникальный баланс, который оптимизирует операции выборочного копирования, сохраняя при этом глубокое семантическое понимание. Архитектура имеет скрытый размер 1536 и промежуточный размер 8960, тщательно настроенные для обработки последовательностей до 256 тыс. токенов. Процесс обучения включал два отдельных этапа: сначала фокусировка на коротком и простом HTML с последовательностями из 32 тыс. токенов, затем переход к длинному и сложному HTML с 128 тыс. токенов, реализация зигзагообразного кольца-внимания для эффективной обработки. Этот подход в сочетании с контрастным поиском и специализированными механизмами обнаружения повторений позволяет модели избегать распространенных проблем, таких как вырождение и скучные циклы, которые обычно мешают небольшим языковым моделям обрабатывать сложные задачи обработки документов.

Производительность

В комплексных бенчмарк-оценках Reader LM 1.5B демонстрирует исключительные возможности, бросающие вызов отраслевым стандартам. Модель достигает оценки ROUGE-L 0,72 и коэффициента ошибок токенов 0,19, значительно превосходя более крупные модели, такие как GPT-4 (0,43 ROUGE-L, 0,50 TER) и Gemini-1.5-Pro (0,42 ROUGE-L, 0,48 TER) в задачах преобразования HTML в разметку. Ее производительность особенно блестит в качественных оценках по четырем ключевым измерениям: извлечение заголовка, извлечение основного контента, сохранение расширенной структуры и использование синтаксиса разметки. Модель постоянно поддерживает высокую точность для различных типов документов, от новостных статей и сообщений в блогах до целевых страниц и сообщений на форумах, на нескольких языках, включая английский, немецкий, японский и китайский. Такая производительность достигается при обработке документов длиной до 256 тыс. токенов, что устраняет необходимость в дорогостоящих операциях по фрагментации, которые обычно требуются для более крупных моделей.

Руководство

Для эффективного развертывания Reader LM 1.5B организации должны сосредоточиться на сценариях, включающих сложную обработку HTML-документов, где точность и эффективность имеют первостепенное значение. Для оптимальной производительности модели требуется инфраструктура графического процессора с поддержкой CUDA, хотя ее эффективная архитектура означает, что она может эффективно работать на более скромном оборудовании по сравнению с более крупными альтернативами. Для производственных развертываний модель доступна как через AWS SageMaker, так и через Azure Marketplace, предлагая гибкие возможности интеграции. Хотя модель отлично справляется с преобразованием HTML в markdown, важно отметить, что она специально оптимизирована для этой задачи и может не подходить для генерации текста общего назначения или других задач обработки естественного языка. При обработке очень длинных документов (приближающихся к 512 тыс. токенов) пользователи должны знать, что производительность может ухудшиться, поскольку это превышает параметры обучения модели. Для достижения оптимальных результатов реализуйте предоставленные механизмы обнаружения повторений и рассмотрите возможность использования сопоставительного поиска во время вывода для поддержания качества вывода.
Блоги, в которых упоминается эта модель
сентябрь 11, 2024 • 13 минуты чтения
Reader-LM: малые языковые модели для очистки и конвертации HTML в Markdown
Reader-LM-0.5B и Reader-LM-1.5B — это два новых компактных языковых модели, вдохновленных Jina Reader, предназначенные для преобразования необработанного, зашумленного HTML из открытого интернета в чистый markdown.
Jina AI
Technical screenshot displaying "REAPER-LM-0.5B/1.5B" with HTML source code for Jina's search grounding feature.
январь 15, 2025 • 17 минуты чтения
ReaderLM v2: Передовая малая языковая модель для преобразования HTML в Markdown и JSON
ReaderLM-v2 — это небольшая языковая модель размером 1.5B, предназначенная для конвертации HTML в Markdown и извлечения данных из HTML в JSON с исключительной точностью.
Jina AI
Orange text "ReaderLM-u2" on a vibrant dark red digital screen.
Офисы
location_on
Саннивейл, Калифорния
710 Lakeway Dr, Ste 200, Саннивейл, Калифорния 94085, США
location_on
Берлин, Германия (штаб-квартира)
Prinzessinnenstraße 19-20, 10969 Берлин, Германия
location_on
Пекин, Китай
Уровень 5, здание 6, ул. Хайдянь Вест, д. 48, Пекин, Китай
location_on
Шэньчжэнь, Китай
402, этаж 4, здание Fu'an Technology, Шэньчжэнь, Китай
Поиск Фонда
Глубокий поиск
Читатель
Вложения
Реранкер
Классификатор
Сегментатор
API-документация
Получить API-ключ Jina
Ограничение скорости
Статус API
Компания
О нас
Связаться с отделом продаж
отдел новостей
Стажерская программа
Присоединяйтесь к нам
open_in_new
Скачать логотип
open_in_new
Условия
Безопасность
Условия использования
Конфиденциальность
Управление файлами cookie
email
Jina AI © 2020-2025.