ReaderLM-v2 - Búsqueda de modelos de la Fundación

ReaderLM-v2

Un pequeño modelo de lenguaje para convertir HTML sin formato en Markdown o JSON

Publicación de lanzamiento

Licencia

CC-BY-NC-4.0

Fecha de lanzamiento

2025-01-16

Aporte

Texto (HTML)

Producción

Texto (Markdown)

Texto (JSON)

Detalles del modelo

Parámetros: 1.54B

Longitud del token de entrada: 512K

Soporte de idioma

🌍 Soporte multilingüe

Modelos relacionados

reader-lm-1.5b

Etiquetas

reader

language-model

multilingual

document-processing

long-context

text-understanding

content-extraction

cross-lingual

Disponible a través de

API de Jina Licencia comercial AWS SageMaker Microsoft Azure Nube de Google Cara abrazada

Gráfico de E/S 1

Gráfico de E/S 2

Gráfico de E/S 3

Elige modelos para comparar

ReaderLM-v2

reader-lm-1.5b

Publicaciones (1)

arXiv

marzo 04, 2025

ReaderLM-v2: Small Language Model for HTML to Markdown and JSON

Descripción general

ReaderLM-v2 es un modelo de lenguaje de parámetros 1.5B que convierte HTML sin formato en Markdown o JSON, manejando hasta 512K tokens de longitud de entrada/salida combinada con soporte para 29 idiomas. A diferencia de su predecesor que trataba la conversión de HTML a Markdown como una tarea de "copia selectiva", v2 lo aborda como un proceso de traducción, lo que permite un manejo superior de elementos complejos como cercas de código, listas anidadas, tablas y ecuaciones LaTeX. El modelo mantiene un rendimiento consistente en diferentes longitudes de contexto e introduce capacidades de generación directa de HTML a JSON con esquemas predefinidos.

Métodos

Desarrollado sobre la base de Qwen2.5-1.5B-Instruction, el entrenamiento de ReaderLM-v2 implicó un conjunto de datos html-markdown-1m de un millón de documentos HTML, con un promedio de 56.000 tokens cada uno. El proceso de entrenamiento incluyó: 1) preentrenamiento de contexto largo utilizando atención ring-zag y RoPE para expandir el contexto de 32 000 a 256 000 tokens, 2) ajuste fino supervisado con conjuntos de datos refinados, 3) optimización de preferencia directa para alineación de salida y 4) ajuste de refuerzo de reproducción automática. La preparación de los datos siguió un proceso de tres pasos (borrador, refinamiento y crítica) impulsado por Qwen2.5-32B-Instruction, con modelos especializados entrenados para tareas específicas antes de fusionarlos mediante interpolación de parámetros lineales.

Actuación

En pruebas comparativas exhaustivas, ReaderLM-v2 supera a modelos más grandes como Qwen2.5-32B-Instruct y Gemini2-flash-expr en tareas de conversión de HTML a Markdown. Para la extracción de contenido principal, logra un ROUGE-L de 0,84, un Jaro-Winkler de 0,82 y una distancia de Levenshtein significativamente menor (0,22) en comparación con los competidores. En tareas de conversión de HTML a JSON, mantiene un rendimiento competitivo con puntajes F1 de 0,81 y una tasa de aprobación del 98 %. El modelo procesa a 67 tokens/s de entrada y 36 tokens/s de salida en una GPU T4, con problemas de degeneración significativamente reducidos a través del entrenamiento de pérdida de contraste.

Guía

Se puede acceder al modelo a través de un notebook de Google Colab que muestra la conversión de HTML a Markdown, la extracción de JSON y el seguimiento de instrucciones. Para las tareas de HTML a Markdown, los usuarios pueden ingresar HTML sin instrucciones de prefijo, mientras que la extracción de JSON requiere un formato de esquema específico. La función auxiliar create_prompt facilita la creación de indicaciones para ambas tareas. Si bien el modelo funciona en el nivel de GPU T4 gratuito de Colab (que requiere vllm y triton), tiene limitaciones sin compatibilidad con bfloat16 o Flash Attention 2. Se recomienda RTX 3090/4090 para uso en producción. El modelo estará disponible en AWS SageMaker, Azure y GCP Marketplace, con licencia CC BY-NC 4.0 para uso no comercial.

Blogs que mencionan este modelo

enero 15, 2025 • 17 minutos de lectura

ReaderLM v2: Modelo de Lenguaje Pequeño de Vanguardia para HTML a Markdown y JSON

ReaderLM-v2 es un modelo de lenguaje pequeño de 1.5B para la conversión de HTML a Markdown y la extracción de HTML a JSON con una precisión excepcional.

abril 08, 2025 • 21 minutos de lectura

jina-reranker-m0: Reranqueador multilingüe y multimodal de documentos

Presentamos jina-reranker-m0, nuestro nuevo reranker multimodal multilingüe para recuperar documentos visuales, con rendimiento SOTA en documentos largos multilingües y tareas de búsqueda de código.

enero 31, 2025 • 14 minutos de lectura

Una guía práctica para desplegar modelos fundacionales de búsqueda en producción

Ofrecemos análisis detallados de costos y rendimiento para tres estrategias de implementación: Jina API, K8s autogestionado y AWS SageMaker, para ayudarte a tomar la decisión correcta.