Noticias
Modelos
Productos
keyboard_arrow_down
Lector
Lea las URL y busque en la web para obtener una base más sólida para su LLM.
Incrustaciones
Integraciones multilingües y multimodales de clase mundial.
reclasificador
Recuperador neuronal de clase mundial para maximizar la relevancia de la búsqueda.
Búsqueda profunda
Busca, lee y razona hasta encontrar la mejor respuesta.
Más
keyboard_arrow_down
Clasificador
Clasificación de cero disparos y pocos disparos para imágenes y texto.
Segmentador
Corta el texto largo en fragmentos y haz tokenización.

Servidor MCP
Agregue mcp.jina.ai como su servidor MCP para acceder a nuestra API en LLM
open_in_new
Documentación de la API
Generación automática de código para su IDE o LLM de Copilot
open_in_new


Compañía
keyboard_arrow_down
Sobre nosotros
Contactar con ventas
Programa de prácticas
Únete a nosotros
open_in_new
Descargar logotipo
open_in_new
Términos y condiciones


Acceso
login
warning
Este modelo está obsoleto por los modelos más nuevos.
copyright

reader-lm-0.5b

Un pequeño modelo de lenguaje para convertir HTML sin formato en Markdown
Publicación de lanzamientoarrow_forward
Licencia
copyright
CC-BY-NC-4.0
Fecha de lanzamiento
calendar_month
2024-08-11
Aporte
abc
Texto (HTML)
arrow_forward
Producción
abc
Texto (Markdown)
Detalles del modelo
Parámetros: 494M
Longitud del token de entrada: 256K
Soporte de idioma
🌍 Soporte multilingüe
Modelos relacionados
link
reader-lm-1.5b
Etiquetas
text-understanding
multilingual
document-processing
resource-efficient
long-context
base-model
language-model
Disponible a través de
Licencia comercialAWS SageMakerMicrosoft AzureCara abrazada
Elige modelos para comparar

Descripción general

Reader LM 0.5B es un modelo de lenguaje especializado diseñado para resolver el complejo desafío de convertir documentos HTML en texto Markdown limpio y estructurado. Este modelo aborda una necesidad crítica en los procesos de procesamiento de datos modernos: transformar de manera eficiente contenido web desordenado en un formato ideal para LLM y sistemas de documentación. A diferencia de los modelos de lenguaje de propósito general que requieren recursos computacionales masivos, Reader LM 0.5B logra un procesamiento HTML de nivel profesional con solo 494 millones de parámetros, lo que lo hace accesible para equipos con recursos computacionales limitados. Las organizaciones que se ocupan del procesamiento de contenido web, la automatización de la documentación o la creación de aplicaciones impulsadas por LLM encontrarán este modelo particularmente valioso para agilizar sus flujos de trabajo de preparación de contenido.

Métodos

El modelo emplea una arquitectura innovadora "superficial pero amplia" optimizada específicamente para operaciones de copia selectiva en lugar de generación creativa de texto. Construido sobre una base de solo decodificador con 24 capas y 896 dimensiones ocultas, el modelo utiliza mecanismos de atención especializados con 14 cabezas de consulta y 2 cabezas de clave-valor para procesar eficientemente las secuencias de entrada. El proceso de entrenamiento implicó dos etapas distintas: primero con HTML más corto y simple (32K tokens) para aprender patrones básicos de conversión, luego con HTML complejo del mundo real (128K tokens) para manejar casos desafiantes. El modelo incorpora búsqueda contrastiva durante el entrenamiento e implementa un mecanismo de detección de repeticiones para evitar problemas de degeneración como bucles de tokens. Un aspecto único de su arquitectura es el mecanismo de atención de anillo en zigzag, que permite que el modelo maneje secuencias extremadamente largas de hasta 256K tokens mientras mantiene un rendimiento estable.

Actuación

En pruebas reales, Reader LM 0.5B demuestra impresionantes relaciones eficiencia-rendimiento en múltiples métricas. El modelo alcanza una puntuación ROUGE-L de 0,56, lo que indica una fuerte conservación del contenido, y mantiene una baja tasa de error de token de 0,34, lo que muestra una alucinación mínima. En evaluaciones cualitativas en 22 fuentes HTML diversas, incluidos artículos de noticias, publicaciones de blogs y páginas de comercio electrónico en varios idiomas, muestra una fortaleza particular en la conservación de la estructura y el uso de la sintaxis de Markdown. El modelo se destaca en el manejo de páginas web modernas complejas donde los CSS y scripts en línea pueden expandirse a cientos de miles de tokens, un escenario en el que los enfoques tradicionales basados en reglas a menudo fallan. Sin embargo, es importante señalar que, si bien el modelo funciona excepcionalmente bien en tareas sencillas de conversión de HTML a Markdown, puede requerir procesamiento adicional para páginas altamente dinámicas o con mucho JavaScript.

Guía

Para implementar Reader LM 0.5B de manera eficaz, las organizaciones deben asegurarse de que su infraestructura pueda manejar los requisitos CUDA del modelo, aunque su arquitectura eficiente significa que puede ejecutarse en GPU de nivel de consumidor. El modelo funciona mejor con una entrada HTML sin procesar y no requiere prefijos ni instrucciones especiales. Para un rendimiento óptimo, implemente el mecanismo de detección de repetición provisto para evitar posibles bucles de tokens en la generación de salida. Si bien el modelo admite varios idiomas y varias estructuras HTML, está diseñado específicamente para la extracción de contenido y la conversión de Markdown; no debe usarse para tareas como generación de texto, resumen o respuesta directa a preguntas. El modelo está disponible a través de AWS SageMaker para la implementación de producción, y se proporciona un cuaderno de Google Colab para pruebas y experimentación. Los equipos deben tener en cuenta que, si bien el modelo puede manejar documentos extremadamente largos de hasta 256 000 tokens, el procesamiento de entradas tan grandes puede requerir estrategias de administración de memoria adicionales.
Blogs que mencionan este modelo
septiembre 11, 2024 • 13 minutos de lectura
Reader-LM: Modelos de lenguaje pequeños para limpiar y convertir HTML a Markdown
Reader-LM-0.5B y Reader-LM-1.5B son dos nuevos modelos de lenguaje pequeños inspirados en Jina Reader, diseñados para convertir HTML sin procesar y con ruido de la web abierta en markdown limpio.
Jina AI
Technical screenshot displaying "REAPER-LM-0.5B/1.5B" with HTML source code for Jina's search grounding feature.
enero 15, 2025 • 17 minutos de lectura
ReaderLM v2: Modelo de Lenguaje Pequeño de Vanguardia para HTML a Markdown y JSON
ReaderLM-v2 es un modelo de lenguaje pequeño de 1.5B para la conversión de HTML a Markdown y la extracción de HTML a JSON con una precisión excepcional.
Jina AI
Orange text "ReaderLM-u2" on a vibrant dark red digital screen.
Oficinas
location_on
Sunnyvale, California
710 Lakeway Dr, Ste 200, Sunnyvale, CA 94085, EE. UU.
location_on
Berlín, Alemania (sede central)
Prinzessinnenstraße 19-20, 10969 Berlín, Alemania
location_on
Beijing, China
Piso 5, Edificio 6, No.48 Haidian West St. Pekín, China
location_on
Shenzhen, China
Piso 402, Edificio de Tecnología Fu'an, Shenzhen, China
Fundación de búsqueda
Lector
Incrustaciones
reclasificador
Búsqueda profunda
Clasificador
Segmentador
Documentación API
Obtener la clave API de Jina
Límite de velocidad
Estado de la API
Compañía
Sobre nosotros
Contactar con ventas
Sala de prensa
Programa de prácticas
Únete a nosotros
open_in_new
Descargar logotipo
open_in_new
Términos
Seguridad
Términos y condiciones
Privacidad
Administrar cookies
email
Jina AI © 2020-2025.