reader-lm-1.5b

원시 HTML을 마크다운으로 변환하기 위한 작은 언어 모델

릴리스 노트

특허

CC-BY-NC-4.0

출시일

2024-08-11

입력하다

텍스트(HTML)

산출

텍스트(마크다운)

모델 세부정보

매개변수: 1.54B

단어 길이를 입력하세요: 256K

언어 지원

🌍 다국어 지원

개요

Reader LM 1.5B는 효율적인 문서 처리의 획기적인 발전을 나타내며 복잡한 웹 콘텐츠를 깔끔하고 구조화된 형식으로 변환하는 중요한 과제를 해결합니다. 이 전문화된 언어 모델은 현대 AI 파이프라인의 근본적인 문제, 즉 불안정한 규칙 기반 시스템이나 리소스 집약적인 대규모 언어 모델에 의존하지 않고 다운스트림 작업을 위해 HTML 콘텐츠를 효율적으로 처리하고 정리해야 하는 필요성을 해결합니다. 이 모델의 정말 놀라운 점은 놀랍도록 컴팩트한 1.54B 매개변수 공간을 유지하면서 모델 크기의 50배보다 뛰어난 성능을 발휘할 수 있다는 것입니다. 대규모 웹 콘텐츠 처리, 문서 자동화 또는 콘텐츠 관리 시스템을 다루는 조직에서는 이 모델이 매우 긴 문서를 처리하는 동시에 HTML에서 마크다운으로의 변환에서 뛰어난 정확성을 제공할 수 있기 때문에 특히 유용하다는 것을 알게 될 것입니다.

방법

이 모델은 언어 모델 설계의 기존 확장 방법에 도전하는 혁신적인 "얕고 넓은" 아키텍처를 채택합니다. 핵심에는 12개의 쿼리 헤더와 2개의 키-값 헤더로 구성된 28개의 Transformer 레이어가 있어 깊은 의미론적 이해를 유지하면서 선택적 복사 작업을 최적화하는 고유한 균형을 만듭니다. 이 아키텍처는 숨겨진 크기가 1536이고 중간 크기가 8960이며 최대 256K 토큰의 시퀀스를 처리하도록 미세 조정되었습니다. 학습 프로세스에는 두 가지 별개의 단계가 포함됩니다. 먼저 32K 토큰 시퀀스를 사용하여 짧고 간단한 HTML에 초점을 맞춘 다음 128K 토큰을 사용하여 길고 어려운 HTML로 발전하고 효율적인 처리를 위해 들쭉날쭉한 링 어텐션을 구현합니다. 대조 검색 및 특화된 중복 감지 메커니즘과 결합된 이 접근 방식을 통해 모델은 복잡한 문서 처리 작업을 처리하는 소규모 언어 모델에서 종종 나타나는 품질 저하 및 무한 루프와 같은 일반적인 문제를 피할 수 있습니다.

성능

포괄적인 벤치마크 평가에서 Reader LM 1.5B는 업계 표준에 도전하는 능력을 입증했습니다. 모델의 ROUGE-L 점수는 0.72이고 토큰 오류율은 0.19로 GPT-4(0.43 ROUGE-L, 0.50 TER) 및 Gemini-1.5-Pro(0.42 ROUGE-L, 0.50)보다 훨씬 우수합니다. TER) HTML에서 Markdown으로의 변환 작업 0.48 TER) 및 기타 대규모 모델. 제목 추출, 주요 콘텐츠 추출, 풍부한 구조 보존, 마크다운 구문 사용 등 4가지 주요 차원에 대한 질적 평가에서 성능이 두드러집니다. 이 모델은 뉴스 기사, 블로그 게시물, 랜딩 페이지, 포럼 게시물 등 다양한 문서 유형에서 일관되게 높은 정확도를 유지하며 영어, 독일어, 일본어, 중국어를 포함한 여러 언어를 지원합니다. 이 성능은 대형 모델에 일반적으로 필요한 값비싼 청크 작업 없이 최대 256K 길이의 토큰이 포함된 문서를 처리할 때 달성됩니다.

가이드

Reader LM 1.5B를 효과적으로 배포하려면 조직은 정확성과 효율성이 중요한 복잡한 HTML 문서 처리와 관련된 시나리오에 집중해야 합니다. 이 모델은 최적의 성능을 위해 CUDA 지원 GPU 인프라가 필요하지만 효율적인 아키텍처는 더 큰 대안보다 더 적당한 하드웨어에서 효과적으로 실행할 수 있음을 의미합니다. 프로덕션 배포의 경우 AWS SageMaker 및 Azure Marketplace를 통해 모델을 사용할 수 있어 유연한 통합 옵션을 제공합니다. 이 모델은 HTML에서 마크다운으로의 변환에서 잘 수행되지만 특히 이 작업에 최적화되어 있으며 일반 텍스트 생성이나 기타 NLP 작업에는 적합하지 않을 수 있다는 점에 유의하는 것이 중요합니다. 사용자는 매우 긴 문서(약 512K 토큰)를 처리할 때 모델의 학습 매개변수를 초과하므로 성능이 저하될 수 있다는 점을 알아야 합니다. 최상의 결과를 얻으려면 제공된 중복 검색 메커니즘을 구현하고 추론 중에 대조 검색을 사용하여 출력 품질을 유지하는 것을 고려하십시오.

이 모델을 언급하는 블로그

9월 11, 2024 • 13 독서의 분

Reader-LM: HTML을 Markdown으로 변환하고 정제하기 위한 작은 언어 모델

Reader-LM-0.5B와 Reader-LM-1.5B는 Jina Reader에서 영감을 받은 두 가지 새로운 소형 언어 모델로, 오픈 웹의 가공되지 않은 혼잡한 HTML을 깔끔한 markdown으로 변환하도록 설계되었습니다.

1월 15, 2025 • 17 독서의 분

ReaderLM v2: HTML을 Markdown과 JSON으로 변환하는 프론티어 소형 언어 모델

ReaderLM-v2는 HTML을 Markdown으로 변환하고 HTML을 JSON으로 추출하는 데 탁월한 정확도를 보이는 1.5B 크기의 소형 언어 모델입니다.