Читатель
Преобразуйте URL-адрес в формат ввода, удобный для LLM, просто добавив
r.jina.ai в начало.API-интерфейс читателя
Преобразуйте URL-адрес в формат ввода, удобный для LLM, просто добавив
r.jina.ai в начало.chevron_leftchevron_right
globe_book
Используйте
r.jina.ai для чтения URL-адреса и извлечения его содержимого.travel_explore
Используйте
s.jina.ai для поиска в Интернете и получения результатов поискаДобавьте
mcp.jina.ai в качестве сервера MCP для доступа к нашему API в LLM.Формат контента
Вы можете контролировать уровень детализации ответа, чтобы предотвратить чрезмерную фильтрацию. Конвейер по умолчанию оптимизирован для большинства веб-сайтов и входных данных LLM.
По умолчанию
arrow_drop_down
JSON-ответ
Ответ будет в формате JSON, содержащий URL-адрес, заголовок, контент и временную метку (если имеется). В режиме поиска он возвращает список из пяти записей, каждая из которых соответствует описанной структуре JSON.
Тайм-аут (секунды)
Максимальное время ожидания загрузки страницы. Увеличивайте его для медленно загружаемых страниц, уменьшайте для простых статических страниц.
Бюджет токенов
Ограничивает максимальное количество токенов, используемых для этого запроса. Превышение этого лимита приведет к сбою запроса.
Использовать ReaderLM-v2
Экспериментальный
Использует ReaderLM-v2 для преобразования HTML в Markdown, чтобы обеспечить высококачественные результаты для веб-сайтов со сложной структурой и содержимым. Стоит 3x токенов!open_in_newУзнать больше
Извлечь только (селектор CSS)
Извлекайте только контент, соответствующий этим CSS-селекторам. Пример: article, .main-content, #post-body
Ожидание (CSS-селектора)
Подождите, пока эти элементы появятся, прежде чем извлекать контент. Полезно для динамически загружаемого контента.
Исключить (селектор CSS)
Удалите эти элементы перед извлечением. Например: nav, footer, .sidebar, #ads
Удалить все изображения
Удаляет все изображения из выходных данных. Уменьшает использование токенов, когда изображения не нужны.
Формат цитирования OpenAI
Форматирование ссылок для инструмента веб-браузера OpenAI. Использует специальные маркеры цитирования, совместимые с моделями GPT.open_in_newУзнать больше
Раздел «Краткая информация о ссылках»
В конце будет создан раздел «Кнопки и ссылки». Это помогает нижестоящим LLM или веб-агентам перемещаться по странице или предпринимать дальнейшие действия.
Никто
arrow_drop_down
Раздел «Краткое описание изображений»
В конце будет создан раздел «Изображения». Это дает последующим специалистам LLM обзор всех визуальных элементов на странице, что может улучшить логику.
Никто
arrow_drop_down
Размер области просмотра браузера
POST
Задает размеры окна браузера. Влияет на адаптивный дизайн и видимость контента.open_in_newУзнать больше
Переслать файл cookie
Наш сервер API может пересылать ваши пользовательские настройки файлов cookie при доступе к URL-адресу, что полезно для страниц, требующих дополнительной аутентификации. Обратите внимание, что запросы с файлами cookie не кэшируются.open_in_newУзнать больше
Подпись к изображению
Подписывает все изображения по указанному URL-адресу, добавляя «Image [idx]: [caption]» в качестве альтернативного тега для тех, у кого его нет. Это позволяет последующим LLM взаимодействовать с изображениями в таких действиях, как рассуждение и подведение итогов.
Используйте прокси-сервер
Наш сервер API может использовать ваш прокси-сервер для доступа к URL-адресам, что полезно для страниц, доступных только через определенные прокси.open_in_newУзнать больше
Используйте прокси-сервер для конкретной страны
Установите код страны для прокси-сервера на основе местоположения. Используйте «auto» для оптимального выбора или «none» для отключения.
Обход кэша
Наш сервер API кэширует содержимое режима чтения и поиска в течение определенного периода времени. Чтобы обойти этот кеш, установите для этого заголовка значение true.
Допустимое отклонение кэша (в секундах)
Принимать кэшированное содержимое, если оно моложе N секунд. Установите значение 0 для свежего содержимого (аналогично параметру «Обход кэша») или более высокие значения для более быстрой обработки данных из кэша.
Время готовности страницы
Когда следует считать страницу полностью загруженной? Более поздние значения времени загрузки позволяют подождать дольше, но при этом захватывают более динамичный контент.
По умолчанию
arrow_drop_down
Пользовательский агент
Переопределяет строку User-Agent браузера. Полезно для доступа к сайтам, требующим определенных браузеров или блокирующим поисковых роботов.
Пользовательский реферер
Установите заголовок HTTP Referer. Некоторые сайты проверяют его, чтобы убедиться, что трафик поступает из ожидаемых источников.
Сохранение изображений Base64
Сохраняйте изображения, закодированные в base64, непосредственно в выходном файле Markdown, вместо того чтобы преобразовывать их во внешние URL-адреса.
Не кэшировать и не отслеживать
Предотвратите кэширование или запись этого запроса на наших серверах. Используйте для конфиденциальных URL-адресов.
Github Flavored Markdown
Включение/отключение функций GFM (Github Flavored Markdown).
Включено
arrow_drop_down
Режим потока
Режим потока полезен для больших целевых страниц, поскольку дает больше времени для полной визуализации страницы. Если в стандартном режиме контент получается неполным, рассмотрите возможность использования режима Stream.open_in_newУзнать больше
Настроить локаль браузера
Управляйте локалью браузера для отображения страницы. Множество веб-сайтов предоставляют разный контент в зависимости от локали.open_in_newУзнать больше
Уважайте robots.txt
Перед выполнением запроса проверьте правила в файле robots.txt. Укажите имя бота, которое следует использовать для проверки.
Включить содержимое iframe
Извлекать контент из встроенных iframe. Включить для страниц, контент которых загружается во фреймы.
Включить теневой DOM
Извлекать контент из компонентов Shadow DOM. Включить эту функцию для страниц, использующих веб-компоненты.
Используйте конечный URL в качестве базового.
Для разрешения относительных URL-адресов используйте конечный URL-адрес назначения после перенаправлений, а не исходный URL-адрес.
Локальный файл PDF/HTML
POST
Используйте Reader на локальных файлах PDF и HTML, загрузив их. Поддерживает только файлы PDF и HTML.
upload
Перед извлечением выполните JavaScript.
POST
Выполните пользовательский JavaScript для изменения страницы перед извлечением контента. Это может быть встроенный код или URL-адрес файла скрипта.open_in_newУзнать больше
Стиль заголовка
Устанавливает формат заголовка markdown (передается в Turndown).
Хэш-стиль
arrow_drop_down
Стиль горизонтальной линейки
Определяет формат горизонтальной линии разметки (передается в Turndown).
Стиль маркера
Устанавливает символ маркера маркированного списка (передается в Turndown).
*
arrow_drop_down
Акцентный стиль
Определяет разделитель акцента в разметке (передается в Turndown).
_
arrow_drop_down
Сильный акцентный стиль
Устанавливает разделитель сильного акцента markdown (передается в Turndown).
**
arrow_drop_down
Стиль ссылки
Определяет формат ссылки markdown (передается в Turndown).
В соответствии
arrow_drop_down
Соответствие нормам ЕС
Экспериментальный
Все операции по инфраструктуре и обработке данных полностью находятся в юрисдикции ЕС.
upload
Запрос
GET
Bash
Язык
arrow_drop_down
curl "https://r.jina.ai/https://www.example.com"
key
API-ключ
visibility_off
Доступные токены
0
Jina VLM: Малая многоязычная модель визуального восприятия и языка
Модель визуально-языкового взаимодействия с 2,4 миллиардами параметров, обеспечивающая передовые возможности многоязычного визуального ответа на вопросы в открытых моделях визуально-языкового взаимодействия масштаба 2 миллиарда.
ReaderLM v2: небольшая языковая модель для преобразования HTML в Markdown и JSON
ReaderLM-v2 — это языковая модель с 1,5 млрд параметров, специализирующаяся на преобразовании HTML в Markdown и извлечении HTML в JSON. Она поддерживает документы размером до 512 тыс. токенов на 29 языках и обеспечивает точность на 20 % выше по сравнению с предыдущей моделью.
Предоставление веб-информации в программы LLM является важным шагом в обучении, однако это может быть непросто. Самый простой метод — очистить веб-страницу и передать ей необработанный HTML-код. Однако парсинг может быть сложным и часто блокируется, а необработанный HTML загроможден посторонними элементами, такими как разметка и скрипты. Reader API решает эти проблемы, извлекая основной контент из URL-адреса и преобразуя его в чистый, удобный для LLM текст, обеспечивая высококачественный ввод для вашего агента и систем RAG.
Введите свой URL
URL-адрес читателя
Необработанный HTML
Вывод считывателя
Задать вопрос
Reader можно использовать как SERP API. Он позволяет вам снабжать ваш LLM контентом, находящимся за страницей результатов поиска. Просто добавьте
https://s.jina.ai/?q= к вашему запросу, и Reader выполнит поиск в Интернете и вернет пять лучших результатов с их URL-адресами и контентом, каждый в виде чистого, понятного LLM текста. Таким образом, вы всегда сможете поддерживать свой LLM в актуальном состоянии, улучшать его фактологичность и уменьшать галлюцинации.Введите ваш запрос
URL-адрес читателя
info Обратите внимание: в отличие от демонстрации, показанной выше, на практике вам не нужно искать в Интернете исходный вопрос для обоснования. Люди часто переписывают исходный вопрос или используют вопросы с несколькими переходами. Они считывают полученные результаты, а затем генерируют дополнительные запросы для сбора дополнительной информации по мере необходимости, прежде чем прийти к окончательному ответу.
Изображения на веб-странице автоматически снабжаются подписями с использованием языковой модели видения в программе чтения и форматируются в виде тегов alt изображения на выходе. Это дает вашему последующему LLM достаточно подсказок, чтобы включить эти изображения в процессы рассуждения и обобщения. Это означает, что вы можете задавать вопросы об изображениях, выбирать конкретные изображения или даже пересылать их URL-адреса более мощному VLM для более глубокого анализа!
Да, Reader изначально поддерживает чтение PDF-файлов. Он совместим с большинством PDF-файлов, в том числе с большим количеством изображений, и работает молниеносно! В сочетании с LLM вы можете легко создать ChatPDF или ИИ для анализа документов в кратчайшие сроки.
Лучшая часть? Это бесплатно!
Reader API доступен бесплатно и предлагает гибкие ограничения по скорости и ценам. Построенный на основе масштабируемой инфраструктуры, он обеспечивает высокую доступность, параллелизм и надежность. Мы стремимся быть вашим предпочтительным решением по заземлению для ваших студентов LLM.
Ограничение скорости
Ограничения скорости отслеживаются тремя способами: RPM (запросы в минуту) и TPM (токены в минуту). Ограничения применяются для каждого IP/API-ключа и срабатывают при достижении порогового значения RPM или TPM. Когда вы указываете ключ API в заголовке запроса, мы отслеживаем ограничения скорости по ключу, а не по IP-адресу.
Колонки
arrow_drop_down
| Продукт | Конечная точка API | Описаниеarrow_upward | без API-ключаkey_off | с бесплатным API-ключомkey | с платным API-ключомkey | с премиум-ключом APIkey | Средняя задержка | Подсчет использования токенов | Разрешенный запрос | |
|---|---|---|---|---|---|---|---|---|---|---|
| API-интерфейс читателя | https://r.jina.ai | Преобразовать URL в текст, понятный LLM | 20 RPM | 500 RPM | 500 RPM | trending_up5000 RPM | 7.9s | Подсчитайте количество токенов в выходном ответе. | GET/POST | |
| API-интерфейс читателя | https://s.jina.ai | Поиск в Интернете и преобразование результатов в текст, понятный LLM | block | 100 RPM | 100 RPM | trending_up1000 RPM | 2.5s | Каждый запрос стоит фиксированное количество токенов, начиная с 10000 токенов. | GET/POST | |
| API реранкера | https://api.jina.ai/v1/rerank | Ранжировать документы по запросу | block | 100 RPM & 100,000 TPM | 500 RPM & 2,000,000 TPM | trending_up5,000 RPM & 50,000,000 TPM | ssid_chart зависит от размера входных данных help | Подсчитайте количество токенов во входном запросе. | POST | |
| Встраивание API | https://api.jina.ai/v1/embeddings | Преобразование текста/изображений в векторы фиксированной длины | block | 100 RPM & 100,000 TPM | 500 RPM & 2,000,000 TPM | trending_up5,000 RPM & 50,000,000 TPM | ssid_chart зависит от размера входных данных help | Подсчитайте количество токенов во входном запросе. | POST | |
| API классификатора | https://api.jina.ai/v1/train | Обучить классификатор с использованием маркированных примеров | block | 25 RPM & 25,000 TPM | 125 RPM & 500,000 TPM | 1,250 RPM & 12,000,000 TPM | ssid_chart зависит от размера входных данных | Токены подсчитываются как: input_tokens × num_iters | POST | |
| API классификатора (Несколько выстрелов) | https://api.jina.ai/v1/classify | Классифицируйте входные данные с помощью обученного классификатора с несколькими попытками | block | 25 RPM & 25,000 TPM | 125 RPM & 500,000 TPM | 1,250 RPM & 12,000,000 TPM | ssid_chart зависит от размера входных данных | Токены учитываются как: input_tokens | POST | |
| API классификатора (Нулевой выстрел) | https://api.jina.ai/v1/classify | Классифицируйте входные данные, используя классификацию с нулевым результатом | block | 25 RPM & 25,000 TPM | 125 RPM & 500,000 TPM | 1,250 RPM & 12,000,000 TPM | ssid_chart зависит от размера входных данных | Токены считаются как: input_tokens + label_tokens | POST | |
| API сегментатора | https://api.jina.ai/v1/segment | Токенизация и сегментация длинного текста | 20 RPM | 200 RPM | 200 RPM | 1,000 RPM | 0.3s | Токен не считается использованием. | GET/POST | |
| Глубокий поиск | https://deepsearch.jina.ai/v1/chat/completions | Рассуждайте, ищите и повторяйте, чтобы найти лучший ответ. | block | 50 RPM | 50 RPM | 500 RPM | 56.7s | Подсчитайте общее количество токенов за весь процесс. | POST |
Не паникуйте! Каждый новый ключ API содержит десять миллионов бесплатных токенов!
Цены на API
Цены на API основаны на использовании токена. Один ключ API дает вам доступ ко всем продуктам Search Foundation.
Каковы затраты, связанные с использованием Reader API?
keyboard_arrow_down
Как работает API Reader?
keyboard_arrow_down
Является ли Reader API открытым исходным кодом?
keyboard_arrow_down
Какова типичная задержка для Reader API?
keyboard_arrow_down
Почему мне следует использовать Reader API вместо того, чтобы самостоятельно очищать страницу?
keyboard_arrow_down
Поддерживает ли Reader API несколько языков?
keyboard_arrow_down
Что делать, если веб-сайт блокирует Reader API?
keyboard_arrow_down
Может ли Reader API извлекать контент из PDF-файлов?
keyboard_arrow_down
Может ли Reader API обрабатывать медиаконтент с веб-страниц?
keyboard_arrow_down
Можно ли использовать Reader API для локальных файлов HTML?
keyboard_arrow_down
Кэширует ли Reader API контент?
keyboard_arrow_down
Могу ли я использовать API Reader для доступа к контенту после входа в систему?
keyboard_arrow_down
Могу ли я использовать Reader API для доступа к PDF-файлам на arXiv?
keyboard_arrow_down
Как работает подпись к изображению в Reader?
keyboard_arrow_down
Какова масштабируемость Reader? Могу ли я использовать его в производстве?
keyboard_arrow_down
Каков предел скорости API Reader?
keyboard_arrow_down
Что такое Reader-LM? Как им пользоваться?
keyboard_arrow_down
Как извлечь структурированные данные с веб-страниц?
keyboard_arrow_down
Действительно ли Reader активно обходит защиту веб-сайтов от ботов?
keyboard_arrow_down
Позволит ли переход с бесплатного на платный API-ключ получить доступ к большему количеству веб-сайтов?
keyboard_arrow_down
Ограничение скорости
Ограничения скорости отслеживаются тремя способами: RPM (запросы в минуту) и TPM (токены в минуту). Ограничения применяются для каждого IP/API-ключа и срабатывают при достижении порогового значения RPM или TPM. Когда вы указываете ключ API в заголовке запроса, мы отслеживаем ограничения скорости по ключу, а не по IP-адресу.
Колонки
arrow_drop_down
| Продукт | Конечная точка API | Описаниеarrow_upward | без API-ключаkey_off | с бесплатным API-ключомkey | с платным API-ключомkey | с премиум-ключом APIkey | Средняя задержка | Подсчет использования токенов | Разрешенный запрос | |
|---|---|---|---|---|---|---|---|---|---|---|
| API-интерфейс читателя | https://r.jina.ai | Преобразовать URL в текст, понятный LLM | 20 RPM | 500 RPM | 500 RPM | trending_up5000 RPM | 7.9s | Подсчитайте количество токенов в выходном ответе. | GET/POST | |
| API-интерфейс читателя | https://s.jina.ai | Поиск в Интернете и преобразование результатов в текст, понятный LLM | block | 100 RPM | 100 RPM | trending_up1000 RPM | 2.5s | Каждый запрос стоит фиксированное количество токенов, начиная с 10000 токенов. | GET/POST | |
| API реранкера | https://api.jina.ai/v1/rerank | Ранжировать документы по запросу | block | 100 RPM & 100,000 TPM | 500 RPM & 2,000,000 TPM | trending_up5,000 RPM & 50,000,000 TPM | ssid_chart зависит от размера входных данных help | Подсчитайте количество токенов во входном запросе. | POST | |
| Встраивание API | https://api.jina.ai/v1/embeddings | Преобразование текста/изображений в векторы фиксированной длины | block | 100 RPM & 100,000 TPM | 500 RPM & 2,000,000 TPM | trending_up5,000 RPM & 50,000,000 TPM | ssid_chart зависит от размера входных данных help | Подсчитайте количество токенов во входном запросе. | POST | |
| API классификатора | https://api.jina.ai/v1/train | Обучить классификатор с использованием маркированных примеров | block | 25 RPM & 25,000 TPM | 125 RPM & 500,000 TPM | 1,250 RPM & 12,000,000 TPM | ssid_chart зависит от размера входных данных | Токены подсчитываются как: input_tokens × num_iters | POST | |
| API классификатора (Несколько выстрелов) | https://api.jina.ai/v1/classify | Классифицируйте входные данные с помощью обученного классификатора с несколькими попытками | block | 25 RPM & 25,000 TPM | 125 RPM & 500,000 TPM | 1,250 RPM & 12,000,000 TPM | ssid_chart зависит от размера входных данных | Токены учитываются как: input_tokens | POST | |
| API классификатора (Нулевой выстрел) | https://api.jina.ai/v1/classify | Классифицируйте входные данные, используя классификацию с нулевым результатом | block | 25 RPM & 25,000 TPM | 125 RPM & 500,000 TPM | 1,250 RPM & 12,000,000 TPM | ssid_chart зависит от размера входных данных | Токены считаются как: input_tokens + label_tokens | POST | |
| API сегментатора | https://api.jina.ai/v1/segment | Токенизация и сегментация длинного текста | 20 RPM | 200 RPM | 200 RPM | 1,000 RPM | 0.3s | Токен не считается использованием. | GET/POST | |
| Глубокий поиск | https://deepsearch.jina.ai/v1/chat/completions | Рассуждайте, ищите и повторяйте, чтобы найти лучший ответ. | block | 50 RPM | 50 RPM | 500 RPM | 56.7s | Подсчитайте общее количество токенов за весь процесс. | POST |
Общие вопросы, связанные с API
code
Могу ли я использовать один и тот же ключ API для чтения, встраивания, переранжирования, классификации и тонкой настройки API?
keyboard_arrow_down
code
Могу ли я отслеживать использование токена моего ключа API?
keyboard_arrow_down
code
Что мне делать, если я забуду свой ключ API?
keyboard_arrow_down
code
Срок действия ключей API истекает?
keyboard_arrow_down
code
Могу ли я передавать токены между ключами API?
keyboard_arrow_down
code
Могу ли я отозвать свой ключ API?
keyboard_arrow_down
code
Почему первый запрос для некоторых моделей выполняется медленно?
keyboard_arrow_down
code
Используются ли данные из моего API для обучения ваших моделей?
keyboard_arrow_down
code
Каковы ограничения скорости запросов к API Jina?
keyboard_arrow_down
code
Существуют ли ограничения на размер пакета для API?
keyboard_arrow_down
Общие вопросы, связанные с выставлением счетов
attach_money
Выставление счетов зависит от количества предложений или запросов?
keyboard_arrow_down
attach_money
Доступна ли бесплатная пробная версия для новых пользователей?
keyboard_arrow_down
attach_money
Взимаются ли токены за неудачные запросы?
keyboard_arrow_down
attach_money
Какие способы оплаты принимаются?
keyboard_arrow_down
attach_money
Доступно ли выставление счетов за покупку токенов?
keyboard_arrow_down


