读取器
将 URL 转换为大模型友好输入,只需在前面添加
r.jina.ai 即可。读取器 API
将 URL 转换为大模型友好输入,只需在前面添加
r.jina.ai 即可。chevron_leftchevron_right
globe_book
使用
r.jina.ai 读取 URL 并获取其内容travel_explore
使用
s.jina.ai 搜索网络并获取 SERP添加
mcp.jina.ai 到您的MCP工具箱,让大模型学用我们的API内容格式
您可以控制响应中的细节级别,以防止过度过滤。默认管道针对大多数网站和大模型输入进行了优化。
默认
arrow_drop_down
JSON 响应
响应将采用 JSON 格式,包含 URL、标题、内容和时间戳(如果可用)。在搜索模式下,它会返回一个包含五个条目的列表,每个条目都遵循描述的 JSON 结构。
超时时间(秒)
页面加载的最长等待时间。页面加载速度慢时增加此值,简单的静态页面减少此值。
限制词元预算
限制此请求使用的最大词元数。超出此限制将导致请求失败。
使用 ReaderLM-v2
实验
使用 ReaderLM-v2 将 HTML 转换为 Markdown,为结构和内容复杂的网站提供高质量的结果。比其它引擎消耗 3 倍词元!open_in_new了解更多
仅提取(CSS 选择器)
仅提取与这些 CSS 选择器匹配的内容。例如:article、.main-content、#post-body
等待(CSS 选择器)
等待这些元素出现后再提取内容。这对于动态加载的内容非常有用。
排除(CSS 选择器)
提取前请移除以下元素。例如:导航栏、页脚、侧边栏、#广告
删除所有图片
从输出中移除所有图像。这样可以在不需要图像时减少令牌使用量。
OpenAI 引用格式
为 OpenAI 的网页浏览工具格式化链接。使用与 GPT 模型兼容的特殊引用标记。open_in_new了解更多
链接摘要部分
最后会创建一个“按钮和链接”部分。这可以帮助下游大模型或 Web 智能体浏览页面或采取进一步的行动。
无
arrow_drop_down
图片摘要部分
最后会创建一个“图片”部分。这可以让下游的大模型概览页面上的所有视觉效果,从而提高推理能力。
无
arrow_drop_down
浏览器视口大小
POST
设置浏览器窗口尺寸。影响响应式布局和内容可见性。open_in_new了解更多
转发 Cookie
我们的 API 服务器可以在访问 URL 时转发您的自定义 Cookie 设置,这对于需要额外身份验证的页面非常有用。请注意,带有 Cookie 的请求不会被缓存。open_in_new了解更多
图片说明
为指定 URL 上的所有图片添加标题,为没有标题的图片添加“Image [idx]: [caption]”作为 alt 标签。这允许下游大模型在推理和总结等活动中与图片进行交互。
使用代理服务器
我们的 API 服务器可以利用您的代理来访问 URL,这对于只能通过特定代理访问的页面很有帮助。open_in_new了解更多
使用特定国家/地区的代理服务器
设置基于位置的代理服务器的国家代码。使用“自动”进行最佳选择或使用“无”禁用。
绕过缓存
我们的 API 服务器会将读取和搜索模式的内容缓存一段时间。要绕过此缓存,请将此标头设置为 true。
缓存容错率(秒)
如果缓存内容的发布时间小于 N 秒,则接受缓存内容。设置为 0 表示接受最新内容(与“绕过缓存”相同),设置为更高的值则允许从缓存中更快地获取响应。
页面准备时间
何时认为页面已完全加载?较晚的计时方式等待时间更长,但能捕捉到更多动态内容。
默认
arrow_drop_down
自定义用户代理
覆盖浏览器用户代理字符串。这对于访问需要特定浏览器或阻止网络爬虫的网站非常有用。
自定义推荐人
设置 HTTP Referer 标头。有些网站会检查此标头以验证流量是否来自预期来源。
保存 Base64 图像
将内联 base64 编码的图片保留在 Markdown 输出中,而不是将其转换为外部 URL。
请勿缓存或追踪
阻止此请求被缓存或记录在我们的服务器上。仅用于敏感网址。
Github 风格的 Markdown
选择加入/退出 GFM(Github Flavored Markdown)功能。
已启用
arrow_drop_down
流模式
流模式有利于较大的目标页面,从而留出更多时间让页面完全呈现。如果标准模式导致内容不完整,请考虑使用流模式。open_in_new了解更多
自定义浏览器区域设置
控制浏览器区域设置以呈现页面。许多网站根据区域设置提供不同的内容。open_in_new了解更多
尊重机器人.txt
在抓取资源之前,请检查 robots.txt 文件中的规则。指定用于检查的机器人名称。
包含 iframe 内容
从嵌入式 iframe 中提取内容。仅当页面内容加载在 iframe 中时启用此功能。
包含 Shadow DOM
从 Shadow DOM 组件中提取内容。适用于使用 Web 组件的页面。
使用最终 URL 作为基准
使用重定向后的最终目标 URL 而不是原始 URL 来解析相对 URL。
本地 PDF/HTML 文件
POST
通过上传本地 PDF 和 HTML 文件,使用读取器读取它们。仅支持 pdf 和 html 文件。
upload
提取前运行 JavaScript
POST
在提取内容之前,执行自定义 JS 代码来修改页面。可以是内联代码,也可以是指向脚本文件的 URL。open_in_new了解更多
标题样式
设置 markdown 标题格式(传递给 Turndown)。
哈希风格
arrow_drop_down
水平线样式
定义 markdown 水平规则格式(传递给 Turndown)。
项目符号样式
设置项目符号列表标记字符(传递给 Turndown)。
*
arrow_drop_down
强调风格
定义 markdown 强调分隔符(传递给 Turndown)。
_
arrow_drop_down
强调风格
设置 markdown 强强调分隔符(传递给 Turndown)。
**
arrow_drop_down
链接样式
确定 markdown 链接格式(传递给 Turndown)。
内联
arrow_drop_down
符合欧盟规定
实验
所有基础设施和数据处理操作完全在欧盟管辖范围内。
upload
请求
GET
Bash
语言
arrow_drop_down
curl "https://r.jina.ai/https://www.example.com"
key
API密钥
visibility_off
剩余词元额度
0
Jina VLM:小型多语言视觉语言模型
一个拥有 24 亿参数的视觉语言模型,在开放的 20 亿级视觉语言模型中实现了最先进的多语言视觉问答。
ReaderLM v2:从 HTML 到 Markdown 和 JSON 的小型语言模型
ReaderLM-v2 是一个 1.5B 参数语言模型,专门用于 HTML 到 Markdown 的转换和 HTML 到 JSON 的提取。它支持 29 种语言中多达 512K 个词元的文档,准确率比其前身高 20%。
将网络信息输入大模型是打好基础的重要一步,但这可能很有挑战性。最简单的方法是抓取网页并输入原始 HTML。但是,抓取可能很复杂且经常受阻,而且原始 HTML 中充斥着标记和脚本等无关元素。读取器 API 通过从 URL 中提取核心内容并将其转换为干净的、大模型友好的文本来解决这些问题,从而确保为您的Agent和 RAG 系统提供高质量的输入。
输入您的 URL
读取器网址
原始 HTML
读取器的输出
提出问题
Reader 可用作 SERP API。它允许您将搜索结果引擎页面背后的内容提供给您的 LLM。只需在您的查询前面添加
https://s.jina.ai/?q=,Reader 就会搜索网络并返回前五个结果及其 URL 和内容,每个结果都以干净、大模型友好的文本显示。这样,您就可以始终让您的大模型保持最新状态,提高其真实性,并减少幻觉。输入您的查询
读取器网址
info 请注意,与上面的演示不同,在实践中,您不会在网上搜索原始问题来获取基础。人们经常做的是重写原始问题或使用多跳问题。他们读取检索到的结果,然后生成其他查询以根据需要收集更多信息,然后得出最终答案。
网页上的图片会使用读取器中的视觉语言模型自动添加标题,并在输出中格式化为图片 alt 标签。这为您的下游大模型提供了足够的提示,以将这些图片纳入其推理和总结过程。这意味着您可以询问有关图片的问题,选择特定的图片,甚至将其 URL 转发到更强大的 VLM 进行更深入的分析!
是的,Reader 本身支持 PDF 读取。它兼容大多数 PDF,包括包含大量图片的 PDF,而且速度极快!结合大模型,您可以轻松快速地构建 ChatPDF 或文档分析 AI。
而且它是竟然是免费的!
Reader API 可免费使用,并提供灵活的速率限制和定价。它建立在可扩展的基础架构上,具有高可访问性、并发性和可靠性。我们努力成为您大模型的首选基础解决方案。
速率限制
速率限制通过三种方式跟踪:RPM(每分钟请求数)和TPM(每分钟词元数)。限制按 IP/API 密钥强制执行,当首先达到 RPM 或 TPM 阈值时,将触发限制。当您在请求标头中提供 API 密钥时,我们会按密钥而不是 IP 地址跟踪速率限制。
列
arrow_drop_down
| 产品 | API端口 | 描述arrow_upward | 无 API 密钥key_off | 免费 API 密钥key | 使用付费 API 密钥key | 带有高级 API 密钥key | 平均延迟 | 词元使用计数 | 请求类型 | |
|---|---|---|---|---|---|---|---|---|---|---|
| 读取器 API | https://r.jina.ai | 将 URL 转换为大模型友好文本 | 20 RPM | 500 RPM | 500 RPM | trending_up5000 RPM | 7.9s | 以输出响应中的词元数量为准。 | GET/POST | |
| 读取器 API | https://s.jina.ai | 搜索网络并将结果转换为大模型友好文本 | block | 100 RPM | 100 RPM | trending_up1000 RPM | 2.5s | 每个请求都需要固定数量的词元,从 10000 个词元开始 | GET/POST | |
| 向量模型API | https://api.jina.ai/v1/embeddings | 将文本/图片转为定长向量 | block | 100 RPM & 100,000 TPM | 500 RPM & 2,000,000 TPM | trending_up5,000 RPM & 50,000,000 TPM | ssid_chart 取决于输入大小 help | 以输入请求中的词元数量为准。 | POST | |
| 重排器 API | https://api.jina.ai/v1/rerank | 按查询对文档进行精排 | block | 100 RPM & 100,000 TPM | 500 RPM & 2,000,000 TPM | trending_up5,000 RPM & 50,000,000 TPM | ssid_chart 取决于输入大小 help | 以输入请求中的词元数量为准。 | POST | |
| 分类器 API | https://api.jina.ai/v1/train | 使用训练样本训练分类器 | block | 25 RPM & 25,000 TPM | 125 RPM & 500,000 TPM | 1,250 RPM & 12,000,000 TPM | ssid_chart 取决于输入大小 | 词元计数为:输入词元 × 迭代次数 | POST | |
| 分类器 API (少量样本) | https://api.jina.ai/v1/classify | 使用经过训练的少样本分类器对输入进行分类 | block | 25 RPM & 25,000 TPM | 125 RPM & 500,000 TPM | 1,250 RPM & 12,000,000 TPM | ssid_chart 取决于输入大小 | 词元计数为:输入词元 | POST | |
| 分类器 API (零样本) | https://api.jina.ai/v1/classify | 使用零样本分类对输入进行分类 | block | 25 RPM & 25,000 TPM | 125 RPM & 500,000 TPM | 1,250 RPM & 12,000,000 TPM | ssid_chart 取决于输入大小 | 词元计数为:输入词元 加 标签词元 | POST | |
| 切分器 API | https://api.jina.ai/v1/segment | 对长文本进行分词分句 | 20 RPM | 200 RPM | 200 RPM | 1,000 RPM | 0.3s | 词元不计算使用量。 | GET/POST | |
| 深度搜索 | https://deepsearch.jina.ai/v1/chat/completions | 推理、搜索和迭代以找到最佳答案 | block | 50 RPM | 50 RPM | 500 RPM | 56.7s | 统计整个过程中词元的总数。 | POST |
别慌!每个新的 API 密钥都包含一千万个免费词元!
API价格表
API 定价基于词元使用情况。一个 API 密钥即可访问所有搜索基础产品。
使用 读取器 API 的相关费用是多少?
keyboard_arrow_down
读取器 API 如何发挥作用?
keyboard_arrow_down
读取器 API 是开源的吗?
keyboard_arrow_down
读取器 API 的典型延迟是多少?
keyboard_arrow_down
为什么我应该使用 读取器 API 而不是自己抓取页面?
keyboard_arrow_down
读取器 API 是否支持多种语言?
keyboard_arrow_down
如果某个网站屏蔽了 读取器 API,我该怎么办?
keyboard_arrow_down
读取器 API 可以从 PDF 文件中提取内容吗?
keyboard_arrow_down
读取器 API 可以处理来自网页的媒体内容吗?
keyboard_arrow_down
是否可以在本地 HTML 文件上使用 读取器 API?
keyboard_arrow_down
读取器 API 是否缓存内容?
keyboard_arrow_down
我可以使用 读取器API 来访问登录后的内容吗?
keyboard_arrow_down
我可以使用读取器 API 访问 arXiv 上的 PDF 吗?
keyboard_arrow_down
图片标注在读取器中如何发挥作用?
keyboard_arrow_down
读取器的可扩展性如何?我可以在生产中使用它吗?
keyboard_arrow_down
Reader API 的速率限制是多少?
keyboard_arrow_down
什么是 Reader-LM?如何使用它?
keyboard_arrow_down
如何从网页中提取结构化数据?
keyboard_arrow_down
Reader 是否会主动绕过网站的反机器人保护?
keyboard_arrow_down
从免费 API 密钥升级到付费 API 密钥后,我能访问更多网站吗?
keyboard_arrow_down
速率限制
速率限制通过三种方式跟踪:RPM(每分钟请求数)和TPM(每分钟词元数)。限制按 IP/API 密钥强制执行,当首先达到 RPM 或 TPM 阈值时,将触发限制。当您在请求标头中提供 API 密钥时,我们会按密钥而不是 IP 地址跟踪速率限制。
列
arrow_drop_down
| 产品 | API端口 | 描述arrow_upward | 无 API 密钥key_off | 免费 API 密钥key | 使用付费 API 密钥key | 带有高级 API 密钥key | 平均延迟 | 词元使用计数 | 请求类型 | |
|---|---|---|---|---|---|---|---|---|---|---|
| 读取器 API | https://r.jina.ai | 将 URL 转换为大模型友好文本 | 20 RPM | 500 RPM | 500 RPM | trending_up5000 RPM | 7.9s | 以输出响应中的词元数量为准。 | GET/POST | |
| 读取器 API | https://s.jina.ai | 搜索网络并将结果转换为大模型友好文本 | block | 100 RPM | 100 RPM | trending_up1000 RPM | 2.5s | 每个请求都需要固定数量的词元,从 10000 个词元开始 | GET/POST | |
| 向量模型API | https://api.jina.ai/v1/embeddings | 将文本/图片转为定长向量 | block | 100 RPM & 100,000 TPM | 500 RPM & 2,000,000 TPM | trending_up5,000 RPM & 50,000,000 TPM | ssid_chart 取决于输入大小 help | 以输入请求中的词元数量为准。 | POST | |
| 重排器 API | https://api.jina.ai/v1/rerank | 按查询对文档进行精排 | block | 100 RPM & 100,000 TPM | 500 RPM & 2,000,000 TPM | trending_up5,000 RPM & 50,000,000 TPM | ssid_chart 取决于输入大小 help | 以输入请求中的词元数量为准。 | POST | |
| 分类器 API | https://api.jina.ai/v1/train | 使用训练样本训练分类器 | block | 25 RPM & 25,000 TPM | 125 RPM & 500,000 TPM | 1,250 RPM & 12,000,000 TPM | ssid_chart 取决于输入大小 | 词元计数为:输入词元 × 迭代次数 | POST | |
| 分类器 API (少量样本) | https://api.jina.ai/v1/classify | 使用经过训练的少样本分类器对输入进行分类 | block | 25 RPM & 25,000 TPM | 125 RPM & 500,000 TPM | 1,250 RPM & 12,000,000 TPM | ssid_chart 取决于输入大小 | 词元计数为:输入词元 | POST | |
| 分类器 API (零样本) | https://api.jina.ai/v1/classify | 使用零样本分类对输入进行分类 | block | 25 RPM & 25,000 TPM | 125 RPM & 500,000 TPM | 1,250 RPM & 12,000,000 TPM | ssid_chart 取决于输入大小 | 词元计数为:输入词元 加 标签词元 | POST | |
| 切分器 API | https://api.jina.ai/v1/segment | 对长文本进行分词分句 | 20 RPM | 200 RPM | 200 RPM | 1,000 RPM | 0.3s | 词元不计算使用量。 | GET/POST | |
| 深度搜索 | https://deepsearch.jina.ai/v1/chat/completions | 推理、搜索和迭代以找到最佳答案 | block | 50 RPM | 50 RPM | 500 RPM | 56.7s | 统计整个过程中词元的总数。 | POST |
API相关常见问题
code
我可以对读取器、向量模型、重排器、分类器和微调模型 API 使用相同的 API 密钥吗?
keyboard_arrow_down
code
我可以查看 API 密钥的词元使用情况吗?
keyboard_arrow_down
code
如果我忘记了 API 密钥,该怎么办?
keyboard_arrow_down
code
API 密钥会过期吗?
keyboard_arrow_down
code
我可以在 API 密钥之间转移额度吗?
keyboard_arrow_down
code
我可以销毁我的 API 密钥吗?
keyboard_arrow_down
code
为什么有些机型第一次请求比较慢?
keyboard_arrow_down
code
我的API数据是否用于训练你们的模型?
keyboard_arrow_down
code
Jina API 的速率限制是多少?
keyboard_arrow_down
code
API是否有批量大小限制?
keyboard_arrow_down
与计费相关的常见问题
attach_money
API是根据句子的数量或请求的数量计费吗?
keyboard_arrow_down
attach_money
新用户可以免费试用吗?
keyboard_arrow_down
attach_money
失败的请求是否会扣除词元?
keyboard_arrow_down
attach_money
接受哪些付款方式?
keyboard_arrow_down
attach_money
充值后可以开具发票吗?
keyboard_arrow_down


