读取器 celebration ReaderLM-v2 发布!
将 URL 转换为 LLM 友好输入,只需在前面添加
r.jina.ai
即可。读取器 API
将 URL 转换为 LLM 友好输入,只需在前面添加
r.jina.ai
即可。 chevron_leftchevron_right
search
搜索查询
将 https://s.jina.ai/ 添加到您的查询中。这将调用搜索引擎并返回前 5 个结果及其 URL 和内容,每个结果都以简洁、LLM 友好的文本显示。
keyboard_arrow_down
fact_check
查论
将 https://g.jina.ai/ 添加到您的语句中。这将调用判断引擎并返回真实性百分比、表示语句是真还是假的布尔值、原因摘要和参考列表。
science
实验
keyboard_arrow_down
读取引擎
选择用于解析给定 URL 内容的引擎。影响结果的质量、速度和兼容性。
默认
arrow_drop_down
内容格式
您可以控制响应中的细节级别,以防止过度过滤。默认管道针对大多数网站和 LLM 输入进行了优化。
默认
arrow_drop_down
使用 ReaderLM-v2
实验
使用 ReaderLM-v2 将 HTML 转换为 Markdown,为结构和内容复杂的网站提供高质量的结果。比其它引擎消耗 3 倍词元!
超时时间
等待网页加载的最长时间。请注意,这不是整个端到端请求的总时间。
限制词元预算
限制此请求使用的最大词元数。超出此限制将导致请求失败。
目标选择器
提供 CSS 选择器列表,以关注页面的更具体部分。当您想要的内容在默认设置下不显示时很有用。
等待选择器
提供一个 CSS 选择器列表,等待特定元素出现后再返回。当默认设置下无法显示所需内容时,此功能非常有用。
排除选择器
提供 CSS 选择器列表以删除页面的指定元素。当您想要排除页面的特定部分(如页眉、页脚等)时很有用。
删除所有图片
从响应中删除所有图像。
将所有链接集中到最后
最后会创建一个“按钮和链接”部分。这可以帮助下游 LLM 或 Web 代理浏览页面或采取进一步的行动。
无摘要(默认)
arrow_drop_down
将所有图像集中到最后
最后会创建一个“图像”部分。这可以让下游的 LLM 概览页面上的所有视觉效果,从而提高推理能力。
无摘要(默认)
arrow_drop_down
JSON 响应
响应将采用 JSON 格式,包含 URL、标题、内容和时间戳(如果可用)。在搜索模式下,它会返回一个包含五个条目的列表,每个条目都遵循描述的 JSON 结构。
转发 Cookie
我们的 API 服务器可以在访问 URL 时转发您的自定义 Cookie 设置,这对于需要额外身份验证的页面非常有用。请注意,带有 Cookie 的请求不会被缓存。
图片说明
为指定 URL 上的所有图像添加标题,为没有标题的图像添加“Image [idx]: [caption]”作为 alt 标签。这允许下游 LLM 在推理和总结等活动中与图像进行交互。
绕过缓存
我们的 API 服务器会将读取和搜索模式的内容缓存一段时间。要绕过此缓存,请将此标头设置为 true。
Github 风格的 Markdown
选择加入/退出 GFM(Github Flavored Markdown)功能。
已启用
arrow_drop_down
启用 iframe 提取
提取并处理 DOM 树中所有向量的 iframe 的内容
启用 Shadow DOM 提取
遍历文档中所有 Shadow DOM 根并提取内容
重定向解析
选择是否在遵循所有重定向后解析到最终目标网址。启用以遵循完整的重定向链。
本地 PDF/HTML 文件
POST
通过上传本地 PDF 和 HTML 文件,使用阅读器阅读它们。仅支持 pdf 和 html 文件。
upload
upload
请求
Bash
语言
arrow_drop_down
curl https://r.jina.ai/https://example.com
key
API密钥
visibility_off
剩余词元额度
0
ReaderLM v2:从 HTML 到 Markdown 和 JSON 的小型语言模型
ReaderLM-v2 是一个 1.5B 参数语言模型,专门用于 HTML 到 Markdown 的转换和 HTML 到 JSON 的提取。它支持 29 种语言中多达 512K 个词元的文档,准确率比其前身高 20%。
将网络信息输入 LLM 是打好基础的重要一步,但这可能很有挑战性。最简单的方法是抓取网页并输入原始 HTML。但是,抓取可能很复杂且经常受阻,而且原始 HTML 中充斥着标记和脚本等无关元素。读取器 API 通过从 URL 中提取核心内容并将其转换为干净的、LLM 友好的文本来解决这些问题,从而确保为您的Agent和 RAG 系统提供高质量的输入。
输入您的 URL
读取器网址
原始 HTML
读取器的输出
提出问题
LLM 有知识限制,这意味着他们无法获取最新的世界知识。这会导致错误信息、过时的回应、幻觉和其他事实问题等问题。基础对于 GenAI 应用程序绝对必不可少。Reader 允许您使用来自网络的最新信息为您的 LLM 打下基础。只需在您的查询前面添加 https://s.jina.ai/,Reader 就会搜索网络并返回前五个结果及其 URL 和内容,每个结果都以干净、LLM 友好的文本显示。这样,您就可以始终让您的 LLM 保持最新状态,提高其事实性并减少幻觉。
输入您的查询
读取器网址
info 请注意,与上面的演示不同,在实践中,您不会在网上搜索原始问题来获取基础。人们经常做的是重写原始问题或使用多跳问题。他们阅读检索到的结果,然后生成其他查询以根据需要收集更多信息,然后得出最终答案。
新的基准端点提供端到端、近乎实时的事实核查体验。它获取给定的陈述,使用实时网络搜索结果对其进行基准化验,并返回事实性分数和使用的确切参考资料。您可以轻松对陈述进行基准化验,以减少 LLM 幻觉或提高人工编写内容的完整性。
网页上的图像会使用读取器中的视觉语言模型自动添加标题,并在输出中格式化为图像 alt 标签。这为您的下游 LLM 提供了足够的提示,以将这些图像纳入其推理和总结过程。这意味着您可以询问有关图像的问题,选择特定的图像,甚至将其 URL 转发到更强大的 VLM 进行更深入的分析!
是的,Reader 本身支持 PDF 阅读。它兼容大多数 PDF,包括包含大量图片的 PDF,而且速度极快!结合 LLM,您可以轻松快速地构建 ChatPDF 或文档分析 AI。
而且它是竟然是免费的!
Reader API 可免费使用,并提供灵活的速率限制和定价。它建立在可扩展的基础架构上,具有高可访问性、并发性和可靠性。我们努力成为您 LLM 的首选基础解决方案。
速率限制
速率限制以两种方式跟踪:RPM(每分钟请求数)和TPM(每分钟令牌数)。限制是针对每个 IP/API 密钥强制执行的,并且可以根据首先达到的阈值(RPM 或 TPM)来达到。请注意,当请求中提供了 API 密钥时,速率限制是针对每个密钥而不是每个 IP 地址进行跟踪的。
列
arrow_drop_down
产品 | API端口 | 描述arrow_upward | 无 API 密钥 | 使用 API 密钥 | 带有高级 API 密钥 | 平均延迟 | 词元使用计数 | 请求类型 | |
---|---|---|---|---|---|---|---|---|---|
向量模型API | https://api.jina.ai/v1/embeddings | 将文本/图像转为定长向量 | block | 500 RPM & 1,000,000 TPM | 2,000 RPM & 5,000,000 TPM | bolt 取决于输入大小 help | 以输入请求中的词元数量为准。 | POST | |
重排器 API | https://api.jina.ai/v1/rerank | 对长文本进行分词分句 | block | 500 RPM & 1,000,000 TPM | 2,000 RPM & 5,000,000 TPM | bolt 取决于输入大小 help | 以输入请求中的词元数量为准。 | POST | |
读取器 API | https://r.jina.ai | 将 URL 转换为 LLM 友好文本 | 20 RPM | 200 RPM | 1000 RPM | 4.6s | 以输出响应中的词元数量为准。 | GET/POST | |
读取器 API | https://s.jina.ai | 搜索网络并将结果转换为 LLM 友好文本 | block | 40 RPM | 100 RPM | 8.7s | 以输出响应中的词元数量为准。 | GET/POST | |
读取器 API | https://g.jina.ai | 用网络知识支撑声明 | block | 10 RPM | 30 RPM | 22.7s | 统计整个过程中词元的总数。 | GET/POST | |
分类器 API (零样本) | https://api.jina.ai/v1/classify | 使用零样本分类对输入进行分类 | block | 200 RPM & 500,000 TPM | 1,000 RPM & 3,000,000 TPM | bolt 取决于输入大小 | 词元计数为:input_tokens + label_tokens | POST | |
分类器 API (少量样本) | https://api.jina.ai/v1/classify | 使用经过训练的少样本分类器对输入进行分类 | block | 20 RPM & 200,000 TPM | 60 RPM & 1,000,000 TPM | bolt 取决于输入大小 | 词元计数为:input_tokens | POST | |
分类器 API | https://api.jina.ai/v1/train | 使用训练样本训练分类器 | block | 20 RPM & 200,000 TPM | 60 RPM & 1,000,000 TPM | bolt 取决于输入大小 | 词元计数为:input_tokens × num_iters | POST | |
切分器 API | https://segment.jina.ai | 对长文本进行分词分句 | 20 RPM | 200 RPM | 1,000 RPM | 0.3s | 词元不计算使用量。 | GET/POST |
不要惊慌!每个新的 API 密钥都包含一百万个免费词元!
API价格表
我们的 API 定价是根据请求中发送的词元数量确定的。对于读取器 API,它是响应中的词元数量。此定价模型适用于 Jina AI 搜索底座中的所有产品:向量、重新排名、读取器、自动微调 API。使用相同的 API 密钥,您可以访问所有 API 服务。
速率限制
速率限制以两种方式跟踪:RPM(每分钟请求数)和TPM(每分钟令牌数)。限制是针对每个 IP/API 密钥强制执行的,并且可以根据首先达到的阈值(RPM 或 TPM)来达到。请注意,当请求中提供了 API 密钥时,速率限制是针对每个密钥而不是每个 IP 地址进行跟踪的。
列
arrow_drop_down
产品 | API端口 | 描述arrow_upward | 无 API 密钥 | 使用 API 密钥 | 带有高级 API 密钥 | 平均延迟 | 词元使用计数 | 请求类型 | |
---|---|---|---|---|---|---|---|---|---|
向量模型API | https://api.jina.ai/v1/embeddings | 将文本/图像转为定长向量 | block | 500 RPM & 1,000,000 TPM | 2,000 RPM & 5,000,000 TPM | bolt 取决于输入大小 help | 以输入请求中的词元数量为准。 | POST | |
重排器 API | https://api.jina.ai/v1/rerank | 对长文本进行分词分句 | block | 500 RPM & 1,000,000 TPM | 2,000 RPM & 5,000,000 TPM | bolt 取决于输入大小 help | 以输入请求中的词元数量为准。 | POST | |
读取器 API | https://r.jina.ai | 将 URL 转换为 LLM 友好文本 | 20 RPM | 200 RPM | 1000 RPM | 4.6s | 以输出响应中的词元数量为准。 | GET/POST | |
读取器 API | https://s.jina.ai | 搜索网络并将结果转换为 LLM 友好文本 | block | 40 RPM | 100 RPM | 8.7s | 以输出响应中的词元数量为准。 | GET/POST | |
读取器 API | https://g.jina.ai | 用网络知识支撑声明 | block | 10 RPM | 30 RPM | 22.7s | 统计整个过程中词元的总数。 | GET/POST | |
分类器 API (零样本) | https://api.jina.ai/v1/classify | 使用零样本分类对输入进行分类 | block | 200 RPM & 500,000 TPM | 1,000 RPM & 3,000,000 TPM | bolt 取决于输入大小 | 词元计数为:input_tokens + label_tokens | POST | |
分类器 API (少量样本) | https://api.jina.ai/v1/classify | 使用经过训练的少样本分类器对输入进行分类 | block | 20 RPM & 200,000 TPM | 60 RPM & 1,000,000 TPM | bolt 取决于输入大小 | 词元计数为:input_tokens | POST | |
分类器 API | https://api.jina.ai/v1/train | 使用训练样本训练分类器 | block | 20 RPM & 200,000 TPM | 60 RPM & 1,000,000 TPM | bolt 取决于输入大小 | 词元计数为:input_tokens × num_iters | POST | |
切分器 API | https://segment.jina.ai | 对长文本进行分词分句 | 20 RPM | 200 RPM | 1,000 RPM | 0.3s | 词元不计算使用量。 | GET/POST |
CC BY-NC 许可证自检
play_arrow
您是否使用我们的官方 API 或在 Azure 或 AWS 上我们的官方镜像?
play_arrow
done
是的
play_arrow
您使用的是付费 API 密钥还是免费试用密钥?
play_arrow
您是否在 AWS 和 Azure 上使用我们的官方模型?
play_arrow
close
不
与读取器相关的常见问题
使用 读取器 API 的相关费用是多少?
keyboard_arrow_down
读取器 API 如何发挥作用?
keyboard_arrow_down
读取器 API 是开源的吗?
keyboard_arrow_down
读取器 API 的典型延迟是多少?
keyboard_arrow_down
为什么我应该使用 读取器 API 而不是自己抓取页面?
keyboard_arrow_down
读取器 API 是否支持多种语言?
keyboard_arrow_down
如果某个网站屏蔽了 读取器 API,我该怎么办?
keyboard_arrow_down
读取器 API 可以从 PDF 文件中提取内容吗?
keyboard_arrow_down
读取器 API 可以处理来自网页的媒体内容吗?
keyboard_arrow_down
是否可以在本地 HTML 文件上使用 读取器 API?
keyboard_arrow_down
读取器 API 是否缓存内容?
keyboard_arrow_down
我可以使用 读取器API 来访问登录后的内容吗?
keyboard_arrow_down
我可以使用读取器 API 访问 arXiv 上的 PDF 吗?
keyboard_arrow_down
图片标注在读取器中如何发挥作用?
keyboard_arrow_down
读取器的可扩展性如何?我可以在生产中使用它吗?
keyboard_arrow_down
Reader API 的速率限制是多少?
keyboard_arrow_down
什么是 Reader-LM?如何使用它?
keyboard_arrow_down
API相关常见问题
code
我可以对读取器、向量模型、重排器、分类器和微调模型 API 使用相同的 API 密钥吗?
keyboard_arrow_down
code
我可以查看 API 密钥的词元使用情况吗?
keyboard_arrow_down
code
如果我忘记了 API 密钥,该怎么办?
keyboard_arrow_down
code
API 密钥会过期吗?
keyboard_arrow_down
code
我可以在 API 密钥之间转移词元余额吗?
keyboard_arrow_down
code
我可以销毁我的 API 密钥吗?
keyboard_arrow_down
code
为什么有些机型第一次请求比较慢?
keyboard_arrow_down
code
用户输入数据是否用于训练您的模型?
keyboard_arrow_down
与计费相关的常见问题
attach_money
API是根据句子的数量或请求的数量计费吗?
keyboard_arrow_down
attach_money
新用户可以免费试用吗?
keyboard_arrow_down
attach_money
失败的请求是否会扣除词元?
keyboard_arrow_down
attach_money
接受哪些付款方式?
keyboard_arrow_down
attach_money
词元购买后可以开具发票吗?
keyboard_arrow_down