您的搜索底座 如虎添翼!
我们的客户
立即开始——无需信用卡或注册!
verified_user 我们符合美国注册会计师协会 (AICPA) 的 SOC 2 Type 1 和 Type 2 标准。 open_in_new
chevron_leftchevron_right
globe_book
使用
r.jina.ai 读取 URL 并获取其内容travel_explore
使用
s.jina.ai 搜索网络并获取 SERP添加
mcp.jina.ai 到您的MCP工具箱,让大模型学用我们的API内容格式
您可以控制响应中的细节级别,以防止过度过滤。默认管道针对大多数网站和大模型输入进行了优化。
默认
arrow_drop_down
JSON 响应
响应将采用 JSON 格式,包含 URL、标题、内容和时间戳(如果可用)。在搜索模式下,它会返回一个包含五个条目的列表,每个条目都遵循描述的 JSON 结构。
超时时间(秒)
页面加载的最长等待时间。页面加载速度慢时增加此值,简单的静态页面减少此值。
限制词元预算
限制此请求使用的最大词元数。超出此限制将导致请求失败。
使用 ReaderLM-v2
实验
使用 ReaderLM-v2 将 HTML 转换为 Markdown,为结构和内容复杂的网站提供高质量的结果。比其它引擎消耗 3 倍词元!open_in_new了解更多
仅提取(CSS 选择器)
仅提取与这些 CSS 选择器匹配的内容。例如:article、.main-content、#post-body
等待(CSS 选择器)
等待这些元素出现后再提取内容。这对于动态加载的内容非常有用。
排除(CSS 选择器)
提取前请移除以下元素。例如:导航栏、页脚、侧边栏、#广告
删除所有图片
从输出中移除所有图像。这样可以在不需要图像时减少令牌使用量。
OpenAI 引用格式
为 OpenAI 的网页浏览工具格式化链接。使用与 GPT 模型兼容的特殊引用标记。open_in_new了解更多
链接摘要部分
最后会创建一个“按钮和链接”部分。这可以帮助下游大模型或 Web 智能体浏览页面或采取进一步的行动。
无
arrow_drop_down
图片摘要部分
最后会创建一个“图片”部分。这可以让下游的大模型概览页面上的所有视觉效果,从而提高推理能力。
无
arrow_drop_down
浏览器视口大小
POST
设置浏览器窗口尺寸。影响响应式布局和内容可见性。open_in_new了解更多
转发 Cookie
我们的 API 服务器可以在访问 URL 时转发您的自定义 Cookie 设置,这对于需要额外身份验证的页面非常有用。请注意,带有 Cookie 的请求不会被缓存。open_in_new了解更多
图片说明
为指定 URL 上的所有图片添加标题,为没有标题的图片添加“Image [idx]: [caption]”作为 alt 标签。这允许下游大模型在推理和总结等活动中与图片进行交互。
使用代理服务器
我们的 API 服务器可以利用您的代理来访问 URL,这对于只能通过特定代理访问的页面很有帮助。open_in_new了解更多
使用特定国家/地区的代理服务器
设置基于位置的代理服务器的国家代码。使用“自动”进行最佳选择或使用“无”禁用。
绕过缓存
我们的 API 服务器会将读取和搜索模式的内容缓存一段时间。要绕过此缓存,请将此标头设置为 true。
缓存容错率(秒)
如果缓存内容的发布时间小于 N 秒,则接受缓存内容。设置为 0 表示接受最新内容(与“绕过缓存”相同),设置为更高的值则允许从缓存中更快地获取响应。
页面准备时间
何时认为页面已完全加载?较晚的计时方式等待时间更长,但能捕捉到更多动态内容。
默认
arrow_drop_down
自定义用户代理
覆盖浏览器用户代理字符串。这对于访问需要特定浏览器或阻止网络爬虫的网站非常有用。
自定义推荐人
设置 HTTP Referer 标头。有些网站会检查此标头以验证流量是否来自预期来源。
保存 Base64 图像
将内联 base64 编码的图片保留在 Markdown 输出中,而不是将其转换为外部 URL。
请勿缓存或追踪
阻止此请求被缓存或记录在我们的服务器上。仅用于敏感网址。
Github 风格的 Markdown
选择加入/退出 GFM(Github Flavored Markdown)功能。
已启用
arrow_drop_down
流模式
流模式有利于较大的目标页面,从而留出更多时间让页面完全呈现。如果标准模式导致内容不完整,请考虑使用流模式。open_in_new了解更多
自定义浏览器区域设置
控制浏览器区域设置以呈现页面。许多网站根据区域设置提供不同的内容。open_in_new了解更多
尊重机器人.txt
在抓取资源之前,请检查 robots.txt 文件中的规则。指定用于检查的机器人名称。
包含 iframe 内容
从嵌入式 iframe 中提取内容。仅当页面内容加载在 iframe 中时启用此功能。
包含 Shadow DOM
从 Shadow DOM 组件中提取内容。适用于使用 Web 组件的页面。
使用最终 URL 作为基准
使用重定向后的最终目标 URL 而不是原始 URL 来解析相对 URL。
本地 PDF/HTML 文件
POST
通过上传本地 PDF 和 HTML 文件,使用读取器读取它们。仅支持 pdf 和 html 文件。
upload
提取前运行 JavaScript
POST
在提取内容之前,执行自定义 JS 代码来修改页面。可以是内联代码,也可以是指向脚本文件的 URL。open_in_new了解更多
标题样式
设置 markdown 标题格式(传递给 Turndown)。
哈希风格
arrow_drop_down
水平线样式
定义 markdown 水平规则格式(传递给 Turndown)。
项目符号样式
设置项目符号列表标记字符(传递给 Turndown)。
*
arrow_drop_down
强调风格
定义 markdown 强调分隔符(传递给 Turndown)。
_
arrow_drop_down
强调风格
设置 markdown 强强调分隔符(传递给 Turndown)。
**
arrow_drop_down
链接样式
确定 markdown 链接格式(传递给 Turndown)。
内联
arrow_drop_down
符合欧盟规定
实验
所有基础设施和数据处理操作完全在欧盟管辖范围内。
upload
请求
GET
Bash
语言
arrow_drop_down
curl "https://r.jina.ai/https://www.example.com"
key
API密钥
visibility_off
剩余词元额度
0
为了更好的搜索
我们的前沿模型构成了高质量企业搜索和 RAG 系统的搜索底座。
二月 17, 2026
二月 11, 2026
一月 22, 2026
十二月 29, 2025
十二月 04, 2025
AAAI 2026
十月 01, 2025
NeurIPS 2025
八月 31, 2025
EMNLP 2025
六月 24, 2025
ICLR 2025
三月 04, 2025
ACL 2025
十二月 17, 2024
ICLR 2025
十二月 12, 2024
ECIR 2025
九月 18, 2024
SIGIR 2025
九月 07, 2024
EMNLP 2024
八月 30, 2024
WWW 2025
六月 21, 2024
ICML 2024
五月 30, 2024
二月 26, 2024
十月 30, 2023
EMNLP 2023
七月 20, 2023
共计 19 篇论文。







































