讀取器
將 URL 轉換為大模型友好輸入,只需在前面添加
r.jina.ai 即可。讀取器 API
將 URL 轉換為大模型友好輸入,只需在前面添加
r.jina.ai 即可。chevron_leftchevron_right
globe_book
使用
r.jina.ai 讀取 URL 並獲取其內容travel_explore
使用
s.jina.ai 搜索網絡並獲取 SERP添加
mcp.jina.ai 到您的MCP工具箱,讓大模型學用我們的API內容格式
您可以控制響應中的細節級別,以防止過度過濾。默認管道針對大多數網站和大模型輸入進行了優化。
默認
arrow_drop_down
JSON 響應
響應將採用 JSON 格式,包含 URL、標題、內容和時間戳(如果可用)。在搜索模式下,它會返回一個包含五個條目的列表,每個條目都遵循描述的 JSON 結構。
超時時間(秒)
頁面加載的最長等待時間。頁面加載速度慢時增加此值,簡單的靜態頁面減少此值。
限制詞元預算
限制此請求使用的最大詞元數。超出此限制將導致請求失敗。
使用 ReaderLM-v2
實驗
使用 ReaderLM-v2 將 HTML 轉換為 Markdown,為結構和內容複雜的網站提供高質量的結果。比其它引擎消耗 3 倍詞元!open_in_new瞭解更多
僅提取(CSS 選擇器)
僅提取與這些 CSS 選擇器匹配的內容。例如:article、.main-content、#post-body
等待(CSS 選擇器)
等待這些元素出現後再提取內容。這對於動態加載的內容非常有用。
排除(CSS 選擇器)
提取前請移除以下元素。例如:導航欄、頁腳、側邊欄、#廣告
刪除所有圖片
從輸出中移除所有圖像。這樣可以在不需要圖像時減少令牌使用量。
OpenAI 引用格式
為 OpenAI 的網頁瀏覽工具格式化鏈接。使用與 GPT 模型兼容的特殊引用標記。open_in_new瞭解更多
鏈接摘要部分
最後會創建一個“按鈕和鏈接”部分。這可以幫助下游大模型或 Web 智能體瀏覽頁面或採取進一步的行動。
無
arrow_drop_down
圖片摘要部分
最後會創建一個“圖片”部分。這可以讓下游的大模型概覽頁面上的所有視覺效果,從而提高推理能力。
無
arrow_drop_down
瀏覽器視口大小
POST
設置瀏覽器窗口尺寸。影響響應式佈局和內容可見性。open_in_new瞭解更多
轉發 Cookie
我們的 API 服務器可以在訪問 URL 時轉發您的自定義 Cookie 設置,這對於需要額外身份驗證的頁面非常有用。請注意,帶有 Cookie 的請求不會被緩存。open_in_new瞭解更多
圖片説明
為指定 URL 上的所有圖片添加標題,為沒有標題的圖片添加“Image [idx]: [caption]”作為 alt 標籤。這允許下游大模型在推理和總結等活動中與圖片進行交互。
使用代理服務器
我們的 API 服務器可以利用您的代理來訪問 URL,這對於只能通過特定代理訪問的頁面很有幫助。open_in_new瞭解更多
使用特定國家/地區的代理服務器
設置基於位置的代理服務器的國家代碼。使用“自動”進行最佳選擇或使用“無”禁用。
繞過緩存
我們的 API 服務器會將讀取和搜索模式的內容緩存一段時間。要繞過此緩存,請將此標頭設置為 true。
緩存容錯率(秒)
如果緩存內容的發佈時間小於 N 秒,則接受緩存內容。設置為 0 表示接受最新內容(與“繞過緩存”相同),設置為更高的值則允許從緩存中更快地獲取響應。
頁面準備時間
何時認為頁面已完全加載?較晚的計時方式等待時間更長,但能捕捉到更多動態內容。
默認
arrow_drop_down
自定義用户代理
覆蓋瀏覽器用户代理字符串。這對於訪問需要特定瀏覽器或阻止網絡爬蟲的網站非常有用。
自定義推薦人
設置 HTTP Referer 標頭。有些網站會檢查此標頭以驗證流量是否來自預期來源。
保存 Base64 圖像
將內聯 base64 編碼的圖片保留在 Markdown 輸出中,而不是將其轉換為外部 URL。
請勿緩存或追蹤
阻止此請求被緩存或記錄在我們的服務器上。僅用於敏感網址。
Github 風格的 Markdown
選擇加入/退出 GFM(Github Flavored Markdown)功能。
已啓用
arrow_drop_down
流模式
流模式有利於較大的目標頁面,從而留出更多時間讓頁面完全呈現。如果標準模式導致內容不完整,請考慮使用流模式。open_in_new瞭解更多
自定義瀏覽器區域設置
控制瀏覽器區域設置以呈現頁面。許多網站根據區域設置提供不同的內容。open_in_new瞭解更多
尊重機器人.txt
在抓取資源之前,請檢查 robots.txt 文件中的規則。指定用於檢查的機器人名稱。
包含 iframe 內容
從嵌入式 iframe 中提取內容。僅當頁面內容加載在 iframe 中時啓用此功能。
包含 Shadow DOM
從 Shadow DOM 組件中提取內容。適用於使用 Web 組件的頁面。
使用最終 URL 作為基準
使用重定向後的最終目標 URL 而不是原始 URL 來解析相對 URL。
本地 PDF/HTML 文件
POST
通過上傳本地 PDF 和 HTML 文件,使用讀取器讀取它們。僅支持 pdf 和 html 文件。
upload
提取前運行 JavaScript
POST
在提取內容之前,執行自定義 JS 代碼來修改頁面。可以是內聯代碼,也可以是指向腳本文件的 URL。open_in_new瞭解更多
標題樣式
設置 markdown 標題格式(傳遞給 Turndown)。
哈希風格
arrow_drop_down
水平線樣式
定義 markdown 水平規則格式(傳遞給 Turndown)。
項目符號樣式
設置項目符號列表標記字符(傳遞給 Turndown)。
*
arrow_drop_down
強調風格
定義 markdown 強調分隔符(傳遞給 Turndown)。
_
arrow_drop_down
強調風格
設置 markdown 強強調分隔符(傳遞給 Turndown)。
**
arrow_drop_down
鏈接樣式
確定 markdown 鏈接格式(傳遞給 Turndown)。
內聯
arrow_drop_down
符合歐盟規定
實驗
所有基礎設施和數據處理操作完全在歐盟管轄範圍內。
upload
請求
GET
Bash
語言
arrow_drop_down
curl "https://r.jina.ai/https://www.example.com"
key
API密鑰
visibility_off
剩餘詞元額度
0
Jina VLM:小型多語言視覺語言模型
一個擁有 24 億參數的視覺語言模型,在開放的 20 億級視覺語言模型中實現了最先進的多語言視覺問答。
ReaderLM v2:從 HTML 到 Markdown 和 JSON 的小型語言模型
ReaderLM-v2 是一個 1.5B 參數語言模型,專門用於 HTML 到 Markdown 的轉換和 HTML 到 JSON 的提取。它支持 29 種語言中多達 512K 個詞元的文檔,準確率比其前身高 20%。
將網絡信息輸入大模型是打好基礎的重要一步,但這可能很有挑戰性。最簡單的方法是抓取網頁並輸入原始 HTML。但是,抓取可能很複雜且經常受阻,而且原始 HTML 中充斥着標記和腳本等無關元素。讀取器 API 通過從 URL 中提取核心內容並將其轉換為乾淨的、大模型友好的文本來解決這些問題,從而確保為您的Agent和 RAG 系統提供高質量的輸入。
輸入您的 URL
讀取器網址
原始 HTML
讀取器的輸出
提出問題
Reader 可用作 SERP API。它允許您將搜索結果引擎頁面背後的內容提供給您的 LLM。只需在您的查詢前面添加
https://s.jina.ai/?q=,Reader 就會搜索網絡並返回前五個結果及其 URL 和內容,每個結果都以乾淨、大模型友好的文本顯示。這樣,您就可以始終讓您的大模型保持最新狀態,提高其真實性,並減少幻覺。輸入您的查詢
讀取器網址
info 請注意,與上面的演示不同,在實踐中,您不會在網上搜索原始問題來獲取基礎。人們經常做的是重寫原始問題或使用多跳問題。他們讀取檢索到的結果,然後生成其他查詢以根據需要收集更多信息,然後得出最終答案。
網頁上的圖片會使用讀取器中的視覺語言模型自動添加標題,並在輸出中格式化為圖片 alt 標籤。這為您的下游大模型提供了足夠的提示,以將這些圖片納入其推理和總結過程。這意味着您可以詢問有關圖片的問題,選擇特定的圖片,甚至將其 URL 轉發到更強大的 VLM 進行更深入的分析!
是的,Reader 本身支持 PDF 讀取。它兼容大多數 PDF,包括包含大量圖片的 PDF,而且速度極快!結合大模型,您可以輕鬆快速地構建 ChatPDF 或文檔分析 AI。
而且它是竟然是免費的!
Reader API 可免費使用,並提供靈活的速率限制和定價。它建立在可擴展的基礎架構上,具有高可訪問性、併發性和可靠性。我們努力成為您大模型的首選基礎解決方案。
速率限制
速率限制通過三種方式跟蹤:RPM(每分鐘請求數)和TPM(每分鐘詞元數)。限制按 IP/API 密鑰強制執行,當首先達到 RPM 或 TPM 閾值時,將觸發限制。當您在請求標頭中提供 API 密鑰時,我們會按密鑰而不是 IP 地址跟蹤速率限制。
欄位
arrow_drop_down
| 產品 | API端口 | 描述arrow_upward | 無 API 密鑰key_off | 免費 API 密鑰key | 使用付費 API 密鑰key | 帶有高級 API 密鑰key | 平均延遲 | 詞元使用計數 | 請求類型 | |
|---|---|---|---|---|---|---|---|---|---|---|
| 讀取器 API | https://r.jina.ai | 將 URL 轉換為大模型友好文本 | 20 RPM | 500 RPM | 500 RPM | trending_up5000 RPM | 7.9s | 以輸出響應中的詞元數量為準。 | GET/POST | |
| 讀取器 API | https://s.jina.ai | 搜索網絡並將結果轉換為大模型友好文本 | block | 100 RPM | 100 RPM | trending_up1000 RPM | 2.5s | 每個請求都需要固定數量的詞元,從 10000 個詞元開始 | GET/POST | |
| 向量模型API | https://api.jina.ai/v1/embeddings | 將文本/圖片轉為定長向量 | block | 100 RPM & 100,000 TPM | 500 RPM & 2,000,000 TPM | trending_up5,000 RPM & 50,000,000 TPM | ssid_chart 取決於輸入大小 help | 以輸入請求中的詞元數量為準。 | POST | |
| 重排器 API | https://api.jina.ai/v1/rerank | 按查詢對文檔進行精排 | block | 100 RPM & 100,000 TPM | 500 RPM & 2,000,000 TPM | trending_up5,000 RPM & 50,000,000 TPM | ssid_chart 取決於輸入大小 help | 以輸入請求中的詞元數量為準。 | POST | |
| 分類器 API | https://api.jina.ai/v1/train | 使用訓練樣本訓練分類器 | block | 25 RPM & 25,000 TPM | 125 RPM & 500,000 TPM | 1,250 RPM & 12,000,000 TPM | ssid_chart 取決於輸入大小 | 詞元計數為:輸入詞元 × 迭代次數 | POST | |
| 分類器 API (少量樣本) | https://api.jina.ai/v1/classify | 使用經過訓練的少樣本分類器對輸入進行分類 | block | 25 RPM & 25,000 TPM | 125 RPM & 500,000 TPM | 1,250 RPM & 12,000,000 TPM | ssid_chart 取決於輸入大小 | 詞元計數為:輸入詞元 | POST | |
| 分類器 API (零樣本) | https://api.jina.ai/v1/classify | 使用零樣本分類對輸入進行分類 | block | 25 RPM & 25,000 TPM | 125 RPM & 500,000 TPM | 1,250 RPM & 12,000,000 TPM | ssid_chart 取決於輸入大小 | 詞元計數為:輸入詞元 加 標籤詞元 | POST | |
| 切分器 API | https://api.jina.ai/v1/segment | 對長文本進行分詞分句 | 20 RPM | 200 RPM | 200 RPM | 1,000 RPM | 0.3s | 詞元不計算使用量。 | GET/POST | |
| 深度搜索 | https://deepsearch.jina.ai/v1/chat/completions | 推理、搜索和迭代以找到最佳答案 | block | 50 RPM | 50 RPM | 500 RPM | 56.7s | 統計整個過程中詞元的總數。 | POST |
別慌!每個新的 API 密鑰都包含一千萬個免費詞元!
API價格表
API 定價基於詞元使用情況。一個 API 密鑰即可訪問所有搜索基礎產品。
使用 讀取器 API 的相關費用是多少?
keyboard_arrow_down
讀取器 API 如何發揮作用?
keyboard_arrow_down
讀取器 API 是開源的嗎?
keyboard_arrow_down
讀取器 API 的典型延遲是多少?
keyboard_arrow_down
為什麼我應該使用 讀取器 API 而不是自己抓取頁面?
keyboard_arrow_down
讀取器 API 是否支持多種語言?
keyboard_arrow_down
如果某個網站屏蔽了 讀取器 API,我該怎麼辦?
keyboard_arrow_down
讀取器 API 可以從 PDF 文件中提取內容嗎?
keyboard_arrow_down
讀取器 API 可以處理來自網頁的媒體內容嗎?
keyboard_arrow_down
是否可以在本地 HTML 文件上使用 讀取器 API?
keyboard_arrow_down
讀取器 API 是否緩存內容?
keyboard_arrow_down
我可以使用 讀取器API 來訪問登錄後的內容嗎?
keyboard_arrow_down
我可以使用讀取器 API 訪問 arXiv 上的 PDF 嗎?
keyboard_arrow_down
圖片標註在讀取器中如何發揮作用?
keyboard_arrow_down
讀取器的可擴展性如何?我可以在生產中使用它嗎?
keyboard_arrow_down
Reader API 的速率限制是多少?
keyboard_arrow_down
什麼是 Reader-LM?如何使用它?
keyboard_arrow_down
如何從網頁中提取結構化數據?
keyboard_arrow_down
Reader 是否會主動繞過網站的反機器人保護?
keyboard_arrow_down
從免費 API 密鑰升級到付費 API 密鑰後,我能訪問更多網站嗎?
keyboard_arrow_down
速率限制
速率限制通過三種方式跟蹤:RPM(每分鐘請求數)和TPM(每分鐘詞元數)。限制按 IP/API 密鑰強制執行,當首先達到 RPM 或 TPM 閾值時,將觸發限制。當您在請求標頭中提供 API 密鑰時,我們會按密鑰而不是 IP 地址跟蹤速率限制。
欄位
arrow_drop_down
| 產品 | API端口 | 描述arrow_upward | 無 API 密鑰key_off | 免費 API 密鑰key | 使用付費 API 密鑰key | 帶有高級 API 密鑰key | 平均延遲 | 詞元使用計數 | 請求類型 | |
|---|---|---|---|---|---|---|---|---|---|---|
| 讀取器 API | https://r.jina.ai | 將 URL 轉換為大模型友好文本 | 20 RPM | 500 RPM | 500 RPM | trending_up5000 RPM | 7.9s | 以輸出響應中的詞元數量為準。 | GET/POST | |
| 讀取器 API | https://s.jina.ai | 搜索網絡並將結果轉換為大模型友好文本 | block | 100 RPM | 100 RPM | trending_up1000 RPM | 2.5s | 每個請求都需要固定數量的詞元,從 10000 個詞元開始 | GET/POST | |
| 向量模型API | https://api.jina.ai/v1/embeddings | 將文本/圖片轉為定長向量 | block | 100 RPM & 100,000 TPM | 500 RPM & 2,000,000 TPM | trending_up5,000 RPM & 50,000,000 TPM | ssid_chart 取決於輸入大小 help | 以輸入請求中的詞元數量為準。 | POST | |
| 重排器 API | https://api.jina.ai/v1/rerank | 按查詢對文檔進行精排 | block | 100 RPM & 100,000 TPM | 500 RPM & 2,000,000 TPM | trending_up5,000 RPM & 50,000,000 TPM | ssid_chart 取決於輸入大小 help | 以輸入請求中的詞元數量為準。 | POST | |
| 分類器 API | https://api.jina.ai/v1/train | 使用訓練樣本訓練分類器 | block | 25 RPM & 25,000 TPM | 125 RPM & 500,000 TPM | 1,250 RPM & 12,000,000 TPM | ssid_chart 取決於輸入大小 | 詞元計數為:輸入詞元 × 迭代次數 | POST | |
| 分類器 API (少量樣本) | https://api.jina.ai/v1/classify | 使用經過訓練的少樣本分類器對輸入進行分類 | block | 25 RPM & 25,000 TPM | 125 RPM & 500,000 TPM | 1,250 RPM & 12,000,000 TPM | ssid_chart 取決於輸入大小 | 詞元計數為:輸入詞元 | POST | |
| 分類器 API (零樣本) | https://api.jina.ai/v1/classify | 使用零樣本分類對輸入進行分類 | block | 25 RPM & 25,000 TPM | 125 RPM & 500,000 TPM | 1,250 RPM & 12,000,000 TPM | ssid_chart 取決於輸入大小 | 詞元計數為:輸入詞元 加 標籤詞元 | POST | |
| 切分器 API | https://api.jina.ai/v1/segment | 對長文本進行分詞分句 | 20 RPM | 200 RPM | 200 RPM | 1,000 RPM | 0.3s | 詞元不計算使用量。 | GET/POST | |
| 深度搜索 | https://deepsearch.jina.ai/v1/chat/completions | 推理、搜索和迭代以找到最佳答案 | block | 50 RPM | 50 RPM | 500 RPM | 56.7s | 統計整個過程中詞元的總數。 | POST |
API相關常見問題
code
我可以對讀取器、向量模型、重排器、分類器和微調模型 API 使用相同的 API 密鑰嗎?
keyboard_arrow_down
code
我可以查看 API 密鑰的詞元使用情況嗎?
keyboard_arrow_down
code
如果我忘記了 API 密鑰,該怎麼辦?
keyboard_arrow_down
code
API 密鑰會過期嗎?
keyboard_arrow_down
code
我可以在 API 密鑰之間轉移額度嗎?
keyboard_arrow_down
code
我可以銷燬我的 API 密鑰嗎?
keyboard_arrow_down
code
為什麼有些機型第一次請求比較慢?
keyboard_arrow_down
code
我的API數據是否用於訓練你們的模型?
keyboard_arrow_down
code
Jina API 的速率限制是多少?
keyboard_arrow_down
code
API是否有批量大小限制?
keyboard_arrow_down
與計費相關的常見問題
attach_money
API是根據句子的數量或請求的數量計費嗎?
keyboard_arrow_down
attach_money
新用户可以免費試用嗎?
keyboard_arrow_down
attach_money
失敗的請求是否會扣除詞元?
keyboard_arrow_down
attach_money
接受哪些付款方式?
keyboard_arrow_down
attach_money
充值後可以開具發票嗎?
keyboard_arrow_down


