讀取器
將 URL 轉換為大模型友好輸入,只需在前面添加
r.jina.ai
即可。讀取器 API
將 URL 轉換為大模型友好輸入,只需在前面添加
r.jina.ai
即可。 chevron_leftchevron_right
globe_book
使用
r.jina.ai
讀取 URL 並獲取其內容travel_explore
使用
s.jina.ai
搜索網絡並獲取 SERP內容格式
您可以控制響應中的細節級別,以防止過度過濾。默認管道針對大多數網站和大模型輸入進行了優化。
默認
arrow_drop_down
JSON 響應
響應將採用 JSON 格式,包含 URL、標題、內容和時間戳(如果可用)。在搜索模式下,它會返回一個包含五個條目的列表,每個條目都遵循描述的 JSON 結構。
超時時間
最大頁面加載等待時間(不是總請求處理時間)。
限制詞元預算
限制此請求使用的最大詞元數。超出此限制將導致請求失敗。
使用 ReaderLM-v2
實驗
使用 ReaderLM-v2 將 HTML 轉換為 Markdown,為結構和內容複雜的網站提供高質量的結果。比其它引擎消耗 3 倍詞元!
CSS 選擇器:僅限
用於定位特定頁面元素的 CSS 選擇器列表。
CSS 選擇器:Wait-For
返回結果之前要等待的 CSS 選擇器。
CSS 選擇器:排除
要刪除的元素的 CSS 選擇器(頁眉、頁腳等)。
刪除所有圖片
從響應中刪除所有圖片。
將所有鏈接集中到最後
最後會創建一個“按鈕和鏈接”部分。這可以幫助下游大模型或 Web 代理瀏覽頁面或採取進一步的行動。
無
arrow_drop_down
將所有圖片集中到最後
最後會創建一個“圖片”部分。這可以讓下游的大模型概覽頁面上的所有視覺效果,從而提高推理能力。
無
arrow_drop_down
轉發 Cookie
我們的 API 服務器可以在訪問 URL 時轉發您的自定義 Cookie 設置,這對於需要額外身份驗證的頁面非常有用。請注意,帶有 Cookie 的請求不會被緩存。
圖片説明
為指定 URL 上的所有圖片添加標題,為沒有標題的圖片添加“Image [idx]: [caption]”作為 alt 標籤。這允許下游大模型在推理和總結等活動中與圖片進行交互。
使用特定國家/地區的代理服務器
設置基於位置的代理服務器的國家代碼。使用“自動”進行最佳選擇或使用“無”禁用。
繞過緩存
我們的 API 服務器會將讀取和搜索模式的內容緩存一段時間。要繞過此緩存,請將此標頭設置為 true。
請勿緩存/跟蹤!
啓用後,請求結果將不會緩存在我們的服務器上。
Github 風格的 Markdown
選擇加入/退出 GFM(Github Flavored Markdown)功能。
已啓用
arrow_drop_down
嚴格遵守機器人政策
定義機器人用户代理 (User-Agent),在獲取內容之前對照 robots.txt 進行檢查。
iframe 提取
處理 DOM 樹中所有嵌入 iframe 的內容。
影子 DOM 提取
從文檔中的所有 Shadow DOM 根中提取內容。
關注重定向頁面
選擇是否在遵循所有重定向後解析到最終目標網址。啓用以遵循完整的重定向鏈。
本地 PDF/HTML 文件
POST
通過上傳本地 PDF 和 HTML 文件,使用讀取器讀取它們。僅支持 pdf 和 html 文件。
upload
標題樣式
設置 markdown 標題格式(傳遞給 Turndown)。
替代標題語法
arrow_drop_down
水平線樣式
定義 markdown 水平規則格式(傳遞給 Turndown)。
項目符號樣式
設置項目符號列表標記字符(傳遞給 Turndown)。
*
arrow_drop_down
強調風格
定義 markdown 強調分隔符(傳遞給 Turndown)。
_
arrow_drop_down
強調風格
設置 markdown 強強調分隔符(傳遞給 Turndown)。
**
arrow_drop_down
鏈接樣式
確定 markdown 鏈接格式(傳遞給 Turndown)。
內聯
arrow_drop_down
符合歐盟規定
所有基礎設施和數據處理操作完全在歐盟管轄範圍內。
upload
請求
GET
Bash
語言
arrow_drop_down
curl "https://r.jina.ai/https://example.com"
key
API密鑰
visibility_off
剩餘詞元額度
0
ReaderLM v2:從 HTML 到 Markdown 和 JSON 的小型語言模型
ReaderLM-v2 是一個 1.5B 參數語言模型,專門用於 HTML 到 Markdown 的轉換和 HTML 到 JSON 的提取。它支持 29 種語言中多達 512K 個詞元的文檔,準確率比其前身高 20%。
將網絡信息輸入大模型是打好基礎的重要一步,但這可能很有挑戰性。最簡單的方法是抓取網頁並輸入原始 HTML。但是,抓取可能很複雜且經常受阻,而且原始 HTML 中充斥着標記和腳本等無關元素。讀取器 API 通過從 URL 中提取核心內容並將其轉換為乾淨的、大模型友好的文本來解決這些問題,從而確保為您的Agent和 RAG 系統提供高質量的輸入。
輸入您的 URL
讀取器網址
原始 HTML
讀取器的輸出
提出問題
Reader 可用作 SERP API。它允許您將搜索結果引擎頁面背後的內容提供給您的 LLM。只需在您的查詢前面添加
https://s.jina.ai/?q=
,Reader 就會搜索網絡並返回前五個結果及其 URL 和內容,每個結果都以乾淨、LLM 友好的文本顯示。這樣,您就可以始終讓您的 LLM 保持最新狀態,提高其真實性,並減少幻覺。輸入您的查詢
讀取器網址
info 請注意,與上面的演示不同,在實踐中,您不會在網上搜索原始問題來獲取基礎。人們經常做的是重寫原始問題或使用多跳問題。他們讀取檢索到的結果,然後生成其他查詢以根據需要收集更多信息,然後得出最終答案。
網頁上的圖片會使用讀取器中的視覺語言模型自動添加標題,並在輸出中格式化為圖片 alt 標籤。這為您的下游大模型提供了足夠的提示,以將這些圖片納入其推理和總結過程。這意味着您可以詢問有關圖片的問題,選擇特定的圖片,甚至將其 URL 轉發到更強大的 VLM 進行更深入的分析!
是的,Reader 本身支持 PDF 讀取。它兼容大多數 PDF,包括包含大量圖片的 PDF,而且速度極快!結合大模型,您可以輕鬆快速地構建 ChatPDF 或文檔分析 AI。
而且它是竟然是免費的!
Reader API 可免費使用,並提供靈活的速率限制和定價。它建立在可擴展的基礎架構上,具有高可訪問性、併發性和可靠性。我們努力成為您大模型的首選基礎解決方案。
速率限制
欄位
arrow_drop_down
產品 | API端口 | 描述arrow_upward | 無 API 密鑰key_off | 使用 API 密鑰key | 帶有高級 API 密鑰key | 平均延遲 | 詞元使用計數 | 請求類型 | |
---|---|---|---|---|---|---|---|---|---|
讀取器 API | https://r.jina.ai | 將 URL 轉換為大模型友好文本 | 20 RPM | 200 RPM | trending_up2000 RPM | 4.6s | 以輸出響應中的詞元數量為準。 | GET/POST | |
讀取器 API | https://s.jina.ai | 搜索網絡並將結果轉換為大模型友好文本 | block | 40 RPM | trending_up400 RPM | 5.7s | 每個請求都需要固定數量的詞元,從 10000 個詞元開始 | GET/POST | |
深度搜索 | https://deepsearch.jina.ai/v1/chat/completions | 推理、搜索和迭代以找到最佳答案 | 1 RPM | 10 RPM | 100 RPM | 56.7s | 統計整個過程中詞元的總數。 | POST | |
向量模型API | https://api.jina.ai/v1/embeddings | 將文本/圖片轉為定長向量 | block | 500 RPM & 1,000,000 TPM | trending_up2,000 RPM & 5,000,000 TPM | ssid_chart 取決於輸入大小 help | 以輸入請求中的詞元數量為準。 | POST | |
重排器 API | https://api.jina.ai/v1/rerank | 按查詢對文檔進行精排 | block | 500 RPM & 1,000,000 TPM | trending_up2,000 RPM & 5,000,000 TPM | ssid_chart 取決於輸入大小 help | 以輸入請求中的詞元數量為準。 | POST | |
分類器 API | https://api.jina.ai/v1/train | 使用訓練樣本訓練分類器 | block | 20 RPM & 200,000 TPM | 60 RPM & 1,000,000 TPM | ssid_chart 取決於輸入大小 | 詞元計數為:輸入詞元 × 迭代次數 | POST | |
分類器 API (少量樣本) | https://api.jina.ai/v1/classify | 使用經過訓練的少樣本分類器對輸入進行分類 | block | 20 RPM & 200,000 TPM | 60 RPM & 1,000,000 TPM | ssid_chart 取決於輸入大小 | 詞元計數為:輸入詞元 | POST | |
分類器 API (零樣本) | https://api.jina.ai/v1/classify | 使用零樣本分類對輸入進行分類 | block | 200 RPM & 500,000 TPM | 1,000 RPM & 3,000,000 TPM | ssid_chart 取決於輸入大小 | 詞元計數為:輸入詞元 加 標籤詞元 | POST | |
切分器 API | https://api.jina.ai/v1/segment | 對長文本進行分詞分句 | 20 RPM | 200 RPM | 1,000 RPM | 0.3s | 詞元不計算使用量。 | GET/POST |
不要驚慌!每個新的 API 密鑰都包含一百萬個免費詞元!
API價格表
API 定價基於詞元使用情況。一個 API 密鑰即可訪問所有搜索基礎產品。
使用 讀取器 API 的相關費用是多少?
keyboard_arrow_down
讀取器 API 如何發揮作用?
keyboard_arrow_down
讀取器 API 是開源的嗎?
keyboard_arrow_down
讀取器 API 的典型延遲是多少?
keyboard_arrow_down
為什麼我應該使用 讀取器 API 而不是自己抓取頁面?
keyboard_arrow_down
讀取器 API 是否支持多種語言?
keyboard_arrow_down
如果某個網站屏蔽了 讀取器 API,我該怎麼辦?
keyboard_arrow_down
讀取器 API 可以從 PDF 文件中提取內容嗎?
keyboard_arrow_down
讀取器 API 可以處理來自網頁的媒體內容嗎?
keyboard_arrow_down
是否可以在本地 HTML 文件上使用 讀取器 API?
keyboard_arrow_down
讀取器 API 是否緩存內容?
keyboard_arrow_down
我可以使用 讀取器API 來訪問登錄後的內容嗎?
keyboard_arrow_down
我可以使用讀取器 API 訪問 arXiv 上的 PDF 嗎?
keyboard_arrow_down
圖片標註在讀取器中如何發揮作用?
keyboard_arrow_down
讀取器的可擴展性如何?我可以在生產中使用它嗎?
keyboard_arrow_down
Reader API 的速率限制是多少?
keyboard_arrow_down
什麼是 Reader-LM?如何使用它?
keyboard_arrow_down
速率限制
欄位
arrow_drop_down
產品 | API端口 | 描述arrow_upward | 無 API 密鑰key_off | 使用 API 密鑰key | 帶有高級 API 密鑰key | 平均延遲 | 詞元使用計數 | 請求類型 | |
---|---|---|---|---|---|---|---|---|---|
讀取器 API | https://r.jina.ai | 將 URL 轉換為大模型友好文本 | 20 RPM | 200 RPM | trending_up2000 RPM | 4.6s | 以輸出響應中的詞元數量為準。 | GET/POST | |
讀取器 API | https://s.jina.ai | 搜索網絡並將結果轉換為大模型友好文本 | block | 40 RPM | trending_up400 RPM | 5.7s | 每個請求都需要固定數量的詞元,從 10000 個詞元開始 | GET/POST | |
深度搜索 | https://deepsearch.jina.ai/v1/chat/completions | 推理、搜索和迭代以找到最佳答案 | 1 RPM | 10 RPM | 100 RPM | 56.7s | 統計整個過程中詞元的總數。 | POST | |
向量模型API | https://api.jina.ai/v1/embeddings | 將文本/圖片轉為定長向量 | block | 500 RPM & 1,000,000 TPM | trending_up2,000 RPM & 5,000,000 TPM | ssid_chart 取決於輸入大小 help | 以輸入請求中的詞元數量為準。 | POST | |
重排器 API | https://api.jina.ai/v1/rerank | 按查詢對文檔進行精排 | block | 500 RPM & 1,000,000 TPM | trending_up2,000 RPM & 5,000,000 TPM | ssid_chart 取決於輸入大小 help | 以輸入請求中的詞元數量為準。 | POST | |
分類器 API | https://api.jina.ai/v1/train | 使用訓練樣本訓練分類器 | block | 20 RPM & 200,000 TPM | 60 RPM & 1,000,000 TPM | ssid_chart 取決於輸入大小 | 詞元計數為:輸入詞元 × 迭代次數 | POST | |
分類器 API (少量樣本) | https://api.jina.ai/v1/classify | 使用經過訓練的少樣本分類器對輸入進行分類 | block | 20 RPM & 200,000 TPM | 60 RPM & 1,000,000 TPM | ssid_chart 取決於輸入大小 | 詞元計數為:輸入詞元 | POST | |
分類器 API (零樣本) | https://api.jina.ai/v1/classify | 使用零樣本分類對輸入進行分類 | block | 200 RPM & 500,000 TPM | 1,000 RPM & 3,000,000 TPM | ssid_chart 取決於輸入大小 | 詞元計數為:輸入詞元 加 標籤詞元 | POST | |
切分器 API | https://api.jina.ai/v1/segment | 對長文本進行分詞分句 | 20 RPM | 200 RPM | 1,000 RPM | 0.3s | 詞元不計算使用量。 | GET/POST |
API相關常見問題
code
我可以對讀取器、向量模型、重排器、分類器和微調模型 API 使用相同的 API 密鑰嗎?
keyboard_arrow_down
code
我可以查看 API 密鑰的詞元使用情況嗎?
keyboard_arrow_down
code
如果我忘記了 API 密鑰,該怎麼辦?
keyboard_arrow_down
code
API 密鑰會過期嗎?
keyboard_arrow_down
code
我可以在 API 密鑰之間轉移詞元餘額嗎?
keyboard_arrow_down
code
我可以銷燬我的 API 密鑰嗎?
keyboard_arrow_down
code
為什麼有些機型第一次請求比較慢?
keyboard_arrow_down
code
用户輸入數據是否用於訓練您的模型?
keyboard_arrow_down
與計費相關的常見問題
attach_money
API是根據句子的數量或請求的數量計費嗎?
keyboard_arrow_down
attach_money
新用户可以免費試用嗎?
keyboard_arrow_down
attach_money
失敗的請求是否會扣除詞元?
keyboard_arrow_down
attach_money
接受哪些付款方式?
keyboard_arrow_down
attach_money
詞元購買後可以開具發票嗎?
keyboard_arrow_down