切分器
用于将长文本分割成块并进行切词的免费 API。
切分器 API
我们的切分器对于帮助大模型在上下文限制内管理输入以及优化模型性能至关重要。它允许开发人员计算词元并提取相关文本段,从而确保高效的数据处理和成本管理。
chevron_leftchevron_right
使用 GET 请求直接返回词元数量
使用 POST 请求获取更多功能
返回最后 N 个词元
返回给定内容的最后 N 个词元。不包括恰好切在的边界点。不能与`head`一起使用。
切分器
选择要使用的切分器。
cl100k_base
arrow_drop_down
upload
请求
Bash
语言
arrow_drop_down
curl -X POST 'https://api.jina.ai/v1/segment' \
-H "Content-Type: application/json" \
-d @- <<EOFEOF
{
"content": "Jina AI: Your Search Foundation, Supercharged! 🚀\nIhrer Suchgrundlage, aufgeladen! 🚀\n您的搜索底座,从此不同!🚀\n検索ベース,もう二度と同じことはありません!🚀"
}
EOFEOF
key
API密钥
visibility_off
剩余词元额度
0
什么是切分器?
分段器是将文本转换为词元或块的关键组件,它们是向量模型/重排器或大模型处理的基本数据单位。词元可以表示整个单词、单词的一部分,甚至是单个字符。
输入文本
对长文档进行切块,快如闪电鞭!
您还可以使用切分器将长文档分割成较小的块,从而更轻松地在向量模型或重排器中处理它们。我们利用常见的结构线索并构建了一套规则和启发式方法,这些规则和启发式方法在不同类型的内容(例如 Markdown、HTML、LaTeX 和 CJK 语言)中表现良好。
输入文本
每个块中的最大字符数。实际上,如果文本中有自然边界,块长度可以小于此值。
总共 0 个切块
切分器是免费的!
通过提供您的 API 密钥,您可以访问更高的速率限制,并且不会对您的密钥收费。
速率限制
速率限制通过三种方式跟踪:RPM(每分钟请求数)和TPM(每分钟词元数)。限制按 IP/API 密钥强制执行,当首先达到 RPM 或 TPM 阈值时,将触发限制。当您在请求标头中提供 API 密钥时,我们会按密钥而不是 IP 地址跟踪速率限制。
列
arrow_drop_down
产品 | API端口 | 描述arrow_upward | 无 API 密钥key_off | 使用 API 密钥key | 带有高级 API 密钥key | 平均延迟 | 词元使用计数 | 请求类型 | |
---|---|---|---|---|---|---|---|---|---|
读取器 API | https://r.jina.ai | 将 URL 转换为大模型友好文本 | 20 RPM | 500 RPM | trending_up5000 RPM | 7.9s | 以输出响应中的词元数量为准。 | GET/POST | |
读取器 API | https://s.jina.ai | 搜索网络并将结果转换为大模型友好文本 | block | 100 RPM | trending_up1000 RPM | 2.5s | 每个请求都需要固定数量的词元,从 10000 个词元开始 | GET/POST | |
深度搜索 | https://deepsearch.jina.ai/v1/chat/completions | 推理、搜索和迭代以找到最佳答案 | block | 50 RPM | 500 RPM | 56.7s | 统计整个过程中词元的总数。 | POST | |
向量模型API | https://api.jina.ai/v1/embeddings | 将文本/图片转为定长向量 | block | 500 RPM & 1,000,000 TPM | trending_up2,000 RPM & 5,000,000 TPM | ssid_chart 取决于输入大小 help | 以输入请求中的词元数量为准。 | POST | |
重排器 API | https://api.jina.ai/v1/rerank | 按查询对文档进行精排 | block | 500 RPM & 1,000,000 TPM | trending_up2,000 RPM & 5,000,000 TPM | ssid_chart 取决于输入大小 help | 以输入请求中的词元数量为准。 | POST | |
分类器 API | https://api.jina.ai/v1/train | 使用训练样本训练分类器 | block | 20 RPM & 200,000 TPM | 60 RPM & 1,000,000 TPM | ssid_chart 取决于输入大小 | 词元计数为:输入词元 × 迭代次数 | POST | |
分类器 API (少量样本) | https://api.jina.ai/v1/classify | 使用经过训练的少样本分类器对输入进行分类 | block | 20 RPM & 200,000 TPM | 60 RPM & 1,000,000 TPM | ssid_chart 取决于输入大小 | 词元计数为:输入词元 | POST | |
分类器 API (零样本) | https://api.jina.ai/v1/classify | 使用零样本分类对输入进行分类 | block | 200 RPM & 500,000 TPM | 1,000 RPM & 3,000,000 TPM | ssid_chart 取决于输入大小 | 词元计数为:输入词元 加 标签词元 | POST | |
切分器 API | https://api.jina.ai/v1/segment | 对长文本进行分词分句 | 20 RPM | 200 RPM | 1,000 RPM | 0.3s | 词元不计算使用量。 | GET/POST |
切分器的价格是多少?
keyboard_arrow_down
如果我不提供 API 密钥,速率限制是多少?
keyboard_arrow_down
如果我提供 API 密钥,速率限制是多少?
keyboard_arrow_down
您会从我的 API 密钥中收取词元吗?
keyboard_arrow_down
切分器是否支持多种语言?
keyboard_arrow_down
GET 和 POST 请求有什么区别?
keyboard_arrow_down
每个请求可以切词的最大长度是多少?
keyboard_arrow_down
切块功能如何工作?是语义切块吗?
keyboard_arrow_down
如何在切分器中处理诸如`endoftext`之类的特殊词元?
keyboard_arrow_down
分块是否支持英语以外的其他语言?
keyboard_arrow_down
速率限制
速率限制通过三种方式跟踪:RPM(每分钟请求数)和TPM(每分钟词元数)。限制按 IP/API 密钥强制执行,当首先达到 RPM 或 TPM 阈值时,将触发限制。当您在请求标头中提供 API 密钥时,我们会按密钥而不是 IP 地址跟踪速率限制。
列
arrow_drop_down
产品 | API端口 | 描述arrow_upward | 无 API 密钥key_off | 使用 API 密钥key | 带有高级 API 密钥key | 平均延迟 | 词元使用计数 | 请求类型 | |
---|---|---|---|---|---|---|---|---|---|
读取器 API | https://r.jina.ai | 将 URL 转换为大模型友好文本 | 20 RPM | 500 RPM | trending_up5000 RPM | 7.9s | 以输出响应中的词元数量为准。 | GET/POST | |
读取器 API | https://s.jina.ai | 搜索网络并将结果转换为大模型友好文本 | block | 100 RPM | trending_up1000 RPM | 2.5s | 每个请求都需要固定数量的词元,从 10000 个词元开始 | GET/POST | |
深度搜索 | https://deepsearch.jina.ai/v1/chat/completions | 推理、搜索和迭代以找到最佳答案 | block | 50 RPM | 500 RPM | 56.7s | 统计整个过程中词元的总数。 | POST | |
向量模型API | https://api.jina.ai/v1/embeddings | 将文本/图片转为定长向量 | block | 500 RPM & 1,000,000 TPM | trending_up2,000 RPM & 5,000,000 TPM | ssid_chart 取决于输入大小 help | 以输入请求中的词元数量为准。 | POST | |
重排器 API | https://api.jina.ai/v1/rerank | 按查询对文档进行精排 | block | 500 RPM & 1,000,000 TPM | trending_up2,000 RPM & 5,000,000 TPM | ssid_chart 取决于输入大小 help | 以输入请求中的词元数量为准。 | POST | |
分类器 API | https://api.jina.ai/v1/train | 使用训练样本训练分类器 | block | 20 RPM & 200,000 TPM | 60 RPM & 1,000,000 TPM | ssid_chart 取决于输入大小 | 词元计数为:输入词元 × 迭代次数 | POST | |
分类器 API (少量样本) | https://api.jina.ai/v1/classify | 使用经过训练的少样本分类器对输入进行分类 | block | 20 RPM & 200,000 TPM | 60 RPM & 1,000,000 TPM | ssid_chart 取决于输入大小 | 词元计数为:输入词元 | POST | |
分类器 API (零样本) | https://api.jina.ai/v1/classify | 使用零样本分类对输入进行分类 | block | 200 RPM & 500,000 TPM | 1,000 RPM & 3,000,000 TPM | ssid_chart 取决于输入大小 | 词元计数为:输入词元 加 标签词元 | POST | |
切分器 API | https://api.jina.ai/v1/segment | 对长文本进行分词分句 | 20 RPM | 200 RPM | 1,000 RPM | 0.3s | 词元不计算使用量。 | GET/POST |
API相关常见问题
code
我可以对读取器、向量模型、重排器、分类器和微调模型 API 使用相同的 API 密钥吗?
keyboard_arrow_down
code
我可以查看 API 密钥的词元使用情况吗?
keyboard_arrow_down
code
如果我忘记了 API 密钥,该怎么办?
keyboard_arrow_down
code
API 密钥会过期吗?
keyboard_arrow_down
code
我可以在 API 密钥之间转移词元余额吗?
keyboard_arrow_down
code
我可以销毁我的 API 密钥吗?
keyboard_arrow_down
code
为什么有些机型第一次请求比较慢?
keyboard_arrow_down
code
用户输入数据是否用于训练您的模型?
keyboard_arrow_down
与计费相关的常见问题
attach_money
API是根据句子的数量或请求的数量计费吗?
keyboard_arrow_down
attach_money
新用户可以免费试用吗?
keyboard_arrow_down
attach_money
失败的请求是否会扣除词元?
keyboard_arrow_down
attach_money
接受哪些付款方式?
keyboard_arrow_down
attach_money
词元购买后可以开具发票吗?
keyboard_arrow_down