Segmentador

API gratuita para segmentar texto largo en fragmentos y tokenizarlo.

API de segmentación

Nuestra API Segmenter es fundamental para ayudar a los LLM a gestionar la entrada dentro de los límites del contexto y optimizar el rendimiento del modelo. Permite a los desarrolladores contar tokens y extraer segmentos de texto relevantes, lo que garantiza un procesamiento de datos eficiente y una gestión de costos.

Límite de velocidad

Preguntas más frecuentes

Estado

https://api.jina.ai/v1/segment?content=

73 tokens, 125 caracteres.

Devolver las fichas

Devuelve los tokens y sus identificadores correspondientes en la respuesta. Activa o desactiva esta opción para ver la visualización del resultado.

Devolver los trozos

Dividir la entrada en segmentos semánticamente significativos mientras se maneja una amplia variedad de tipos de texto y casos extremos basados en señales estructurales comunes.

Devuelve los primeros N tokens

Devuelve los primeros N tokens del contenido indicado. Excluye límites. No se puede utilizar con 'tail'.

Devuelve los últimos N tokens

Devuelve los últimos N tokens del contenido indicado. Excluye límites. No se puede utilizar con 'head'.

Segmentador

Seleccione el tokenizador a utilizar.

cl100k_base

Pedido

Bash

Idioma

curl -X POST 'https://api.jina.ai/v1/segment' \
  -H "Content-Type: application/json" \
  -d @- <<EOFEOF
  {
    "content": "Jina AI: Your Search Foundation, Supercharged! 🚀\nIhrer Suchgrundlage, aufgeladen! 🚀\n您的搜索底座，从此不同！🚀\n検索ベース,もう二度と同じことはありません！🚀"
  }
EOFEOF

Clave API

Fichas disponibles

Esta es tu clave única. ¡Guárdala de forma segura!

¿Qué es un segmentador?

Un segmentador es un componente crucial que convierte el texto en tokens o fragmentos, que son las unidades básicas de datos que procesa un modelo de incrustación/reclasificación o LLM. Los tokens pueden representar palabras completas, partes de palabras o incluso caracteres individuales.

Texto de entrada

¡Agrupe documentos largos a la velocidad del rayo!

También puede utilizar Segmenter API para dividir documentos largos en fragmentos más pequeños, lo que facilita su procesamiento en incrustaciones o reclasificadores. Aprovechamos las señales estructurales comunes y creamos un conjunto de reglas y heurísticas que funcionan bien en diversos tipos de contenido, por ejemplo, lenguajes Markdown, HTML, LaTeX y CJK.

Texto de entrada

Longitud máxima de cada fragmento: 1000

Número máximo de caracteres en cada fragmento. En la práctica, la longitud del fragmento puede ser menor que este valor, si existe un límite natural en el texto.

¡La API de Segmenter es gratuita!

Al proporcionar su clave API, podrá acceder a un límite de tarifa más alto y no se le cobrará su clave.

Límite de velocidad

Los límites de velocidad se controlan de tres maneras: RPM (solicitudes por minuto) y TPM (tokens por minuto). Los límites se aplican por IP/clave API y se activan cuando se alcanza primero el umbral de RPM o TPM. Al proporcionar una clave API en el encabezado de la solicitud, controlamos los límites de velocidad por clave, no por dirección IP.

Columnas

Producto	Punto final de API	Descripción	Sin clave API	con clave API	con clave API Premium	Latencia media	Recuento de uso de tokens	Solicitud Permitida
API de lector	`https://r.jina.ai`	Convertir URL a texto compatible con LLM	20 RPM	500 RPM	5000 RPM	7.9s	Cuente la cantidad de tokens en la respuesta de salida.	GET/POST
API de lector	`https://s.jina.ai`	Busque en la web y convierta los resultados en texto compatible con LLM		100 RPM	1000 RPM	2.5s	Cada solicitud cuesta una cantidad fija de tokens, a partir de 10000 tokens	GET/POST
Búsqueda profunda	`https://deepsearch.jina.ai/v1/chat/completions`	Razonar, buscar e iterar para encontrar la mejor respuesta.		50 RPM	500 RPM	56.7s	Cuente el número total de tokens en todo el proceso.	POST
API de incrustación	`https://api.jina.ai/v1/embeddings`	Convertir texto/imágenes en vectores de longitud fija		500 RPM & 1,000,000 TPM	2,000 RPM & 5,000,000 TPM	depende del tamaño de entrada	Cuente la cantidad de tokens en la solicitud de entrada.	POST
API de reclasificación	`https://api.jina.ai/v1/rerank`	Clasificar documentos por consulta		500 RPM & 1,000,000 TPM	2,000 RPM & 5,000,000 TPM	depende del tamaño de entrada	Cuente la cantidad de tokens en la solicitud de entrada.	POST
API de clasificador	`https://api.jina.ai/v1/train`	Entrenar un clasificador usando ejemplos etiquetados		20 RPM & 200,000 TPM	60 RPM & 1,000,000 TPM	depende del tamaño de entrada	Los tokens se cuentan como: input_tokens × num_iters	POST
API de clasificador (Disparo cero)	`https://api.jina.ai/v1/classify`	Clasificar las entradas utilizando la clasificación de disparo cero		200 RPM & 500,000 TPM	1,000 RPM & 3,000,000 TPM	depende del tamaño de entrada	Los tokens se cuentan como: input_tokens + label_tokens	POST
API de clasificador (Pocos disparos)	`https://api.jina.ai/v1/classify`	Clasifique las entradas utilizando un clasificador de pocos disparos entrenado		20 RPM & 200,000 TPM	60 RPM & 1,000,000 TPM	depende del tamaño de entrada	Los tokens se cuentan como: input_tokens	POST
API de segmentación	`https://api.jina.ai/v1/segment`	Tokenizar y segmentar textos largos	20 RPM	200 RPM	1,000 RPM	0.3s	El token no se cuenta como uso.	GET/POST

Obtenga su clave API

Contactar con ventas

Preguntas más frecuentes

¿Cuánto cuesta la API Segmenter?

Si no proporciono una clave API, ¿cuál es el límite de velocidad?

Si proporciono una clave API, ¿cuál es el límite de velocidad?

¿Cobrarás los tokens de mi clave API?

¿La API de Segmenter admite varios idiomas?

¿Cuál es la diferencia entre las solicitudes GET y POST?

¿Cuál es la longitud máxima que puedo tokenizar por solicitud?

¿Cómo funciona la función de fragmentación? ¿Se trata de fragmentación semántica?

¿Cómo se manejan tokens especiales como 'endoftext' en la API de Segmenter?

¿La función de chunking admite otros idiomas además del inglés?

¿Cómo obtener mi clave API?

¿Cuál es el límite de velocidad?

Límite de velocidad

Columnas

Producto	Punto final de API	Descripción	Sin clave API	con clave API	con clave API Premium	Latencia media	Recuento de uso de tokens	Solicitud Permitida
API de lector	`https://r.jina.ai`	Convertir URL a texto compatible con LLM	20 RPM	500 RPM	5000 RPM	7.9s	Cuente la cantidad de tokens en la respuesta de salida.	GET/POST
API de lector	`https://s.jina.ai`	Busque en la web y convierta los resultados en texto compatible con LLM		100 RPM	1000 RPM	2.5s	Cada solicitud cuesta una cantidad fija de tokens, a partir de 10000 tokens	GET/POST
Búsqueda profunda	`https://deepsearch.jina.ai/v1/chat/completions`	Razonar, buscar e iterar para encontrar la mejor respuesta.		50 RPM	500 RPM	56.7s	Cuente el número total de tokens en todo el proceso.	POST
API de incrustación	`https://api.jina.ai/v1/embeddings`	Convertir texto/imágenes en vectores de longitud fija		500 RPM & 1,000,000 TPM	2,000 RPM & 5,000,000 TPM	depende del tamaño de entrada	Cuente la cantidad de tokens en la solicitud de entrada.	POST
API de reclasificación	`https://api.jina.ai/v1/rerank`	Clasificar documentos por consulta		500 RPM & 1,000,000 TPM	2,000 RPM & 5,000,000 TPM	depende del tamaño de entrada	Cuente la cantidad de tokens en la solicitud de entrada.	POST
API de clasificador	`https://api.jina.ai/v1/train`	Entrenar un clasificador usando ejemplos etiquetados		20 RPM & 200,000 TPM	60 RPM & 1,000,000 TPM	depende del tamaño de entrada	Los tokens se cuentan como: input_tokens × num_iters	POST
API de clasificador (Disparo cero)	`https://api.jina.ai/v1/classify`	Clasificar las entradas utilizando la clasificación de disparo cero		200 RPM & 500,000 TPM	1,000 RPM & 3,000,000 TPM	depende del tamaño de entrada	Los tokens se cuentan como: input_tokens + label_tokens	POST
API de clasificador (Pocos disparos)	`https://api.jina.ai/v1/classify`	Clasifique las entradas utilizando un clasificador de pocos disparos entrenado		20 RPM & 200,000 TPM	60 RPM & 1,000,000 TPM	depende del tamaño de entrada	Los tokens se cuentan como: input_tokens	POST
API de segmentación	`https://api.jina.ai/v1/segment`	Tokenizar y segmentar textos largos	20 RPM	200 RPM	1,000 RPM	0.3s	El token no se cuenta como uso.	GET/POST

¿Puedo usar la misma clave API para las API de lectura, inserción, reclasificación, clasificación y ajuste?

¿Puedo monitorear el uso del token de mi clave API?

¿Qué debo hacer si olvido mi clave API?

¿Caducan las claves API?

¿Puedo transferir tokens entre claves API?

¿Puedo revocar mi clave API?

¿Por qué la primera solicitud de algunos modelos es lenta?

¿Se utilizan los datos de entrada del usuario para entrenar sus modelos?

¿La facturación se basa en el número de sentencias o solicitudes?

¿Hay una prueba gratuita disponible para nuevos usuarios?

¿Se cobran tokens por solicitudes fallidas?

¿Qué métodos de pago se aceptan?

¿Está disponible la facturación para compras de tokens?