En Jina AI, nuestra misión es proporcionar a los usuarios empresariales soluciones de búsqueda de alta calidad. Para lograrlo, hacemos que nuestros modelos sean accesibles a través de varios canales. Sin embargo, elegir el canal adecuado para tu caso de uso específico puede ser complicado. En esta publicación, te guiaremos a través del proceso de toma de decisiones y analizaremos las ventajas y desventajas, brindándote orientación práctica sobre la mejor manera de acceder a nuestros modelos de búsqueda según tu perfil de usuario y necesidades.
tagModelos de Fundación de Búsqueda de Jina

Nuestros modelos de fundación de búsqueda incluyen:
- Embeddings: Estos convierten información sobre objetos digitales en vectores de embedding, capturando sus características esenciales.
- Rerankers: Estos realizan un análisis semántico profundo de conjuntos de consultas y documentos para mejorar la relevancia de la búsqueda.
- Small language models: Estos incluyen SLM especializados como ReaderLM-v2 para tareas específicas como HTML2Markdown o extracción de información.
En esta publicación, examinaremos diferentes opciones de implementación para jina-embeddings-v3, comparando tres enfoques clave:
- Usando Jina API
- Implementando a través de CSP como AWS SageMaker
- Auto-alojamiento en un clúster de Kubernetes bajo una licencia comercial
La comparación evaluará las implicaciones de costos y ventajas de cada enfoque para ayudarte a determinar la opción más adecuada para tus necesidades.
tagMétricas Clave de Rendimiento
Evaluamos cinco métricas clave de rendimiento en diferentes escenarios de uso:
- Tasa de Éxito de Solicitudes: El porcentaje de solicitudes exitosas al servidor de embedding
- Latencia de Solicitud: El tiempo que tarda el servidor de embedding en procesar y devolver una solicitud
- Rendimiento de Tokens: El número de tokens que el servidor de embedding puede procesar por segundo
- Costo por Token: El costo total de procesamiento por unidad de texto
Para los embeddings de Jina auto-alojados en clústeres de Kubernetes, también examinamos el impacto del batching dinámico. Esta función pone en cola las solicitudes hasta alcanzar el tamaño máximo de lote (8,192 para jina-embeddings-v3) antes de generar embeddings.
Intencionalmente excluimos dos factores significativos de rendimiento de nuestro análisis:
- Auto-escalado: Si bien esto es crucial para implementaciones en la nube con cargas de trabajo variables, su efectividad depende de numerosas variables: eficiencia del hardware, arquitectura de red, latencia y elecciones de implementación. Estas complejidades están más allá de nuestro alcance actual. Ten en cuenta que Jina API incluye escalado automático, y nuestros resultados reflejan esto.
- Cuantización: Si bien esta técnica crea vectores de embedding más pequeños y reduce la transferencia de datos, los principales beneficios provienen de otros componentes del sistema (almacenamiento de datos y cálculos de distancia vectorial) en lugar de la reducción en la transferencia de datos. Ya que nos estamos enfocando en los costos directos de uso del modelo, hemos dejado la cuantización fuera de este análisis.
Finalmente, examinaremos las implicaciones financieras de cada enfoque, considerando tanto los costos totales de propiedad como los gastos por token/por solicitud.
tagConfiguración de Implementación
Evaluamos tres escenarios de implementación y uso con jina-embeddings-v3:
tagUso de Jina API
Todos los modelos de embedding de Jina AI son accesibles a través de Jina API. El acceso funciona con un sistema de tokens prepagados, con un millón de tokens disponibles gratis para pruebas. Evaluamos el rendimiento haciendo llamadas a la API a través de internet desde nuestras oficinas en Alemania.
tagUso de AWS SageMaker
Jina Embeddings v3 está disponible para usuarios de AWS a través de SageMaker. El uso requiere una suscripción de AWS a este modelo. Para código de ejemplo, hemos proporcionado un notebook que muestra cómo suscribirse y usar los modelos de Jina AI con una cuenta de AWS.
Si bien los modelos también están disponibles en Microsoft Azure y Google Cloud Platform, enfocamos nuestras pruebas en AWS. Esperamos un rendimiento similar en otras plataformas. Todas las pruebas se ejecutaron en una instancia ml.g5.xlarge en la región us-east-1.
tagAuto-alojamiento en Kubernetes
Construimos una aplicación FastAPI en Python que carga jina-embeddings-v3 desde HuggingFace usando la biblioteca SentenceTransformer. La aplicación incluye dos endpoints:
/embed: Toma pasajes de texto como entrada y devuelve sus embeddings/health: Proporciona monitoreo básico de salud
Lo implementamos como un servicio de Kubernetes en Amazon's Elastic Kubernetes Service, usando una instancia g5.xlarge en us-east-1.
Con y Sin Batching Dinámico
Probamos el rendimiento en un clúster de Kubernetes en dos configuraciones: Una donde procesaba inmediatamente cada solicitud cuando la recibía, y otra donde usaba batching dinámico. En el caso del batching dinámico, el servicio espera hasta que se recolectan MAX_TOKENS (8192) en una cola, o se alcanza un tiempo límite predefinido de 2 segundos, antes de invocar el modelo y calcular los embeddings. Este enfoque aumenta la utilización de la GPU y reduce la fragmentación de la memoria de la GPU.
Para cada escenario de implementación, realizamos pruebas variando tres parámetros clave:
- Tamaño del lote: Cada solicitud contenía 1, 32 o 128 pasajes de texto para embedding
- Longitud del pasaje: Usamos pasajes de texto que contenían 128, 512 o 1,024 tokens
- Solicitudes concurrentes: Enviamos 1, 5 o 10 solicitudes simultáneamente
tagResultados del Benchmark
La tabla siguiente es un resumen de resultados para cada escenario de uso, promediando todas las configuraciones de las tres variables anteriores.
| Métrica | Jina API | SageMaker | Auto-alojado con Batching |
Auto-alojado Estándar |
|---|---|---|---|---|
| Tasa de Éxito de Solicitudes | 87.6% | 99.9% | 55.7% | 58.3% |
| Latencia (segundos) |
11.4 | 3.9 | 2.7 | 2.6 |
| Latencia Normalizada por Tasa de Éxito (segundos) |
13.0 | 3.9 | 4.9 | 4.4 |
| Rendimiento de Tokens (tokens/segundo) |
13.8K | 15.0K | 2.2K | 2.6K |
| Rendimiento Máximo de Tokens (tokens/segundo) |
63.0K | 32.2K | 10.9K | 10.5K |
| Precio (USD por 1M tokens) |
$0.02 | $0.07 | $0.32 | $0.32 |
tagTasa de Éxito de Solicitudes
Las tasas de éxito en nuestras pruebas varían desde el casi perfecto 99.9% de SageMaker hasta el modesto 56-58% de las soluciones auto-alojadas, destacando por qué la confiabilidad del 100% sigue siendo difícil de alcanzar en sistemas de producción. Tres factores clave contribuyen a esto:
- La inestabilidad de la red causa fallos inevitables incluso en entornos cloud
- La contención de recursos, especialmente la memoria GPU, lleva a fallos de solicitudes bajo carga
- Los límites de tiempo de espera necesarios significan que algunas solicitudes deben fallar para mantener la salud del sistema
tagTasa de Éxito por Tamaño de Lote
Los tamaños de lote grandes frecuentemente causan errores de memoria insuficiente en la configuración auto-alojada de Kubernetes. Sin batching dinámico, todas las solicitudes que contenían 32 o 128 elementos por lote fallaron por esta razón. Incluso con el batching dinámico implementado, la tasa de fallos para lotes grandes siguió siendo significativamente alta.
| Tamaño de Lote | Jina API | SageMaker | Self-Hosted (Dynamic Batching) | Self-Hosted (No Batching) |
|---|---|---|---|---|
| 1 | 100% | 100% | 97.1% | 58.3% |
| 32 | 86.7% | 99.8% | 50.0% | 0.0% |
| 128 | 76.2% | 99.8% | 24.0% | 0.0% |
Si bien este problema podría resolverse fácilmente mediante el auto-escalado, hemos optado por no explorar esa opción aquí. El auto-escalado conduciría a aumentos de costos impredecibles, y sería difícil proporcionar conclusiones prácticas dado el gran número de opciones de configuración de auto-escalado disponibles.
tagTasa de Éxito por Nivel de Concurrencia
La concurrencia — la capacidad de manejar múltiples solicitudes simultáneamente — no tuvo un impacto fuerte ni consistente en las tasas de éxito de las solicitudes en las configuraciones de Kubernetes auto-alojadas, y solo un efecto mínimo en AWS SageMaker, al menos hasta un nivel de concurrencia de 10.
| Concurrencia | Jina API | SageMaker | Self-Hosted (Dynamic Batching) | Self-Hosted (No Batching) |
|---|---|---|---|---|
| 1 | 93.3% | 100% | 57.5% | 58.3% |
| 5 | 85.7% | 100% | 58.3% | 58.3% |
| 10 | 83.8% | 99.6% | 55.3% | 58.3% |
tagTasa de Éxito por Longitud de Token
Los pasajes largos con alto número de tokens afectan tanto a la API de Embedding de Jina como a Kubernetes con batch dinámico de manera similar a los lotes grandes: a medida que aumenta el tamaño, la tasa de fallos aumenta sustancialmente. Sin embargo, mientras que las soluciones auto-alojadas sin batch dinámico casi invariablemente fallan con lotes grandes, tienen un mejor rendimiento con pasajes largos individuales. En cuanto a SageMaker, las longitudes de pasaje largas - al igual que la concurrencia y el tamaño del lote - no tuvieron un impacto notable en las tasas de éxito de las solicitudes.
| Longitud del Pasaje (tokens) | Jina API | SageMaker | Self-Hosted (Dynamic Batching) | Self-Hosted (No Batching) |
|---|---|---|---|---|
| 128 | 100% | 99.8% | 98.7% | 58.3% |
| 512 | 100% | 99.8% | 66.7% | 58.3% |
| 1024 | 99.3% | 100% | 33.3% | 58.3% |
| 8192 | 51.1% | 100% | 29.4% | 58.3% |
tagLatencia de Solicitud
Todas las pruebas de latencia se repitieron cinco veces en niveles de concurrencia de 1, 5 y 10. El tiempo de respuesta es el promedio de cinco intentos. El rendimiento de solicitudes es el inverso del tiempo de respuesta en segundos, multiplicado por la concurrencia.
tagJina API
Los tiempos de respuesta en la API de Jina están principalmente influenciados por el tamaño del lote, independientemente del nivel de concurrencia. Si bien la longitud del pasaje también afecta el rendimiento, su impacto no es directo. Como principio general, las solicitudes que contienen más datos - ya sea a través de tamaños de lote más grandes o pasajes más largos - tardan más en procesarse.
Concurrencia 1:
| Tamaño del Lote | Longitud del pasaje (en tokens) | Tiempo de Respuesta en ms | Rendimiento de Solicitudes (solicitudes/segundo) |
|---|---|---|---|
| 1 | 128 | 801 | 1.25 |
| 1 | 512 | 724 | 1.38 |
| 1 | 1024 | 614 | 1.63 |
| 32 | 128 | 1554 | 0.64 |
| 32 | 512 | 1620 | 0.62 |
| 32 | 1024 | 2283 | 0.44 |
| 128 | 128 | 4441 | 0.23 |
| 128 | 512 | 5430 | 0.18 |
| 128 | 1024 | 6332 | 0.16 |
Concurrencia 5:
| Batch Size | Passage length (in tokens) | Time to Respond in ms | Request Throughput (requests/second) |
|---|---|---|---|
| 1 | 128 | 689 | 7.26 |
| 1 | 512 | 599 | 8.35 |
| 1 | 1024 | 876 | 5.71 |
| 32 | 128 | 1639 | 3.05 |
| 32 | 512 | 2511 | 1.99 |
| 32 | 1024 | 4728 | 1.06 |
| 128 | 128 | 2766 | 1.81 |
| 128 | 512 | 5911 | 0.85 |
| 128 | 1024 | 18621 | 0.27 |
Concurrencia 10:
| Batch Size | Passage length (in tokens) | Time to Respond in ms | Request Throughput (requests/second) |
|---|---|---|---|
| 1 | 128 | 790 | 12.66 |
| 1 | 512 | 669 | 14.94 |
| 1 | 1024 | 649 | 15.41 |
| 32 | 128 | 1384 | 7.23 |
| 32 | 512 | 3409 | 2.93 |
| 32 | 1024 | 8484 | 1.18 |
| 128 | 128 | 3441 | 2.91 |
| 128 | 512 | 13070 | 0.77 |
| 128 | 1024 | 17886 | 0.56 |
Para solicitudes individuales (batch size de 1):
- Los tiempos de respuesta se mantienen relativamente estables, entre 600-800ms, independientemente de la longitud del pasaje
- Una mayor concurrencia (5 o 10 solicitudes simultáneas) no degrada significativamente el rendimiento por solicitud
Para lotes más grandes (32 y 128 elementos):
- Los tiempos de respuesta aumentan sustancialmente, con un batch size de 128 tomando aproximadamente 4-6 veces más que las solicitudes individuales
- El impacto de la longitud del pasaje se vuelve más pronunciado con lotes más grandes
- Con alta concurrencia (10) y lotes grandes (128), la combinación lleva a tiempos de respuesta significativamente más largos, alcanzando casi 18 segundos para los pasajes más extensos
Para el rendimiento:
- Los lotes más pequeños generalmente logran mejor rendimiento al ejecutar solicitudes concurrentes
- Con concurrencia 10 y batch size 1, el sistema alcanza su mayor rendimiento de aproximadamente 15 solicitudes/segundo
- Los lotes más grandes muestran consistentemente menor rendimiento, cayendo a menos de 1 solicitud/segundo en varios escenarios
tagAWS SageMaker
Las pruebas de AWS SageMaker se realizaron con una instancia ml.g5.xlarge.
Concurrencia 1:
| Batch Size | Passage length (in tokens) | Time to Respond in ms | Request Throughput (requests/second) |
|---|---|---|---|
| 1 | 128 | 189 | 5.28 |
| 1 | 512 | 219 | 4.56 |
| 1 | 1024 | 221 | 4.53 |
| 32 | 128 | 377 | 2.66 |
| 32 | 512 | 3931 | 0.33 |
| 32 | 1024 | 2215 | 0.45 |
| 128 | 128 | 1120 | 0.89 |
| 128 | 512 | 3408 | 0.29 |
| 128 | 1024 | 5765 | 0.17 |
Concurrencia 5:
| Batch Size | Passage length (in tokens) | Time to Respond in ms | Request Throughput (requests/second) |
|---|---|---|---|
| 1 | 128 | 443 | 11.28 |
| 1 | 512 | 426 | 11.74 |
| 1 | 1024 | 487 | 10.27 |
| 32 | 128 | 1257 | 3.98 |
| 32 | 512 | 2245 | 2.23 |
| 32 | 1024 | 4159 | 1.20 |
| 128 | 128 | 2444 | 2.05 |
| 128 | 512 | 6967 | 0.72 |
| 128 | 1024 | 14438 | 0.35 |
Concurrencia 10:
| Batch Size | Passage length (in tokens) | Time to Respond in ms | Request Throughput (requests/second) |
|---|---|---|---|
| 1 | 128 | 585 | 17.09 |
| 1 | 512 | 602 | 16.60 |
| 1 | 1024 | 687 | 14.56 |
| 32 | 128 | 1650 | 6.06 |
| 32 | 512 | 3555 | 2.81 |
| 32 | 1024 | 7070 | 1.41 |
| 128 | 128 | 3867 | 2.59 |
| 128 | 512 | 12421 | 0.81 |
| 128 | 1024 | 25989 | 0.38 |
Diferencias clave vs Jina API:
- Rendimiento Base: SageMaker es significativamente más rápido para solicitudes pequeñas (elementos individuales, pasajes cortos) - alrededor de 200ms vs 700-800ms para Jina.
- Comportamiento de Escalado:
- Ambos servicios se ralentizan con lotes más grandes y pasajes más largos
- SageMaker muestra una desaceleración más dramática con lotes grandes (128) y pasajes largos (1024 tokens)
- Con alta concurrencia (10) con carga máxima (batch 128, 1024 tokens), SageMaker toma ~26s vs ~18s de Jina
- Impacto de la Concurrencia:
- Ambos servicios se benefician de una mayor concurrencia para el rendimiento
- Ambos mantienen patrones de rendimiento similares a través de los niveles de concurrencia
- SageMaker alcanza un rendimiento máximo ligeramente superior (17 req/s vs 15 req/s) con concurrencia 10
tagClúster Kubernetes Auto-Alojado
Las pruebas de auto-alojamiento se realizaron en el Elastic Kubernetes Service de Amazon con una instancia g5.xlarge.
Concurrencia 1:
| Batch Size | Passage length (tokens) | No Batching Time (ms) | No Batching Throughput (req/s) | Dynamic Time (ms) | Dynamic Throughput (req/s) |
|---|---|---|---|---|---|
| 1 | 128 | 416 | 2.40 | 2389 | 0.42 |
| 1 | 512 | 397 | 2.52 | 2387 | 0.42 |
| 1 | 1024 | 396 | 2.52 | 2390 | 0.42 |
| 32 | 128 | 1161 | 0.86 | 3059 | 0.33 |
| 32 | 512 | 1555 | 0.64 | 1496 | 0.67 |
| 128 | 128 | 2424 | 0.41 | 2270 | 0.44 |
Concurrencia 5:
| Batch Size | Passage length (tokens) | No Batching Time (ms) | No Batching Throughput (req/s) | Dynamic Time (ms) | Dynamic Throughput (req/s) |
|---|---|---|---|---|---|
| 1 | 128 | 451 | 11.08 | 2401 | 2.08 |
| 1 | 512 | 453 | 11.04 | 2454 | 2.04 |
| 1 | 1024 | 478 | 10.45 | 2520 | 1.98 |
| 32 | 128 | 1447 | 3.46 | 1631 | 3.06 |
| 32 | 512 | 2867 | 1.74 | 2669 | 1.87 |
| 128 | 128 | 4154 | 1.20 | 4026 | 1.24 |
Concurrencia 10:
| Batch Size | Passage length (tokens) | No Batching Time (ms) | No Batching Throughput (req/s) | Dynamic Time (ms) | Dynamic Throughput (req/s) |
|---|---|---|---|---|---|
| 1 | 128 | 674 | 14.84 | 2444 | 4.09 |
| 1 | 512 | 605 | 16.54 | 2498 | 4.00 |
| 1 | 1024 | 601 | 16.64 | 781* | 12.80 |
| 32 | 128 | 2089 | 4.79 | 2200 | 4.55 |
| 32 | 512 | 5005 | 2.00 | 4450 | 2.24 |
| 128 | 128 | 7331 | 1.36 | 7127 | 1.40 |
Cuando se recibieron solicitudes con más de 16,384 tokens, nuestra configuración auto-alojada falló con errores del servidor, típicamente por falta de memoria. Esto fue cierto independientemente de los niveles de concurrencia. Como resultado, no se muestran pruebas con más datos que eso.
La alta concurrencia aumentó los tiempos de respuesta de manera aproximadamente lineal: los niveles de concurrencia de 5 tardaron aproximadamente cinco veces más en responder que 1. Niveles de 10, diez veces más.
El procesamiento por lotes dinámico ralentiza los tiempos de respuesta en aproximadamente dos segundos para lotes pequeños. Esto es esperado porque la cola de procesamiento espera 2 segundos antes de procesar un lote incompleto. Sin embargo, para tamaños de lote más grandes, aporta mejoras moderadas en el tiempo de respuesta.
tagRendimiento de Tokens
El rendimiento de tokens aumenta con tamaños de lote más grandes, longitudes de pasaje más largas y niveles de concurrencia más altos en todas las plataformas. Por lo tanto, solo presentaremos resultados en niveles de uso alto, ya que los niveles más bajos no proporcionarían una indicación significativa del rendimiento en el mundo real.
Todas las pruebas se realizaron con un nivel de concurrencia de 10, con 16,384 tokens por solicitud, promediado sobre cinco solicitudes. Probamos dos configuraciones: tamaño de lote 32 con pasajes de 512 tokens, y tamaño de lote 128 con pasajes de 128 tokens. El número total de tokens permanece constante en ambas configuraciones.
Rendimiento de tokens (tokens por segundo):
| Batch Size | Passage length (tokens) | Jina API | SageMaker | Self-Hosted (No Batching) | Self-Hosted (Dynamic Batching) |
|---|---|---|---|---|---|
| 32 | 512 | 46K | 28.5K | 14.3K | 16.1K |
| 128 | 128 | 42.3K | 27.6K | 9.7K | 10.4K |
Bajo condiciones de alta carga, la API de Jina supera significativamente a las alternativas, mientras que las soluciones auto-alojadas probadas aquí muestran un rendimiento sustancialmente menor.
tagCostos Por Millón de Tokens
El costo es posiblemente el factor más crítico al elegir una solución de embedding. Si bien calcular los costos de modelos de IA puede ser complejo, aquí hay un análisis comparativo de diferentes opciones:
| Service Type | Cost per Million Tokens | Infrastructure Cost | License Cost | Total Hourly Cost |
|---|---|---|---|---|
| Jina API | $0.018-0.02 | N/A | N/A | N/A |
| SageMaker (US East) | $0.0723 | $1.408/hour | $2.50/hour | $3.908/hour |
| SageMaker (EU) | $0.0788 | $1.761/hour | $2.50/hour | $4.261/hour |
| Self-Hosted (US East) | $0.352 | $1.006/hour | $2.282/hour | $3.288/hour |
| Self-Hosted (EU) | $0.379 | $1.258/hour | $2.282/hour | $3.540/hour |
tagJina API
El servicio sigue un modelo de precios basado en tokens con dos niveles prepagados:
- 0.02 por millón) - Una tarifa de entrada ideal para prototipado y desarrollo
- 0.018 por millón) - Una tarifa más económica para volúmenes mayores
Vale la pena mencionar que estos tokens funcionan en toda la suite de productos de Jina, incluyendo lectores, reordenadores y clasificadores zero-shot.
tagAWS SageMaker
Los precios de SageMaker combinan los costos por hora de la instancia con las tarifas de licencia del modelo. Usando una instancia ml.g5.xlarge:
- Costo de instancia: 1.761/hora (Frankfurt UE)
- Licencia de jina-embeddings-v3: $2.50/hora
- Costo total por hora: 4.261 dependiendo de la región
Con un rendimiento promedio de 15,044 tokens/segundo (54.16M tokens/hora), el costo por millón de tokens varía entre 0.0788.
tagAutoalojamiento con Kubernetes
Los costos de autoalojamiento varían significativamente según la elección de infraestructura. Usando la instancia g5.xlarge de AWS EC2 como referencia:
- Costo de instancia: 1.258/hora (Frankfurt UE)
- Licencia de jina-embeddings-v3: 2.282/hora)
- Costo total por hora: 3.540 dependiendo de la región
A 2,588 tokens/segundo (9.32M tokens/hora), el costo por millón de tokens es de 0.379. Si bien la tarifa por hora es menor que SageMaker, el rendimiento reducido resulta en costos más altos por token.
Consideraciones importantes para el autoalojamiento:
- Los costos fijos (licencias, infraestructura) continúan independientemente del uso
- El alojamiento local aún requiere tarifas de licencia y costos de personal
- Las cargas de trabajo variables pueden impactar significativamente la eficiencia de costos
tagConclusiones Principales
La API de Jina emerge como la solución más rentable, incluso sin considerar los tiempos de inicio en frío y asumiendo un rendimiento óptimo para las alternativas.
El autoalojamiento podría tener sentido para organizaciones con infraestructura robusta existente donde los costos marginales del servidor son mínimos. Además, explorar proveedores en la nube más allá de AWS podría ofrecer mejores precios.
Sin embargo, para la mayoría de las empresas, especialmente las PYMES que buscan soluciones llave en mano, la API de Jina ofrece una eficiencia de costos inigualable.
tagConsideraciones de Seguridad y Privacidad de Datos
Al elegir una estrategia de implementación para modelos de embedding, los requisitos de seguridad y privacidad de datos pueden jugar un papel decisivo junto con las consideraciones de rendimiento y costo. Ofrecemos opciones de implementación flexibles para adaptarse a diferentes necesidades de seguridad:
tagProveedores de Servicios en la Nube
Para empresas que ya trabajan con principales proveedores de la nube, nuestras ofertas en el marketplace de la nube (como AWS Marketplace, Azure, y GCP) proporcionan una solución natural para la implementación dentro de marcos de seguridad preexistentes. Estas implementaciones se benefician de:
- Controles de seguridad y cumplimiento heredados de su relación con el CSP
- Integración lista con políticas de seguridad existentes y reglas de gobierno de datos
- Requiere poco o ningún cambio en los acuerdos existentes de procesamiento de datos
- Alineación con consideraciones preexistentes de soberanía de datos
tagAutoalojamiento e Implementación Local
Las organizaciones con requisitos estrictos de seguridad u obligaciones regulatorias específicas a menudo prefieren el control físico completo sobre su infraestructura. Nuestra opción de autoalojamiento permite:
- Control total sobre el entorno de implementación
- Procesamiento de datos completamente dentro de su perímetro de seguridad
- Integración con el monitoreo y controles de seguridad existentes
Para obtener licencias comerciales para nuestros modelos CC-BY-NC, primero necesita obtener una licencia de nosotros. No dude en contactar a nuestro equipo de ventas.
tagServicio de API de Jina
Para startups y PYMES que intentan equilibrar la seguridad y la conveniencia frente a los costos, nuestro servicio de API proporciona seguridad de nivel empresarial sin agregar sobrecarga operativa:
- Certificación SOC2 que garantiza controles de seguridad robustos
- Cumplimiento total del GDPR para el procesamiento de datos
- Política de retención cero de datos - no almacenamos ni registramos sus solicitudes
- Transmisión de datos encriptada e infraestructura segura
Las ofertas de modelos de Jina AI permiten a las organizaciones elegir la estrategia de implementación que mejor se alinee con sus requisitos de seguridad mientras mantienen la eficiencia operativa.
tagEligiendo Tu Solución
El diagrama de flujo a continuación resume los resultados de todas las pruebas empíricas y tablas que has visto:

Primero, considera tus necesidades de seguridad y cuánta flexibilidad puedes sacrificar para cumplirlas.
Luego, considera cómo planeas usar la IA en tu empresa:
- Indexación offline y casos de uso no sensibles al tiempo que pueden usar procesamiento por lotes de manera óptima.
- Usos sensibles a la confiabilidad y escalabilidad como la generación aumentada por recuperación e integración con LLM.
- Usos sensibles al tiempo como búsqueda y recuperación en línea.
También, considera tu experiencia interna e infraestructura existente:
- ¿Tu stack tecnológico ya depende en gran medida de la nube?
- ¿Tienes una gran operación de TI interna capaz de autoalojamiento?
Por último, considera tus volúmenes de datos esperados. ¿Eres un usuario a gran escala que espera realizar millones de operaciones usando modelos de IA cada día?
tagConclusión
La integración de IA en las decisiones operativas sigue siendo territorio inexplorado para muchos departamentos de TI, ya que el mercado carece de soluciones llave en mano establecidas. Esta incertidumbre puede hacer que la planificación estratégica sea desafiante. Nuestro análisis cuantitativo tiene como objetivo proporcionar una guía concreta sobre cómo incorporar nuestros modelos de base de búsqueda en tus flujos de trabajo y aplicaciones específicas.
En cuanto al costo por unidad, la API de Jina se destaca como una de las opciones más económicas disponibles para las empresas. Pocas alternativas pueden igualar nuestro precio mientras ofrecen funcionalidad comparable.
Estamos comprometidos a ofrecer capacidades de búsqueda que no solo sean potentes y fáciles de usar, sino también rentables para organizaciones de todos los tamaños. Ya sea a través de los principales proveedores de la nube o implementaciones autoalojadas, nuestras soluciones se adaptan incluso a los requisitos empresariales más complejos que van más allá de las consideraciones puramente de costo. Este análisis desglosa los diversos factores de costo para ayudar a informar tu toma de decisiones.
Dado que cada organización tiene sus propios requisitos únicos, reconocemos que un solo artículo no puede abordar todos los escenarios. Si tienes necesidades específicas no cubiertas aquí, no dudes en contactarnos para discutir cómo podemos apoyar mejor tu implementación.









