In Jina AI, la nostra missione è fornire agli utenti aziendali soluzioni di ricerca di alta qualità. Per raggiungere questo obiettivo, rendiamo i nostri modelli accessibili attraverso vari canali. Tuttavia, scegliere il canale giusto per il proprio caso d'uso specifico può essere complesso. In questo articolo, vi guideremo attraverso il processo decisionale e analizzeremo i compromessi, fornendovi una guida pratica sul modo migliore per accedere ai nostri modelli di ricerca fondamentali in base al vostro profilo utente e alle vostre esigenze.
tagModelli di Ricerca Fondamentali Jina

I nostri modelli di ricerca fondamentali includono:
- Embeddings: Questi convertono le informazioni sugli oggetti digitali in vettori di embedding, catturando le loro caratteristiche essenziali.
- Rerankers: Questi eseguono un'analisi semantica approfondita degli insiemi query-documento per migliorare la rilevanza della ricerca.
- Small language models: Questi includono SLM specializzati come ReaderLM-v2 per compiti specifici come HTML2Markdown o l'estrazione di informazioni.
In questo articolo, esamineremo diverse opzioni di deployment per jina-embeddings-v3, confrontando tre approcci chiave:
- Utilizzare Jina API
- Deployment tramite CSP come AWS SageMaker
- Self-hosting su un cluster Kubernetes con licenza commerciale
Il confronto valuterà le implicazioni di costo e i vantaggi di ogni approccio per aiutarti a determinare l'opzione più adatta alle tue esigenze.
tagMetriche di Performance Chiave
Abbiamo valutato cinque metriche di performance chiave in diversi scenari di utilizzo:
- Tasso di Successo delle Richieste: La percentuale di richieste riuscite al server di embedding
- Latenza delle Richieste: Il tempo impiegato dal server di embedding per elaborare e restituire una richiesta
- Throughput dei Token: Il numero di token che il server di embedding può elaborare al secondo
- Costo per Token: Il costo totale di elaborazione per unità di testo
Per gli embedding Jina auto-ospitati su cluster Kubernetes, abbiamo anche esaminato l'impatto del dynamic batching. Questa funzionalità mette in coda le richieste fino al raggiungimento della dimensione massima del batch (8.192 per jina-embeddings-v3) prima di generare gli embedding.
Abbiamo intenzionalmente escluso due fattori di performance significativi dalla nostra analisi:
- Auto-scaling: Sebbene questo sia cruciale per i deployment cloud con carichi di lavoro variabili, la sua efficacia dipende da numerose variabili—efficienza hardware, architettura di rete, latenza e scelte di implementazione. Queste complessità vanno oltre il nostro attuale ambito. Nota che Jina API include lo scaling automatico e i nostri risultati lo riflettono.
- Quantization: Mentre questa tecnica crea vettori di embedding più piccoli e riduce il trasferimento dati, i principali benefici derivano da altri componenti del sistema (archiviazione dati e calcoli della distanza vettoriale) piuttosto che dalla riduzione del trasferimento dati. Poiché ci stiamo concentrando sui costi di utilizzo diretto del modello, abbiamo lasciato fuori la quantization da questa analisi.
Infine, esamineremo le implicazioni finanziarie di ogni approccio, considerando sia i costi totali di proprietà che le spese per token/richiesta.
tagSetup del Deployment
Abbiamo valutato tre scenari di deployment e utilizzo con jina-embeddings-v3:
tagUtilizzo di Jina API
Tutti i modelli di embedding di Jina AI sono accessibili tramite Jina API. L'accesso funziona con un sistema di token prepagati, con un milione di token gratuiti disponibili per i test. Abbiamo valutato le prestazioni effettuando chiamate API via Internet dai nostri uffici in Germania.
tagUtilizzo di AWS SageMaker
Jina Embeddings v3 è disponibile per gli utenti AWS tramite SageMaker. L'utilizzo richiede un abbonamento AWS a questo modello. Per il codice di esempio, abbiamo fornito un notebook che mostra come sottoscrivere e utilizzare i modelli Jina AI con un account AWS.
Mentre i modelli sono disponibili anche su Microsoft Azure e Google Cloud Platform, abbiamo concentrato i nostri test su AWS. Ci aspettiamo prestazioni simili su altre piattaforme. Tutti i test sono stati eseguiti su un'istanza ml.g5.xlarge
nella regione us-east-1
.
tagSelf-Hosting su Kubernetes
Abbiamo sviluppato un'applicazione FastAPI in Python che carica jina-embeddings-v3 da HuggingFace utilizzando la libreria SentenceTransformer
. L'app include due endpoint:
/embed
: Prende passaggi di testo come input e restituisce i loro embedding/health
: Fornisce monitoraggio di base della salute
L'abbiamo implementato come servizio Kubernetes su Amazon Elastic Kubernetes Service, utilizzando un'istanza g5.xlarge
in us-east-1
.
Con e Senza Dynamic Batching
Abbiamo testato le prestazioni in un cluster Kubernetes in due configurazioni: Una dove elaborava immediatamente ogni richiesta quando la riceveva, e una dove utilizzava il dynamic batching. Nel caso del dynamic batching, il servizio attende fino a quando MAX_TOKENS
(8192) sono raccolti in una coda, o viene raggiunto un timeout predefinito di 2 secondi, prima di invocare il modello e calcolare gli embedding. Questo approccio aumenta l'utilizzo della GPU e riduce la frammentazione della memoria GPU.
Per ogni scenario di deployment, abbiamo eseguito test variando tre parametri chiave:
- Dimensione del batch: Ogni richiesta conteneva 1, 32 o 128 passaggi di testo per l'embedding
- Lunghezza del passaggio: Abbiamo utilizzato passaggi di testo contenenti 128, 512 o 1.024 token
- Richieste concorrenti: Abbiamo inviato 1, 5 o 10 richieste simultaneamente
tagRisultati del Benchmark
La tabella seguente è un riepilogo dei risultati per ogni scenario di utilizzo, mediando su tutte le impostazioni delle tre variabili sopra.
Metrica | Jina API | SageMaker | Self-Hosted con Batching |
Self-Hosted Standard |
---|---|---|---|---|
Tasso di Successo delle Richieste | 87,6% | 99,9% | 55,7% | 58,3% |
Latenza (secondi) |
11,4 | 3,9 | 2,7 | 2,6 |
Latenza Normalizzata per Tasso di Successo (secondi) |
13,0 | 3,9 | 4,9 | 4,4 |
Throughput dei Token (token/secondo) |
13,8K | 15,0K | 2,2K | 2,6K |
Picco di Throughput dei Token (token/secondo) |
63,0K | 32,2K | 10,9K | 10,5K |
Prezzo (USD per 1M token) |
$0,02 | $0,07 | $0,32 | $0,32 |
tagTasso di Successo delle Richieste
I tassi di successo nei nostri test variano dal quasi perfetto 99,9% di SageMaker al modesto 56-58% delle soluzioni self-hosted, evidenziando perché l'affidabilità al 100% rimane sfuggente nei sistemi di produzione. Tre fattori chiave contribuiscono a questo:
- L'instabilità della rete causa inevitabili fallimenti anche in ambienti cloud
- La contesa delle risorse, specialmente della memoria GPU, porta a fallimenti delle richieste sotto carico
- I limiti di timeout necessari significano che alcune richieste devono fallire per mantenere la salute del sistema
tagTasso di Successo per Dimensione del Batch
Le dimensioni grandi dei batch causano frequentemente errori di memoria esaurita nella configurazione Kubernetes self-hosted. Senza dynamic batching, tutte le richieste contenenti 32 o 128 elementi per batch sono fallite per questo motivo. Anche con il dynamic batching implementato, il tasso di fallimento per i batch grandi è rimasto significativamente alto.
Dimensione Batch | Jina API | SageMaker | Self-Hosted (Dynamic Batching) | Self-Hosted (No Batching) |
---|---|---|---|---|
1 | 100% | 100% | 97.1% | 58.3% |
32 | 86.7% | 99.8% | 50.0% | 0.0% |
128 | 76.2% | 99.8% | 24.0% | 0.0% |
Sebbene questo problema potrebbe essere facilmente risolto tramite l'auto-scaling, abbiamo scelto di non esplorare questa opzione. L'auto-scaling porterebbe ad aumenti imprevedibili dei costi e sarebbe difficile fornire indicazioni utili dato il vasto numero di opzioni di configurazione disponibili.
tagTasso di Successo Per Livello di Concorrenza
La concorrenza — la capacità di gestire più richieste simultaneamente — non ha avuto un impatto né forte né costante sui tassi di successo delle richieste nelle configurazioni Kubernetes self-hosted, e solo un effetto minimo su AWS SageMaker, almeno fino a un livello di concorrenza di 10.
Concurrency | Jina API | SageMaker | Self-Hosted (Dynamic Batching) | Self-Hosted (No Batching) |
---|---|---|---|---|
1 | 93.3% | 100% | 57.5% | 58.3% |
5 | 85.7% | 100% | 58.3% | 58.3% |
10 | 83.8% | 99.6% | 55.3% | 58.3% |
tagTasso di Successo Per Lunghezza dei Token
I passaggi lunghi con conteggi elevati di token influenzano sia la Jina Embedding API che Kubernetes con dynamic batching in modo simile ai batch grandi: all'aumentare delle dimensioni, il tasso di fallimento aumenta sostanzialmente. Tuttavia, mentre le soluzioni self-hosted senza dynamic batching falliscono quasi invariabilmente con batch grandi, performano meglio con singoli passaggi lunghi. Per quanto riguarda SageMaker, le lunghezze elevate dei passaggi - come la concorrenza e la dimensione del batch - non hanno avuto un impatto notevole sui tassi di successo delle richieste.
Passage Length (tokens) | Jina API | SageMaker | Self-Hosted (Dynamic Batching) | Self-Hosted (No Batching) |
---|---|---|---|---|
128 | 100% | 99.8% | 98.7% | 58.3% |
512 | 100% | 99.8% | 66.7% | 58.3% |
1024 | 99.3% | 100% | 33.3% | 58.3% |
8192 | 51.1% | 100% | 29.4% | 58.3% |
tagLatenza delle Richieste
Tutti i test di latenza sono stati ripetuti cinque volte a livelli di concorrenza di 1, 5 e 10. Il tempo di risposta è la media su cinque tentativi. Il throughput delle richieste è l'inverso del tempo di risposta in secondi, moltiplicato per la concorrenza.
tagJina API
I tempi di risposta nella Jina API sono principalmente influenzati dalla dimensione del batch, indipendentemente dal livello di concorrenza. Mentre la lunghezza del passaggio influisce anche sulle prestazioni, il suo impatto non è lineare. Come principio generale, le richieste contenenti più dati - sia attraverso dimensioni di batch maggiori che passaggi più lunghi - richiedono più tempo per essere elaborate.
Concorrenza 1:
Batch Size | Passage length (in tokens) | Time to Respond in ms | Request Throughput (requests/second) |
---|---|---|---|
1 | 128 | 801 | 1.25 |
1 | 512 | 724 | 1.38 |
1 | 1024 | 614 | 1.63 |
32 | 128 | 1554 | 0.64 |
32 | 512 | 1620 | 0.62 |
32 | 1024 | 2283 | 0.44 |
128 | 128 | 4441 | 0.23 |
128 | 512 | 5430 | 0.18 |
128 | 1024 | 6332 | 0.16 |
Concurrency 5:
Batch Size | Passage length (in tokens) | Time to Respond in ms | Request Throughput (requests/second) |
---|---|---|---|
1 | 128 | 689 | 7.26 |
1 | 512 | 599 | 8.35 |
1 | 1024 | 876 | 5.71 |
32 | 128 | 1639 | 3.05 |
32 | 512 | 2511 | 1.99 |
32 | 1024 | 4728 | 1.06 |
128 | 128 | 2766 | 1.81 |
128 | 512 | 5911 | 0.85 |
128 | 1024 | 18621 | 0.27 |
Concurrency 10:
Batch Size | Passage length (in tokens) | Time to Respond in ms | Request Throughput (requests/second) |
---|---|---|---|
1 | 128 | 790 | 12.66 |
1 | 512 | 669 | 14.94 |
1 | 1024 | 649 | 15.41 |
32 | 128 | 1384 | 7.23 |
32 | 512 | 3409 | 2.93 |
32 | 1024 | 8484 | 1.18 |
128 | 128 | 3441 | 2.91 |
128 | 512 | 13070 | 0.77 |
128 | 1024 | 17886 | 0.56 |
Per le richieste individuali (batch size di 1):
- I tempi di risposta rimangono relativamente stabili, variando da circa 600-800ms, indipendentemente dalla lunghezza del passaggio
- Una maggiore concorrenza (5 o 10 richieste simultanee) non degrada significativamente le prestazioni per singola richiesta
Per batch più grandi (32 e 128 elementi):
- I tempi di risposta aumentano sostanzialmente, con batch size di 128 che richiede circa 4-6 volte più tempo rispetto alle singole richieste
- L'impatto della lunghezza del passaggio diventa più pronunciato con batch più grandi
- Con alta concorrenza (10) e batch grandi (128), la combinazione porta a tempi di risposta significativamente più lunghi, raggiungendo quasi 18 secondi per i passaggi più lunghi
Per il throughput:
- Batch più piccoli generalmente ottengono un throughput migliore quando eseguono richieste concorrenti
- Con concorrenza 10 e batch size 1, il sistema raggiunge il suo throughput massimo di circa 15 richieste/secondo
- Batch più grandi mostrano costantemente un throughput inferiore, scendendo a meno di 1 richiesta/secondo in diversi scenari
tagAWS SageMaker
I test AWS SageMaker sono stati eseguiti con un'istanza ml.g5.xlarge
.
Concurrency 1:
Batch Size | Passage length (in tokens) | Time to Respond in ms | Request Throughput (requests/second) |
---|---|---|---|
1 | 128 | 189 | 5.28 |
1 | 512 | 219 | 4.56 |
1 | 1024 | 221 | 4.53 |
32 | 128 | 377 | 2.66 |
32 | 512 | 3931 | 0.33 |
32 | 1024 | 2215 | 0.45 |
128 | 128 | 1120 | 0.89 |
128 | 512 | 3408 | 0.29 |
128 | 1024 | 5765 | 0.17 |
Concurrency 5:
Batch Size | Passage length (in tokens) | Time to Respond in ms | Request Throughput (requests/second) |
---|---|---|---|
1 | 128 | 443 | 11.28 |
1 | 512 | 426 | 11.74 |
1 | 1024 | 487 | 10.27 |
32 | 128 | 1257 | 3.98 |
32 | 512 | 2245 | 2.23 |
32 | 1024 | 4159 | 1.20 |
128 | 128 | 2444 | 2.05 |
128 | 512 | 6967 | 0.72 |
128 | 1024 | 14438 | 0.35 |
Concurrency 10:
Batch Size | Passage length (in tokens) | Time to Respond in ms | Request Throughput (requests/second) |
---|---|---|---|
1 | 128 | 585 | 17.09 |
1 | 512 | 602 | 16.60 |
1 | 1024 | 687 | 14.56 |
32 | 128 | 1650 | 6.06 |
32 | 512 | 3555 | 2.81 |
32 | 1024 | 7070 | 1.41 |
128 | 128 | 3867 | 2.59 |
128 | 512 | 12421 | 0.81 |
128 | 1024 | 25989 | 0.38 |
Differenze principali rispetto all'API Jina:
- Prestazioni di base: SageMaker è significativamente più veloce per richieste piccole (singoli elementi, passaggi brevi) - circa 200ms contro 700-800ms per Jina.
- Comportamento in scala:
- Entrambi i servizi rallentano con batch più grandi e passaggi più lunghi
- SageMaker mostra un rallentamento più drastico con batch grandi (128) e passaggi lunghi (1024 token)
- Con alta concorrenza (10) e carico massimo (batch 128, 1024 token), SageMaker impiega ~26s contro i ~18s di Jina
- Impatto della concorrenza:
- Entrambi i servizi beneficiano dell'aumentata concorrenza per il throughput
- Entrambi mantengono pattern di throughput simili attraverso i livelli di concorrenza
- SageMaker raggiunge un throughput di picco leggermente superiore (17 req/s vs 15 req/s) con concorrenza 10
tagCluster Kubernetes Self-Hosted
I test self-hosting sono stati eseguiti su Amazon's Elastic Kubernetes Service con un'istanza g5.xlarge
.
Concorrenza 1:
Batch Size | Lunghezza passaggio (token) | No Batching Tempo (ms) | No Batching Throughput (req/s) | Dynamic Tempo (ms) | Dynamic Throughput (req/s) |
---|---|---|---|---|---|
1 | 128 | 416 | 2.40 | 2389 | 0.42 |
1 | 512 | 397 | 2.52 | 2387 | 0.42 |
1 | 1024 | 396 | 2.52 | 2390 | 0.42 |
32 | 128 | 1161 | 0.86 | 3059 | 0.33 |
32 | 512 | 1555 | 0.64 | 1496 | 0.67 |
128 | 128 | 2424 | 0.41 | 2270 | 0.44 |
Concorrenza 5:
Batch Size | Lunghezza passaggio (token) | No Batching Tempo (ms) | No Batching Throughput (req/s) | Dynamic Tempo (ms) | Dynamic Throughput (req/s) |
---|---|---|---|---|---|
1 | 128 | 451 | 11.08 | 2401 | 2.08 |
1 | 512 | 453 | 11.04 | 2454 | 2.04 |
1 | 1024 | 478 | 10.45 | 2520 | 1.98 |
32 | 128 | 1447 | 3.46 | 1631 | 3.06 |
32 | 512 | 2867 | 1.74 | 2669 | 1.87 |
128 | 128 | 4154 | 1.20 | 4026 | 1.24 |
Concorrenza 10:
Batch Size | Lunghezza passaggio (token) | No Batching Tempo (ms) | No Batching Throughput (req/s) | Dynamic Tempo (ms) | Dynamic Throughput (req/s) |
---|---|---|---|---|---|
1 | 128 | 674 | 14.84 | 2444 | 4.09 |
1 | 512 | 605 | 16.54 | 2498 | 4.00 |
1 | 1024 | 601 | 16.64 | 781* | 12.80 |
32 | 128 | 2089 | 4.79 | 2200 | 4.55 |
32 | 512 | 5005 | 2.00 | 4450 | 2.24 |
128 | 128 | 7331 | 1.36 | 7127 | 1.40 |
Quando vengono fornite richieste con più di 16.384 token, la nostra configurazione self-hosted fallisce con errori del server, tipicamente errori di memoria insufficiente. Questo è vero indipendentemente dai livelli di concorrenza. Di conseguenza, non vengono visualizzati test con più dati di quello.
L'alta concorrenza ha aumentato i tempi di risposta in modo ampiamente lineare: i livelli di concorrenza di 5 hanno impiegato circa cinque volte più tempo per rispondere rispetto a 1. Livelli di 10, dieci volte di più.
Il batching dinamico rallenta i tempi di risposta di circa due secondi per batch piccoli. Questo è previsto perché la coda di batching attende 2 secondi prima di elaborare un batch non pieno. Tuttavia, per dimensioni di batch maggiori, porta a moderati miglioramenti nel tempo di risposta.
tagThroughput dei Token
Il throughput dei token aumenta con dimensioni di batch maggiori, lunghezze dei passaggi più lunghe e livelli di concorrenza più elevati su tutte le piattaforme. Pertanto, presenteremo solo i risultati a livelli di utilizzo elevati, poiché i livelli inferiori non fornirebbero un'indicazione significativa delle prestazioni nel mondo reale.
Tutti i test sono stati condotti con un livello di concorrenza di 10, con 16.384 token per richiesta, mediati su cinque richieste. Abbiamo testato due configurazioni: dimensione batch 32 con passaggi da 512 token e dimensione batch 128 con passaggi da 128 token. Il numero totale di token rimane costante in entrambe le configurazioni.
Throughput dei token (token al secondo):
Batch Size | Lunghezza passaggio (token) | Jina API | SageMaker | Self-Hosted (No Batching) | Self-Hosted (Dynamic Batching) |
---|---|---|---|---|---|
32 | 512 | 46K | 28.5K | 14.3K | 16.1K |
128 | 128 | 42.3K | 27.6K | 9.7K | 10.4K |
In condizioni di carico elevato, la Jina API supera significativamente le alternative, mentre le soluzioni self-hosted testate qui mostrano prestazioni sostanzialmente inferiori.
tagCosti Per Milione di Token
Il costo è probabilmente il fattore più critico nella scelta di una soluzione di embedding. Mentre il calcolo dei costi dei modelli AI può essere complesso, ecco un'analisi comparativa delle diverse opzioni:
Tipo di Servizio | Costo per Milione di Token | Costo Infrastruttura | Costo Licenza | Costo Orario Totale |
---|---|---|---|---|
Jina API | $0.018-0.02 | N/A | N/A | N/A |
SageMaker (US East) | $0.0723 | $1.408/ora | $2.50/ora | $3.908/ora |
SageMaker (EU) | $0.0788 | $1.761/ora | $2.50/ora | $4.261/ora |
Self-Hosted (US East) | $0.352 | $1.006/ora | $2.282/ora | $3.288/ora |
Self-Hosted (EU) | $0.379 | $1.258/ora | $2.282/ora | $3.540/ora |
tagJina API
Il servizio segue un modello di prezzo basato sui token con due livelli prepagati:
- 0.02 per milione) - Una tariffa entry-level ideale per prototipazione e sviluppo
- 0.018 per milione) - Una tariffa più economica per volumi maggiori
Vale la pena notare che questi token funzionano su tutta la suite di prodotti Jina, inclusi lettori, reranker e classificatori zero-shot.
tagAWS SageMaker
Il prezzo di SageMaker combina i costi orari dell'istanza con i costi di licenza del modello. Usando un'istanza ml.g5.xlarge
:
- Costo dell'istanza: 1.761/ora (EU Frankfurt)
- Licenza jina-embeddings-v3: $2.50/ora
- Costo orario totale: 4.261 a seconda della regione
Con una velocità media di 15.044 token/secondo (54.16M token/ora), il costo per milione di token varia da 0.0788.
tagSelf-Hosting con Kubernetes
I costi di self-hosting variano significativamente in base alla scelta dell'infrastruttura. Usando come riferimento l'istanza g5.xlarge
di AWS EC2:
- Costo dell'istanza: 1.258/ora (EU Frankfurt)
- Licenza jina-embeddings-v3: 2.282/ora)
- Costo orario totale: 3.540 a seconda della regione
A 2.588 token/secondo (9.32M token/ora), il costo per milione di token arriva a 0.379. Mentre il costo orario è inferiore a SageMaker, la minor velocità comporta costi più alti per token.
Considerazioni importanti per il self-hosting:
- I costi fissi (licenze, infrastruttura) continuano indipendentemente dall'utilizzo
- L'hosting on-premises richiede comunque costi di licenza e di personale
- I carichi di lavoro variabili possono impattare significativamente l'efficienza dei costi
tagPunti Chiave
L'API Jina emerge come la soluzione più conveniente, anche senza considerare i tempi di cold-start e assumendo una velocità ottimale per le alternative.
Il self-hosting potrebbe avere senso per organizzazioni con un'infrastruttura robusta esistente dove i costi marginali dei server sono minimi. Inoltre, esplorare provider cloud diversi da AWS potrebbe portare a prezzi migliori.
Tuttavia, per la maggior parte delle aziende, specialmente le PMI che cercano soluzioni chiavi in mano, l'API Jina offre un'efficienza di costo impareggiabile.
tagConsiderazioni sulla Sicurezza e Privacy dei Dati
Nella scelta di una strategia di deployment per i modelli di embedding, i requisiti di sicurezza e privacy dei dati possono giocare un ruolo decisivo insieme alle considerazioni su prestazioni e costi. Offriamo opzioni di deployment flessibili per soddisfare diverse esigenze di sicurezza:
tagProvider di Servizi Cloud
Per le aziende che già lavorano con i principali provider cloud, le nostre offerte sul marketplace cloud (come AWS Marketplace, Azure, e GCP) forniscono una soluzione naturale per il deployment all'interno dei framework di sicurezza preesistenti. Questi deployment beneficiano di:
- Controlli di sicurezza e conformità ereditati dalla relazione con il CSP
- Integrazione immediata con le politiche di sicurezza esistenti e le regole di governance dei dati
- Richiede poche o nessuna modifica agli accordi esistenti sul trattamento dei dati
- Allineamento con le considerazioni preesistenti sulla sovranità dei dati
tagSelf-Hosting e Deployment Locale
Le organizzazioni con requisiti di sicurezza stringenti o obblighi normativi specifici spesso preferiscono il controllo fisico completo della loro infrastruttura. La nostra opzione self-hosted permette:
- Controllo completo sull'ambiente di deployment
- Elaborazione dei dati interamente all'interno del proprio perimetro di sicurezza
- Integrazione con il monitoraggio di sicurezza e i controlli esistenti
Per ottenere licenze commerciali per i nostri modelli CC-BY-NC, è necessario prima ottenere una licenza da noi. Non esitare a contattare il nostro team commerciale.
tagServizio API Jina
Per startup e PMI che cercano di bilanciare sicurezza e praticità rispetto ai costi, il nostro servizio API fornisce sicurezza di livello enterprise senza aggiungere overhead operativo:
- Certificazione SOC2 che garantisce robusti controlli di sicurezza
- Piena conformità GDPR per il trattamento dei dati
- Politica di zero data retention - non memorizziamo né registriamo le tue richieste
- Trasmissione dati crittografata e infrastruttura sicura
Le offerte di modelli di Jina AI permettono alle organizzazioni di scegliere la strategia di deployment che meglio si allinea con i loro requisiti di sicurezza mantenendo l'efficienza operativa.
tagScegliere la Tua Soluzione
Il diagramma di flusso sottostante riassume i risultati di tutti i test empirici e le tabelle che hai visto:

Prima, considera le tue esigenze di sicurezza e quanta flessibilità puoi sacrificare per soddisfarle.
Poi, considera come pianifichi di utilizzare l'AI nella tua azienda:
- Indicizzazione offline e casi d'uso non time-sensitive che possono utilizzare in modo ottimale l'elaborazione batch.
- Usi sensibili all'affidabilità e alla scalabilità come la generazione aumentata da retrieval e l'integrazione LLM.
- Utilizzi time-sensitive come la ricerca e il retrieval online.
Inoltre, considera la tua esperienza interna e l'infrastruttura esistente:
- Il tuo stack tecnologico è già fortemente dipendente dal cloud?
- Hai una grande operazione IT interna in grado di gestire il self-hosting?
Infine, considera i volumi di dati previsti. Sei un utente su larga scala che prevede di eseguire milioni di operazioni utilizzando modelli AI ogni giorno?
tagConclusione
L'integrazione dell'AI nelle decisioni operative rimane territorio inesplorato per molti dipartimenti IT, poiché il mercato manca di soluzioni chiavi in mano consolidate. Questa incertezza può rendere difficile la pianificazione strategica. La nostra analisi quantitativa mira a fornire una guida concreta sull'incorporazione dei nostri modelli di ricerca nei tuoi specifici flussi di lavoro e applicazioni.
Quando si tratta di costo per unità, l'API Jina si distingue come una delle opzioni più economiche disponibili per le aziende. Poche alternative possono eguagliare il nostro prezzo offrendo funzionalità comparabili.
Siamo impegnati a fornire capacità di ricerca che non sono solo potenti e user-friendly, ma anche convenienti per organizzazioni di tutte le dimensioni. Che sia attraverso i principali provider cloud o deployment self-hosted, le nostre soluzioni soddisfano anche i requisiti aziendali più complessi che vanno oltre le pure considerazioni di costo. Questa analisi scompone i vari fattori di costo per aiutare il tuo processo decisionale.
Dato che ogni organizzazione ha i propri requisiti unici, riconosciamo che un singolo articolo non può affrontare ogni scenario. Se hai esigenze specifiche non coperte qui, contattaci per discutere come possiamo supportare al meglio la tua implementazione.