Disponibile tramite
Scegli i modelli da confrontare
Pubblicazioni (1)
Panoramica
Jina Embeddings v2 Base Chinese apre nuove strade come primo modello open source a gestire senza problemi sia il testo cinese che quello inglese con una lunghezza di contesto di token senza precedenti di 8.192. Questa potenza bilingue affronta una sfida critica nel business globale: la necessità di un'elaborazione accurata e di lunga durata dei documenti nei contenuti in cinese e inglese. A differenza dei modelli tradizionali che hanno difficoltà con la comprensione interlinguistica o richiedono modelli separati per ogni lingua, questo modello mappa significati equivalenti in entrambe le lingue nello stesso spazio di incorporamento, rendendolo inestimabile per le organizzazioni che si espandono a livello globale o gestiscono contenuti multilingue.
Metodi
L'architettura del modello combina un backbone basato su BERT con ALiBi bidirezionale simmetrico (Attention with Linear Biases), consentendo un'elaborazione efficiente di lunghe sequenze senza la tradizionale limitazione di 512 token. Il processo di training segue un approccio in tre fasi attentamente orchestrato: pre-training iniziale su dati bilingue di alta qualità, seguito da fasi di fine-tuning primarie e secondarie. Questa strategia di training metodica, abbinata ai 161M parametri del modello e all'output a 768 dimensioni, raggiunge un'efficienza notevole mantenendo al contempo prestazioni equilibrate in entrambe le lingue. Il meccanismo ALiBi bidirezionale simmetrico rappresenta un'innovazione significativa, consentendo al modello di gestire documenti lunghi fino a 8.192 token, una capacità precedentemente limitata a soluzioni proprietarie.
Prestazione
Nei benchmark della classifica cinese MTEB (C-MTEB), il modello dimostra prestazioni eccezionali tra i modelli inferiori a 0,5 GB, eccellendo in particolare nelle attività in lingua cinese. Supera significativamente il text-embedding-ada-002 di OpenAI nelle applicazioni specifiche per il cinese, mantenendo al contempo prestazioni competitive nelle attività in inglese. Un notevole miglioramento in questa versione è la distribuzione raffinata del punteggio di similarità, che affronta i problemi di inflazione del punteggio presenti nella versione di anteprima. Il modello ora fornisce punteggi di similarità più distinti e logici, garantendo una rappresentazione più accurata delle relazioni semantiche tra i testi. Questo miglioramento è particolarmente evidente nei test comparativi, in cui il modello mostra una discriminazione superiore tra contenuti correlati e non correlati in entrambe le lingue.
Orientamento
Il modello richiede 322 MB di storage e può essere distribuito tramite più canali, tra cui AWS SageMaker (regione us-east-1) e l'API Jina AI. Sebbene l'accelerazione GPU non sia obbligatoria, può migliorare significativamente la velocità di elaborazione per i carichi di lavoro di produzione. Il modello eccelle in varie applicazioni, tra cui analisi di documenti, ricerca multilingue e recupero di informazioni multilinguistiche, ma gli utenti devono notare che è specificamente ottimizzato per scenari bilingue cinese-inglese. Per risultati ottimali, il testo di input deve essere segmentato correttamente e, sebbene il modello possa gestire fino a 8.192 token, si consiglia di suddividere documenti estremamente lunghi in blocchi semanticamente significativi per prestazioni migliori. Il modello potrebbe non essere adatto per attività che richiedono l'elaborazione in tempo reale di testi molto brevi, in cui potrebbero essere più appropriati modelli specializzati a bassa latenza.
Blog che menzionano questo modello