Notizia
Modelli
Prodotti
keyboard_arrow_down
Lettore
Leggi gli URL e cerca sul web per ottenere LLM più approfonditi.
Incorporamenti
Incorporamenti multilingue multimodali di livello mondiale.
Riclassificazione
Recupero neurale di livello mondiale per massimizzare la pertinenza della ricerca.
Ricerca profonda
Cerca, leggi e ragiona finché non trovi la risposta migliore.
Di più
keyboard_arrow_down
Classificatore
Classificazione zero-shot e few-shot per immagini e testo.
Segmentatore
Tagliare il testo lungo in blocchi ed effettuare la tokenizzazione.

Documentazione API
Generazione automatica di codice per il tuo IDE o LLM di Copilot
open_in_new


Azienda
keyboard_arrow_down
Chi siamo
Contatta le vendite
Programma di stagista
Unisciti a noi
open_in_new
Scarica il logo
open_in_new
Termini & Condizioni


Login
login
warning
Questo modello è obsoleto nei modelli più recenti.

jina-embeddings-v2-base-zh

Incorporamenti bilingue cinese-inglese con prestazioni SOTA
Pubblicazione postarrow_forward
Licenza
license
Apache-2.0
Data di rilascio
calendar_month
2024-01-09
Ingresso
abc
Testo
arrow_forward
Produzione
more_horiz
Vettore
Dettagli del modello
Parametri: 161M
Lunghezza del token di input: 8K
Dimensione di uscita: 768
Supporto linguistico
🇺🇸 Inglese
🇨🇳 cinese
Modelli correlati
link
jina-embeddings-v2-base-en
link
jina-embeddings-v3
Etichette
text-embedding
chinese
multilingual
base-model
production
long-context
high-dimension
Disponibile tramite
API di JinaAWS SageMakerMicrosoft AzureFaccia abbracciata
Scegli i modelli da confrontare
Pubblicazioni (1)
arXiv
febbraio 26, 2024
Multi-Task Contrastive Learning for 8192-Token Bilingual Text Embeddings

Panoramica

Jina Embeddings v2 Base Chinese apre nuove strade come primo modello open source a gestire senza problemi sia il testo cinese che quello inglese con una lunghezza di contesto di token senza precedenti di 8.192. Questa potenza bilingue affronta una sfida critica nel business globale: la necessità di un'elaborazione accurata e di lunga durata dei documenti nei contenuti in cinese e inglese. A differenza dei modelli tradizionali che hanno difficoltà con la comprensione interlinguistica o richiedono modelli separati per ogni lingua, questo modello mappa significati equivalenti in entrambe le lingue nello stesso spazio di incorporamento, rendendolo inestimabile per le organizzazioni che si espandono a livello globale o gestiscono contenuti multilingue.

Metodi

L'architettura del modello combina un backbone basato su BERT con ALiBi bidirezionale simmetrico (Attention with Linear Biases), consentendo un'elaborazione efficiente di lunghe sequenze senza la tradizionale limitazione di 512 token. Il processo di training segue un approccio in tre fasi attentamente orchestrato: pre-training iniziale su dati bilingue di alta qualità, seguito da fasi di fine-tuning primarie e secondarie. Questa strategia di training metodica, abbinata ai 161M parametri del modello e all'output a 768 dimensioni, raggiunge un'efficienza notevole mantenendo al contempo prestazioni equilibrate in entrambe le lingue. Il meccanismo ALiBi bidirezionale simmetrico rappresenta un'innovazione significativa, consentendo al modello di gestire documenti lunghi fino a 8.192 token, una capacità precedentemente limitata a soluzioni proprietarie.

Prestazione

Nei benchmark della classifica cinese MTEB (C-MTEB), il modello dimostra prestazioni eccezionali tra i modelli inferiori a 0,5 GB, eccellendo in particolare nelle attività in lingua cinese. Supera significativamente il text-embedding-ada-002 di OpenAI nelle applicazioni specifiche per il cinese, mantenendo al contempo prestazioni competitive nelle attività in inglese. Un notevole miglioramento in questa versione è la distribuzione raffinata del punteggio di similarità, che affronta i problemi di inflazione del punteggio presenti nella versione di anteprima. Il modello ora fornisce punteggi di similarità più distinti e logici, garantendo una rappresentazione più accurata delle relazioni semantiche tra i testi. Questo miglioramento è particolarmente evidente nei test comparativi, in cui il modello mostra una discriminazione superiore tra contenuti correlati e non correlati in entrambe le lingue.

Orientamento

Il modello richiede 322 MB di storage e può essere distribuito tramite più canali, tra cui AWS SageMaker (regione us-east-1) e l'API Jina AI. Sebbene l'accelerazione GPU non sia obbligatoria, può migliorare significativamente la velocità di elaborazione per i carichi di lavoro di produzione. Il modello eccelle in varie applicazioni, tra cui analisi di documenti, ricerca multilingue e recupero di informazioni multilinguistiche, ma gli utenti devono notare che è specificamente ottimizzato per scenari bilingue cinese-inglese. Per risultati ottimali, il testo di input deve essere segmentato correttamente e, sebbene il modello possa gestire fino a 8.192 token, si consiglia di suddividere documenti estremamente lunghi in blocchi semanticamente significativi per prestazioni migliori. Il modello potrebbe non essere adatto per attività che richiedono l'elaborazione in tempo reale di testi molto brevi, in cui potrebbero essere più appropriati modelli specializzati a bassa latenza.
Blog che menzionano questo modello
aprile 29, 2024 • 7 minuti letti
Jina Embeddings e Reranker su Azure: Soluzioni AI Scalabili Pronte per il Business
Jina Embeddings e Rerankers sono ora disponibili su Azure Marketplace. Le aziende che danno priorità alla privacy e alla sicurezza possono ora integrare facilmente i modelli all'avanguardia di Jina AI direttamente nel loro ecosistema Azure esistente.
Susana Guzmán
Futuristic black background with a purple 3D grid, featuring the "Embeddings" and "Reranker" logos with a stylized "A".
febbraio 28, 2024 • 3 minuti letti
Rivoluzionare gli Embedding di Testi Bilingue con l'Apprendimento Contrastivo Multi-Task
Il nostro nuovo articolo esplora come i nostri modelli spagnolo-inglese e tedesco-inglese utilizzano l'apprendimento contrastivo multi-task e una sofisticata pipeline di dati per padroneggiare la comprensione del linguaggio e l'efficienza cross-linguale per testi fino a 8192 token
Jina AI
Composite image of four colorful, stylized landmarks: Brandenburg Gate, St. Peter's Basilica, Tiananmen, and Golden Gate Brid
gennaio 31, 2024 • 16 minuti letti
Un'analisi approfondita della tokenizzazione
La tokenizzazione, nei modelli LLM, significa suddividere i testi di input in parti più piccole per l'elaborazione. Quindi perché gli embedding vengono fatturati per token?
Scott Martens
Colorful speckled grid pattern with a mix of small multicolored dots on a black background, creating a mosaic effect.
gennaio 26, 2024 • 13 minuti letti
I modelli bilingui di Jina Embeddings v2 sono ora open-source su Hugging Face
I modelli di embedding bilingue open-source di Jina AI per tedesco-inglese e cinese-inglese sono ora disponibili su Hugging Face. Vedremo come effettuare l'installazione e il recupero multilingue.
Scott Martens
Colorful "EMBEDDINGS" text above a pile of yellow smileys on a black background with decorative lines at the top.
gennaio 09, 2024 • 12 minuti letti
Embeddings Bilingue a 8K Token Abbattono le Barriere Linguistiche tra Cinese e Inglese
Il primo modello di embedding bilingue cinese-inglese con lunghezza di token di 8192.
Jina AI
Colorful 3D text "OPEN" in green and blue on a black background creating a vibrant effect
Uffici
location_on
Sunnyvale, California
710 Lakeway Dr, Ste 200, Sunnyvale, CA 94085, Stati Uniti
location_on
Berlino, Germania (sede centrale)
Prinzessinnenstraße 19-20, 10969 Berlino, Germania
location_on
Pechino, Cina
Livello 5, Edificio 6, No.48 Haidian West St. Pechino, Cina
location_on
Shenzen, Cina
402 Piano 4, Fu'an Technology Building, Shenzhen, Cina
Fondazione di ricerca
Lettore
Incorporamenti
Riclassificazione
Ricerca profonda
Classificatore
Segmentatore
Documentazione API
Ottieni la chiave API Jina
Limite di velocità
Stato dell'API
Azienda
Chi siamo
Contatta le vendite
Sala stampa
Programma di stagista
Unisciti a noi
open_in_new
Scarica il logo
open_in_new
Termini
Sicurezza
Termini & Condizioni
Privacy
Gestisci i cookie
email
Jina AI © 2020-2025.