Notizia
Modelli
Prodotti
keyboard_arrow_down
Lettore
Leggi gli URL e cerca sul web per ottenere LLM più approfonditi.
Incorporamenti
Incorporamenti multilingue multimodali di livello mondiale.
Riclassificazione
Recupero neurale di livello mondiale per massimizzare la pertinenza della ricerca.
Ricerca profonda
Cerca, leggi e ragiona finché non trovi la risposta migliore.
Di più
keyboard_arrow_down
Classificatore
Classificazione zero-shot e few-shot per immagini e testo.
Segmentatore
Tagliare il testo lungo in blocchi ed effettuare la tokenizzazione.

Documentazione API
Generazione automatica di codice per il tuo IDE o LLM di Copilot
open_in_new


Azienda
keyboard_arrow_down
Chi siamo
Contatta le vendite
Programma di stagista
Unisciti a noi
open_in_new
Scarica il logo
open_in_new
Termini & Condizioni


Login
login
warning
Questo modello è obsoleto nei modelli più recenti.

jina-embeddings-v2-base-es

Incorporamenti bilingue spagnolo-inglese con prestazioni SOTA
Pubblicazione postarrow_forward
Licenza
license
Apache-2.0
Data di rilascio
calendar_month
2024-02-14
Ingresso
abc
Testo
arrow_forward
Produzione
more_horiz
Vettore
Dettagli del modello
Parametri: 161M
Lunghezza del token di input: 8K
Dimensione di uscita: 768
Supporto linguistico
🇺🇸 Inglese
🇪🇸 Español
Modelli correlati
link
jina-embeddings-v2-base-en
link
jina-embeddings-v2-base-de
link
jina-embeddings-v2-base-zh
Etichette
spanish
bilingual
long-context
8k-context
bert-based
production-ready
semantic-search
cross-lingual
text-embeddings
fine-tunable
Disponibile tramite
API di JinaAWS SageMakerMicrosoft AzureFaccia abbracciata
Scegli i modelli da confrontare
Pubblicazioni (1)
arXiv
febbraio 26, 2024
Multi-Task Contrastive Learning for 8192-Token Bilingual Text Embeddings

Panoramica

Jina Embeddings v2 Base Spanish è un modello di incorporamento di testo bilingue rivoluzionario che affronta la sfida critica del recupero e dell'analisi di informazioni interlinguistiche tra contenuti in spagnolo e inglese. A differenza dei tradizionali modelli multilingue che spesso mostrano una parzialità verso lingue specifiche, questo modello offre prestazioni veramente bilanciate sia in spagnolo che in inglese, rendendolo indispensabile per le organizzazioni che operano nei mercati di lingua spagnola o che gestiscono contenuti bilingue. La caratteristica più notevole del modello è la sua capacità di generare incorporamenti geometricamente allineati: quando i testi in spagnolo e inglese esprimono lo stesso significato, le loro rappresentazioni vettoriali si raggruppano naturalmente nello spazio di incorporamento, consentendo una ricerca e un'analisi interlinguistica senza soluzione di continuità.

Metodi

Al centro di questo modello c'è un'architettura innovativa basata su ALiBi (Attention with Linear Biases) bidirezionale simmetrica, un approccio sofisticato che consente l'elaborazione di sequenze fino a 8.192 token senza i tradizionali embedding posizionali. Il modello utilizza un'architettura BERT modificata con 161M parametri, che incorpora Gated Linear Units (GLU) e tecniche specializzate di normalizzazione dei livelli. L'addestramento segue un processo in tre fasi: pre-addestramento iniziale su un corpus di testo massiccio, seguito da una messa a punto con coppie di testo attentamente curate e, infine, addestramento hard-negative per migliorare la discriminazione tra contenuti simili ma semanticamente distinti. Questo approccio, combinato con embedding a 768 dimensioni, consente al modello di catturare relazioni semantiche sfumate mantenendo l'efficienza computazionale.

Prestazione

Nelle valutazioni di benchmark complete, il modello dimostra capacità eccezionali, in particolare nelle attività di recupero multilingua, dove supera modelli multilingue significativamente più grandi come E5 e BGE-M3, nonostante sia solo il 15-30% delle loro dimensioni. Il modello raggiunge prestazioni superiori nelle attività di recupero e clustering, mostrando una particolare forza nell'abbinamento di contenuti semanticamente equivalenti tra le lingue. Quando testato sul benchmark MTEB, mostra prestazioni robuste in varie attività, tra cui classificazione, clustering e similarità semantica. La finestra di contesto estesa di 8.192 token si dimostra particolarmente preziosa per l'elaborazione di documenti lunghi, mostrando prestazioni costanti anche con documenti che si estendono su più pagine, una capacità di cui sono privi la maggior parte dei modelli concorrenti.

Orientamento

Per utilizzare efficacemente questo modello, le organizzazioni dovrebbero garantire l'accesso a un'infrastruttura GPU compatibile con CUDA per prestazioni ottimali. Il modello si integra perfettamente con i principali database vettoriali e framework RAG, tra cui MongoDB, Qdrant, Weaviate e Haystack, rendendolo facilmente implementabile in ambienti di produzione. Eccelle in applicazioni come la ricerca di documenti bilingue, sistemi di raccomandazione di contenuti e analisi di documenti multilingua. Sebbene il modello mostri una versatilità impressionante, è particolarmente ottimizzato per scenari bilingue spagnolo-inglese e potrebbe non essere la scelta migliore per applicazioni monolingue o scenari che coinvolgono altre coppie di lingue. Per risultati ottimali, i testi di input dovrebbero essere formattati correttamente in spagnolo o inglese, sebbene il modello gestisca efficacemente i contenuti in lingue miste. Il modello supporta la messa a punto per applicazioni specifiche del dominio, ma questo dovrebbe essere affrontato con un'attenta considerazione della qualità e della distribuzione dei dati di training.
Blog che menzionano questo modello
aprile 29, 2024 • 7 minuti letti
Jina Embeddings e Reranker su Azure: Soluzioni AI Scalabili Pronte per il Business
Jina Embeddings e Rerankers sono ora disponibili su Azure Marketplace. Le aziende che danno priorità alla privacy e alla sicurezza possono ora integrare facilmente i modelli all'avanguardia di Jina AI direttamente nel loro ecosistema Azure esistente.
Susana Guzmán
Futuristic black background with a purple 3D grid, featuring the "Embeddings" and "Reranker" logos with a stylized "A".
febbraio 14, 2024 • 4 minuti letti
Aquí Se Habla Español: Embeddings Spagnolo-Inglese di Alta Qualità e Contesto di 8k
Il nuovo modello di embedding bilingue spagnolo-inglese di Jina AI porta lo stato dell'arte dell'intelligenza artificiale a mezzo miliardo di parlanti spagnolo.
Jina AI
Digital wireframe rendering of a Gothic-style cathedral, with colorful outlines and pointed spires on a dark background.
Uffici
location_on
Sunnyvale, California
710 Lakeway Dr, Ste 200, Sunnyvale, CA 94085, Stati Uniti
location_on
Berlino, Germania (sede centrale)
Prinzessinnenstraße 19-20, 10969 Berlino, Germania
location_on
Pechino, Cina
Livello 5, Edificio 6, No.48 Haidian West St. Pechino, Cina
location_on
Shenzen, Cina
402 Piano 4, Fu'an Technology Building, Shenzhen, Cina
Fondazione di ricerca
Lettore
Incorporamenti
Riclassificazione
Ricerca profonda
Classificatore
Segmentatore
Documentazione API
Ottieni la chiave API Jina
Limite di velocità
Stato dell'API
Azienda
Chi siamo
Contatta le vendite
Sala stampa
Programma di stagista
Unisciti a noi
open_in_new
Scarica il logo
open_in_new
Termini
Sicurezza
Termini & Condizioni
Privacy
Gestisci i cookie
email
Jina AI © 2020-2025.