Notizia
Modelli
Prodotti
keyboard_arrow_down
Lettore
Leggi gli URL e cerca sul web per ottenere LLM più approfonditi.
Incorporamenti
Incorporamenti multilingue multimodali di livello mondiale.
Riclassificazione
Recupero neurale di livello mondiale per massimizzare la pertinenza della ricerca.
Ricerca profonda
Cerca, leggi e ragiona finché non trovi la risposta migliore.
Di più
keyboard_arrow_down
Classificatore
Classificazione zero-shot e few-shot per immagini e testo.
Segmentatore
Tagliare il testo lungo in blocchi ed effettuare la tokenizzazione.

Documentazione API
Generazione automatica di codice per il tuo IDE o LLM di Copilot
open_in_new


Azienda
keyboard_arrow_down
Chi siamo
Contatta le vendite
Programma di stagista
Unisciti a noi
open_in_new
Scarica il logo
open_in_new
Termini & Condizioni


Login
login
warning
Questo modello è obsoleto nei modelli più recenti.

jina-embeddings-v2-base-de

Incorporamenti bilingue tedesco-inglese con prestazioni SOTA
Pubblicazione postarrow_forward
Licenza
license
Apache-2.0
Data di rilascio
calendar_month
2024-01-15
Ingresso
abc
Testo
arrow_forward
Produzione
more_horiz
Vettore
Dettagli del modello
Parametri: 161M
Lunghezza del token di input: 8K
Dimensione di uscita: 768
Supporto linguistico
🇺🇸 Inglese
🇩🇪 Deutsch
Modelli correlati
link
jina-embeddings-v2-base-en
Etichette
german-language
text-embedding
monolingual
large-context
production
semantic-search
document-retrieval
fine-tunable
Disponibile tramite
API di JinaAWS SageMakerMicrosoft AzureFaccia abbracciata
Scegli i modelli da confrontare
Pubblicazioni (1)
arXiv
febbraio 26, 2024
Multi-Task Contrastive Learning for 8192-Token Bilingual Text Embeddings

Panoramica

Jina Embeddings v2 Base German affronta una sfida critica nel business internazionale: colmare il divario linguistico tra i mercati tedesco e inglese. Per le aziende tedesche che si espandono in territori di lingua inglese, dove un terzo delle aziende genera oltre il 20% delle proprie vendite globali, una comprensione bilingue accurata è essenziale. Questo modello trasforma il modo in cui le organizzazioni gestiscono i contenuti multilingua consentendo una comprensione e un recupero del testo senza soluzione di continuità sia in tedesco che in inglese, rendendolo prezioso per le aziende che implementano sistemi di documentazione internazionali, piattaforme di assistenza clienti o soluzioni di gestione dei contenuti. A differenza dei tradizionali approcci basati sulla traduzione, questo modello mappa direttamente significati equivalenti in entrambe le lingue nello stesso spazio di incorporamento, consentendo operazioni bilingue più accurate ed efficienti.

Metodi

Il modello raggiunge le sue impressionanti capacità bilingue attraverso un'architettura innovativa che elabora sia il testo tedesco che quello inglese all'interno di uno spazio di incorporamento unificato a 768 dimensioni. Al suo interno, impiega una rete neurale basata su trasformatore con 161 milioni di parametri, attentamente addestrata per comprendere le relazioni semantiche in entrambe le lingue. Ciò che rende questa architettura particolarmente efficace è il suo approccio di minimizzazione dei bias, specificamente progettato per evitare la comune trappola di favorire le strutture grammaticali inglesi, un problema identificato in recenti ricerche con modelli multilingue. La finestra di contesto estesa del modello di 8.192 token gli consente di elaborare interi documenti o più pagine di testo in un unico passaggio, mantenendo la coerenza semantica nei contenuti di formato lungo in entrambe le lingue.

Prestazione

Nei test nel mondo reale, Jina Embeddings v2 Base German dimostra un'efficienza e un'accuratezza eccezionali, in particolare nelle attività di recupero multilingua. Il modello supera il modello base E5 di Microsoft pur essendo meno di un terzo delle sue dimensioni e corrisponde alle prestazioni di E5 large nonostante sia sette volte più piccolo. In tutti i benchmark chiave, tra cui WikiCLIR per il recupero dall'inglese al tedesco, STS17 e STS22 per la comprensione bidirezionale della lingua e BUCC per l'allineamento preciso del testo bilingue, il modello dimostra costantemente capacità superiori. Le sue dimensioni compatte di 322 MB consentono l'implementazione su hardware standard mantenendo prestazioni all'avanguardia, rendendolo particolarmente efficiente per gli ambienti di produzione in cui le risorse di calcolo sono una considerazione.

Orientamento

Per distribuire efficacemente Jina Embeddings v2 Base German, le organizzazioni dovrebbero considerare diversi aspetti pratici. Il modello si integra perfettamente con i database vettoriali più diffusi come MongoDB, Qdrant e Weaviate, semplificando la creazione di sistemi di ricerca bilingue scalabili. Per prestazioni ottimali, implementare un'adeguata preelaborazione del testo per gestire efficacemente il limite di 8.192 token, che in genere si adatta a circa 15-20 pagine di testo. Sebbene il modello eccella sia nei contenuti in tedesco che in inglese, è particolarmente efficace quando utilizzato per attività di recupero multilingua in cui le lingue di query e documento possono differire. Le organizzazioni dovrebbero prendere in considerazione l'implementazione di strategie di memorizzazione nella cache per i contenuti a cui si accede di frequente e utilizzare l'elaborazione batch per l'indicizzazione di documenti su larga scala. L'integrazione del modello con AWS SageMaker fornisce un percorso affidabile per la distribuzione in produzione, sebbene i team debbano monitorare l'utilizzo dei token e implementare un'adeguata limitazione della velocità per le applicazioni ad alto traffico. Quando si utilizza il modello per le applicazioni RAG, prendere in considerazione l'implementazione del rilevamento della lingua per ottimizzare la costruzione dei prompt in base alla lingua di input.
Blog che menzionano questo modello
settembre 27, 2024 • 15 minuti letti
Migrazione da Jina Embeddings v2 a v3
Abbiamo raccolto alcuni suggerimenti per aiutarti a migrare da Jina Embeddings v2 a v3.
Alex C-G
Scott Martens
A digital upgrade theme with "V3" and a white "2", set against a green and black binary code background, with "Upgrade" centr
maggio 15, 2024 • 11 minuti letti
Binary Embeddings: tutti i vantaggi dell'AI con il 3,125% del peso
32-bit sono fin troppo precisi per qualcosa di così robusto e inesatto come un modello di AI. Quindi ne abbiamo eliminati 31! Gli embedding binari sono più piccoli, più veloci e altamente performanti.
Sofia Vasileva
Scott Martens
Futuristic digital 3D model of a coffee grinder with blue neon lights on a black background, featuring numerical data.
aprile 29, 2024 • 7 minuti letti
Jina Embeddings e Reranker su Azure: Soluzioni AI Scalabili Pronte per il Business
Jina Embeddings e Rerankers sono ora disponibili su Azure Marketplace. Le aziende che danno priorità alla privacy e alla sicurezza possono ora integrare facilmente i modelli all'avanguardia di Jina AI direttamente nel loro ecosistema Azure esistente.
Susana Guzmán
Futuristic black background with a purple 3D grid, featuring the "Embeddings" and "Reranker" logos with a stylized "A".
gennaio 31, 2024 • 16 minuti letti
Un'analisi approfondita della tokenizzazione
La tokenizzazione, nei modelli LLM, significa suddividere i testi di input in parti più piccole per l'elaborazione. Quindi perché gli embedding vengono fatturati per token?
Scott Martens
Colorful speckled grid pattern with a mix of small multicolored dots on a black background, creating a mosaic effect.
gennaio 26, 2024 • 13 minuti letti
I modelli bilingui di Jina Embeddings v2 sono ora open-source su Hugging Face
I modelli di embedding bilingue open-source di Jina AI per tedesco-inglese e cinese-inglese sono ora disponibili su Hugging Face. Vedremo come effettuare l'installazione e il recupero multilingue.
Scott Martens
Colorful "EMBEDDINGS" text above a pile of yellow smileys on a black background with decorative lines at the top.
Uffici
location_on
Sunnyvale, California
710 Lakeway Dr, Ste 200, Sunnyvale, CA 94085, Stati Uniti
location_on
Berlino, Germania (sede centrale)
Prinzessinnenstraße 19-20, 10969 Berlino, Germania
location_on
Pechino, Cina
Livello 5, Edificio 6, No.48 Haidian West St. Pechino, Cina
location_on
Shenzen, Cina
402 Piano 4, Fu'an Technology Building, Shenzhen, Cina
Fondazione di ricerca
Lettore
Incorporamenti
Riclassificazione
Ricerca profonda
Classificatore
Segmentatore
Documentazione API
Ottieni la chiave API Jina
Limite di velocità
Stato dell'API
Azienda
Chi siamo
Contatta le vendite
Sala stampa
Programma di stagista
Unisciti a noi
open_in_new
Scarica il logo
open_in_new
Termini
Sicurezza
Termini & Condizioni
Privacy
Gestisci i cookie
email
Jina AI © 2020-2025.