Notizia
Modelli
Prodotti
keyboard_arrow_down
Lettore
Leggi gli URL e cerca sul web per ottenere LLM più approfonditi.
Incorporamenti
Incorporamenti multilingue multimodali di livello mondiale.
Riclassificazione
Recupero neurale di livello mondiale per massimizzare la pertinenza della ricerca.
Ricerca profonda
Cerca, leggi e ragiona finché non trovi la risposta migliore.
Di più
keyboard_arrow_down
Classificatore
Classificazione zero-shot e few-shot per immagini e testo.
Segmentatore
Tagliare il testo lungo in blocchi ed effettuare la tokenizzazione.

Documentazione API
Generazione automatica di codice per il tuo IDE o LLM di Copilot
open_in_new


Azienda
keyboard_arrow_down
Chi siamo
Contatta le vendite
Programma di stagista
Unisciti a noi
open_in_new
Scarica il logo
open_in_new
Termini & Condizioni


Login
login
warning
Questo modello è obsoleto nei modelli più recenti.

jina-embeddings-v2-base-en

Alla pari con text-embedding-ada002 di OpenAI
Pubblicazione postarrow_forward
Licenza
license
Apache-2.0
Data di rilascio
calendar_month
2023-10-28
Ingresso
abc
Testo
arrow_forward
Produzione
more_horiz
Vettore
Dettagli del modello
Parametri: 137M
Lunghezza del token di input: 8K
Dimensione di uscita: 768
Supporto linguistico
🇺🇸 Inglese
Modelli correlati
link
jina-embedding-b-en-v1
link
jina-embeddings-v3
Etichette
text-embeddings
english
long-context
production-ready
multi-task-learning
semantic-search
document-retrieval
high-performance
bert-based
fine-tunable
rag-optimized
8k-context
Disponibile tramite
API di JinaAWS SageMakerMicrosoft AzureFaccia abbracciata
Scegli i modelli da confrontare
Pubblicazioni (3)
SIGIR 2025
settembre 07, 2024
Late Chunking: Contextual Chunk Embeddings Using Long-Context Embedding Models
arXiv
febbraio 26, 2024
Multi-Task Contrastive Learning for 8192-Token Bilingual Text Embeddings
arXiv
ottobre 30, 2023
Jina Embeddings 2: 8192-Token General-Purpose Text Embeddings for Long Documents

Panoramica

Jina Embeddings v2 Base English è un modello di incorporamento di testo open source rivoluzionario che risolve la sfida critica dell'elaborazione di documenti lunghi mantenendo un'elevata accuratezza. Le organizzazioni che hanno difficoltà ad analizzare documenti legali, relazioni di ricerca o report finanziari estesi troveranno questo modello particolarmente prezioso. Si distingue per la gestione di documenti lunghi fino a 8.192 token, 16 volte di più rispetto ai modelli tradizionali, eguagliando le prestazioni delle soluzioni proprietarie di OpenAI. Con una dimensione compatta di 0,27 GB e un utilizzo efficiente delle risorse, offre una soluzione accessibile per i team che cercano di implementare un'analisi avanzata dei documenti senza un sovraccarico computazionale eccessivo.

Metodi

L'architettura del modello combina un backbone BERT Small con un innovativo meccanismo ALiBi (Attention with Linear Biases) bidirezionale simmetrico, eliminando la necessità di tradizionali incorporamenti posizionali. Questa scelta architettonica consente al modello di estrapolare ben oltre la sua lunghezza di addestramento di 512 token, gestendo sequenze fino a 8.192 token senza degradazione delle prestazioni. Il processo di addestramento ha coinvolto due fasi chiave: pre-addestramento iniziale sul set di dati C4, seguito da un perfezionamento sulla raccolta curata di Jina AI di oltre 40 set di dati specializzati. Questi dati di addestramento diversificati, inclusi esempi negativi impegnativi e coppie di frasi varie, garantiscono prestazioni robuste in diversi domini e casi d'uso. Il modello produce vettori densi a 768 dimensioni che catturano relazioni semantiche sfumate, ottenute con parametri relativamente modesti di 137 milioni.

Prestazione

Nei test nel mondo reale, Jina Embeddings v2 Base English dimostra capacità eccezionali in più benchmark. Supera text-embedding-ada-002 di OpenAI in diverse metriche chiave: classificazione (73,45% contro 70,93%), riclassificazione (85,38% contro 84,89%), recupero (56,98% contro 56,32%) e riepilogo (31,6% contro 30,8%). Questi numeri si traducono in vantaggi pratici in attività come la classificazione dei documenti, in cui il modello mostra una capacità superiore di categorizzare testi complessi, e nelle applicazioni di ricerca, in cui comprende meglio le query degli utenti e trova documenti pertinenti. Tuttavia, gli utenti devono tenere presente che le prestazioni possono variare quando si ha a che fare con contenuti altamente specializzati specifici del dominio non rappresentati nei dati di training.

Orientamento

Per implementare efficacemente Jina Embeddings v2 Base English, i team devono considerare diversi aspetti pratici. Il modello richiede hardware compatibile con CUDA per prestazioni ottimali, sebbene la sua architettura efficiente ne consenta l'esecuzione su GPU di livello consumer. È disponibile tramite diversi canali: download diretto da Hugging Face, distribuzione su AWS Marketplace o API Jina AI con 10 milioni di token gratuiti. Per le distribuzioni di produzione, AWS SageMaker nella regione us-east-1 offre la soluzione più scalabile. Il modello eccelle nell'analisi testuale di tipo generale, ma potrebbe non essere la scelta migliore per terminologia scientifica altamente specializzata o gergo specifico di un dominio senza una messa a punto precisa. Quando si elaborano documenti lunghi, si consiglia di suddividerli in blocchi semantici significativi anziché in suddivisioni arbitrarie per mantenere l'integrità del contesto. Per risultati ottimali, implementare una corretta pre-elaborazione del testo e garantire dati di input puliti e ben formattati.
Blog che menzionano questo modello
dicembre 17, 2024 • 12 minuti letti
Gli Embedding di Testo Falliscono nel Catturare l'Ordine delle Parole e Come Risolvere il Problema
I modelli di embedding testuale faticano a catturare sottili sfumature linguistiche come l'ordine delle parole, le relazioni direzionali, le sequenze temporali, le connessioni causali, i confronti e la negazione. Comprendere queste sfide è fondamentale per migliorare le prestazioni del modello.
Bo Wang
Alex C-G
Three abstract figures in white, gray, and pink on matching cubes placed on a colorful checkered surface against a green back
ottobre 25, 2024 • 19 minuti letti
Trovare i punti di interruzione ottimali in documenti lunghi utilizzando modelli linguistici di piccole dimensioni
Abbiamo addestrato tre piccoli language model per segmentare meglio i documenti lunghi in chunk e queste sono le lezioni chiave che abbiamo appreso.
Andrei Ungureanu
Alex C-G
A pattern of yellow file icons on a blue background with one icon displaying a smiley face creating an emotive contrast.
ottobre 15, 2024 • 9 minuti letti
Verifica dei fatti con la nuova API Grounding in Jina Reader
Con il nuovo g.jina.ai, puoi facilmente fondare le affermazioni per ridurre le allucinazioni dei LLM o migliorare l'integrità dei contenuti scritti dall'uomo.
Jina AI
Jina developer interface showing "Jina AI was founded in 2020" with controls labeled true and false, and web address on top.
settembre 27, 2024 • 15 minuti letti
Migrazione da Jina Embeddings v2 a v3
Abbiamo raccolto alcuni suggerimenti per aiutarti a migrare da Jina Embeddings v2 a v3.
Alex C-G
Scott Martens
A digital upgrade theme with "V3" and a white "2", set against a green and black binary code background, with "Upgrade" centr
settembre 18, 2024 • 10 minuti letti
Jina Embeddings v3: Un Modello di Embedding Multilingue all'Avanguardia
jina-embeddings-v3 è un modello di embedding testuale multilingue all'avanguardia con 570M parametri e lunghezza token di 8192, che supera gli ultimi embedding proprietari di OpenAI e Cohere su MTEB.
Jina AI
Dynamic image showing the characters "V3" formed by bright green dots varying in size on a black background.
Uffici
location_on
Sunnyvale, California
710 Lakeway Dr, Ste 200, Sunnyvale, CA 94085, Stati Uniti
location_on
Berlino, Germania (sede centrale)
Prinzessinnenstraße 19-20, 10969 Berlino, Germania
location_on
Pechino, Cina
Livello 5, Edificio 6, No.48 Haidian West St. Pechino, Cina
location_on
Shenzen, Cina
402 Piano 4, Fu'an Technology Building, Shenzhen, Cina
Fondazione di ricerca
Lettore
Incorporamenti
Riclassificazione
Ricerca profonda
Classificatore
Segmentatore
Documentazione API
Ottieni la chiave API Jina
Limite di velocità
Stato dell'API
Azienda
Chi siamo
Contatta le vendite
Sala stampa
Programma di stagista
Unisciti a noi
open_in_new
Scarica il logo
open_in_new
Termini
Sicurezza
Termini & Condizioni
Privacy
Gestisci i cookie
email
Jina AI © 2020-2025.