Notizia
Modelli
Prodotti
keyboard_arrow_down
Lettore
Leggi gli URL e cerca sul web per ottenere LLM più approfonditi.
Incorporamenti
Incorporamenti multilingue multimodali di livello mondiale.
Riclassificazione
Recupero neurale di livello mondiale per massimizzare la pertinenza della ricerca.
Ricerca profonda
Cerca, leggi e ragiona finché non trovi la risposta migliore.
Di più
keyboard_arrow_down
Classificatore
Classificazione zero-shot e few-shot per immagini e testo.
Segmentatore
Tagliare il testo lungo in blocchi ed effettuare la tokenizzazione.

Documentazione API
Generazione automatica di codice per il tuo IDE o LLM di Copilot
open_in_new


Azienda
keyboard_arrow_down
Chi siamo
Contatta le vendite
Programma di stagista
Unisciti a noi
open_in_new
Scarica il logo
open_in_new
Termini & Condizioni


Login
login

jina-embeddings-v2-base-code

Ottimizzato per la ricerca di codici e stringhe di documenti
Pubblicazione postarrow_forward
Licenza
license
Apache-2.0
Data di rilascio
calendar_month
2024-02-05
Ingresso
abc
Testo (codice)
arrow_forward
Produzione
more_horiz
Vettore
Dettagli del modello
Parametri: 137M
Lunghezza del token di input: 8K
Dimensione di uscita: 768
Supporto linguistico
🇺🇸 Inglese
Modelli correlati
link
jina-embeddings-v2-base-en
Etichette
code-embeddings
programming-languages
semantic-code-search
code-similarity
long-context
text-embeddings
multilingual-code
docstring-search
Disponibile tramite
API di JinaAWS SageMakerMicrosoft AzureFaccia abbracciata
Grafico I/O
Scegli i modelli da confrontare

Panoramica

Jina Embeddings v2 Base Code affronta una sfida critica nello sviluppo software moderno: navigare e comprendere in modo efficiente grandi basi di codice. Per i team di sviluppo che hanno difficoltà con la scoperta e la documentazione del codice, questo modello trasforma il modo in cui gli sviluppatori interagiscono con il codice abilitando la ricerca in linguaggio naturale in 30 linguaggi di programmazione. A differenza dei tradizionali strumenti di ricerca del codice che si basano sulla corrispondenza esatta dei pattern, questo modello comprende il significato semantico dietro il codice, consentendo agli sviluppatori di trovare frammenti di codice pertinenti utilizzando semplici descrizioni in inglese. Questa capacità è particolarmente preziosa per i team che gestiscono grandi basi di codice legacy, gli sviluppatori che si iscrivono a nuovi progetti o le organizzazioni che cercano di migliorare le pratiche di riutilizzo e documentazione del codice.

Metodi

Il modello raggiunge le sue prestazioni impressionanti attraverso un'architettura specializzata progettata specificamente per la comprensione del codice. Al suo interno, utilizza una rete neurale basata su trasformatore con 161 milioni di parametri, addestrata su diversi set di dati di linguaggi di programmazione con enfasi su sei linguaggi principali: Python, JavaScript, Java, PHP, Go e Ruby. Ciò che rende unica questa architettura è la sua finestra di contesto estesa di 8.192 token, che gli consente di elaborare intere funzioni o più file contemporaneamente mantenendo la comprensione semantica. Il modello genera densi embedding a 768 dimensioni che catturano sia la struttura sintattica che il significato semantico del codice, consentendogli di comprendere le relazioni tra diversi segmenti di codice anche quando utilizzano diversi modelli di programmazione o sintassi per raggiungere lo stesso obiettivo.

Prestazione

Nei test nel mondo reale, Jina Embeddings v2 Base Code dimostra capacità eccezionali, guidando il campo in nove su quindici benchmark CodeNetSearch cruciali. Se confrontato con modelli di giganti del settore come Microsoft e Salesforce, raggiunge prestazioni superiori mantenendo un'impronta più efficiente. Il modello eccelle in particolare nella comprensione del codice multilinguaggio, abbinando con successo frammenti di codice funzionalmente equivalenti in diversi linguaggi di programmazione. La sua finestra di contesto di 8.192 token si dimostra particolarmente preziosa per funzioni di grandi dimensioni e file di codice complessi, superando significativamente i modelli tradizionali che in genere gestiscono solo poche centinaia di token. L'efficienza del modello è evidente nelle sue dimensioni compatte di 307 MB (non quantizzate), consentendo un'inferenza rapida mantenendo un'elevata accuratezza nella somiglianza del codice e nelle attività di ricerca.

Orientamento

Per distribuire in modo efficace Jina Embeddings v2 Base Code, i team dovrebbero considerare diversi aspetti pratici. Il modello si integra perfettamente con i database vettoriali più diffusi come MongoDB, Qdrant e Weaviate, semplificando la creazione di sistemi di ricerca del codice scalabili. Per prestazioni ottimali, implementare un'adeguata preelaborazione del codice per gestire il limite di 8.192 token, che in genere si adatta alla maggior parte delle definizioni di funzioni e classi. Sebbene il modello supporti 30 linguaggi di programmazione, mostra le prestazioni più elevate nei sei linguaggi principali: Python, JavaScript, Java, PHP, Go e Ruby. I team dovrebbero prendere in considerazione l'utilizzo dell'elaborazione batch per l'indicizzazione del codice su larga scala per ottimizzare le prestazioni. La compatibilità RAG del modello lo rende particolarmente efficace per la generazione automatizzata di documentazione e le attività di comprensione del codice, sebbene i team dovrebbero implementare strategie di suddivisione in blocchi appropriate per basi di codice molto grandi. Per le distribuzioni di produzione, prendere in considerazione l'utilizzo dell'endpoint AWS SageMaker per l'inferenza gestita e implementare strategie di memorizzazione nella cache appropriate per ottimizzare le prestazioni delle query.
Blog che menzionano questo modello
aprile 08, 2025 • 21 minuti letti
jina-reranker-m0: Reranker multilingue e multimodale per documenti
Presentiamo jina-reranker-m0, il nostro nuovo reranker multimodale multilingue per il recupero di documenti visivi, con prestazioni allo stato dell'arte su documenti lunghi multilingue e attività di ricerca codice.
Jina AI
Modern dot matrix text display on a dark blue background, conveying a digital feel.
settembre 27, 2024 • 15 minuti letti
Migrazione da Jina Embeddings v2 a v3
Abbiamo raccolto alcuni suggerimenti per aiutarti a migrare da Jina Embeddings v2 a v3.
Alex C-G
Scott Martens
A digital upgrade theme with "V3" and a white "2", set against a green and black binary code background, with "Upgrade" centr
aprile 29, 2024 • 7 minuti letti
Jina Embeddings e Reranker su Azure: Soluzioni AI Scalabili Pronte per il Business
Jina Embeddings e Rerankers sono ora disponibili su Azure Marketplace. Le aziende che danno priorità alla privacy e alla sicurezza possono ora integrare facilmente i modelli all'avanguardia di Jina AI direttamente nel loro ecosistema Azure esistente.
Susana Guzmán
Futuristic black background with a purple 3D grid, featuring the "Embeddings" and "Reranker" logos with a stylized "A".
febbraio 05, 2024 • 4 minuti letti
Migliora la Tua Ricerca di Codice con i Nuovi Jina Code Embeddings
Il nuovo 𝗷𝗶𝗻𝗮-𝗲𝗺𝗯𝗲𝗱𝗱𝗶𝗻𝗴𝘀-𝘃𝟮-𝗯𝗮𝘀𝗲-𝗰𝗼𝗱𝗲 è ottimizzato per la ricerca di codice e docstring. Questo potente modello supporta ricerche tra inglese e 30 linguaggi di programmazione ampiamente utilizzati, tutti con lunghezza di contesto di 8192 e prestazioni SOTA.
Jina AI
Abstract image with concentric circles in purple and green, featuring "jina" logo and repeated "code embeddings" text around
Uffici
location_on
Sunnyvale, California
710 Lakeway Dr, Ste 200, Sunnyvale, CA 94085, Stati Uniti
location_on
Berlino, Germania (sede centrale)
Prinzessinnenstraße 19-20, 10969 Berlino, Germania
location_on
Pechino, Cina
Livello 5, Edificio 6, No.48 Haidian West St. Pechino, Cina
location_on
Shenzen, Cina
402 Piano 4, Fu'an Technology Building, Shenzhen, Cina
Fondazione di ricerca
Lettore
Incorporamenti
Riclassificazione
Ricerca profonda
Classificatore
Segmentatore
Documentazione API
Ottieni la chiave API Jina
Limite di velocità
Stato dell'API
Azienda
Chi siamo
Contatta le vendite
Sala stampa
Programma di stagista
Unisciti a noi
open_in_new
Scarica il logo
open_in_new
Termini
Sicurezza
Termini & Condizioni
Privacy
Gestisci i cookie
email
Jina AI © 2020-2025.