jina-embeddings-v2-base-code

Ottimizzato per la ricerca di codici e stringhe di documenti

Pubblicazione post

Licenza

Apache-2.0

Data di rilascio

2024-02-05

Ingresso

Testo (codice)

Produzione

Vettore

Dettagli del modello

Parametri: 137M

Lunghezza del token di input: 8K

Dimensione di uscita: 768

Supporto linguistico

🇺🇸 Inglese

Modelli correlati

jina-embeddings-v2-base-en

Etichette

code-embeddings

programming-languages

semantic-code-search

code-similarity

long-context

text-embeddings

multilingual-code

docstring-search

Disponibile tramite

API di Jina AWS SageMaker Microsoft Azure Faccia abbracciata

Grafico I/O

Scegli i modelli da confrontare

jina-embeddings-v2-base-code

jina-embeddings-v2-base-en

Panoramica

Jina Embeddings v2 Base Code affronta una sfida critica nello sviluppo software moderno: navigare e comprendere in modo efficiente grandi basi di codice. Per i team di sviluppo che hanno difficoltà con la scoperta e la documentazione del codice, questo modello trasforma il modo in cui gli sviluppatori interagiscono con il codice abilitando la ricerca in linguaggio naturale in 30 linguaggi di programmazione. A differenza dei tradizionali strumenti di ricerca del codice che si basano sulla corrispondenza esatta dei pattern, questo modello comprende il significato semantico dietro il codice, consentendo agli sviluppatori di trovare frammenti di codice pertinenti utilizzando semplici descrizioni in inglese. Questa capacità è particolarmente preziosa per i team che gestiscono grandi basi di codice legacy, gli sviluppatori che si iscrivono a nuovi progetti o le organizzazioni che cercano di migliorare le pratiche di riutilizzo e documentazione del codice.

Metodi

Il modello raggiunge le sue prestazioni impressionanti attraverso un'architettura specializzata progettata specificamente per la comprensione del codice. Al suo interno, utilizza una rete neurale basata su trasformatore con 161 milioni di parametri, addestrata su diversi set di dati di linguaggi di programmazione con enfasi su sei linguaggi principali: Python, JavaScript, Java, PHP, Go e Ruby. Ciò che rende unica questa architettura è la sua finestra di contesto estesa di 8.192 token, che gli consente di elaborare intere funzioni o più file contemporaneamente mantenendo la comprensione semantica. Il modello genera densi embedding a 768 dimensioni che catturano sia la struttura sintattica che il significato semantico del codice, consentendogli di comprendere le relazioni tra diversi segmenti di codice anche quando utilizzano diversi modelli di programmazione o sintassi per raggiungere lo stesso obiettivo.

Prestazione

Nei test nel mondo reale, Jina Embeddings v2 Base Code dimostra capacità eccezionali, guidando il campo in nove su quindici benchmark CodeNetSearch cruciali. Se confrontato con modelli di giganti del settore come Microsoft e Salesforce, raggiunge prestazioni superiori mantenendo un'impronta più efficiente. Il modello eccelle in particolare nella comprensione del codice multilinguaggio, abbinando con successo frammenti di codice funzionalmente equivalenti in diversi linguaggi di programmazione. La sua finestra di contesto di 8.192 token si dimostra particolarmente preziosa per funzioni di grandi dimensioni e file di codice complessi, superando significativamente i modelli tradizionali che in genere gestiscono solo poche centinaia di token. L'efficienza del modello è evidente nelle sue dimensioni compatte di 307 MB (non quantizzate), consentendo un'inferenza rapida mantenendo un'elevata accuratezza nella somiglianza del codice e nelle attività di ricerca.

Orientamento

Per distribuire in modo efficace Jina Embeddings v2 Base Code, i team dovrebbero considerare diversi aspetti pratici. Il modello si integra perfettamente con i database vettoriali più diffusi come MongoDB, Qdrant e Weaviate, semplificando la creazione di sistemi di ricerca del codice scalabili. Per prestazioni ottimali, implementare un'adeguata preelaborazione del codice per gestire il limite di 8.192 token, che in genere si adatta alla maggior parte delle definizioni di funzioni e classi. Sebbene il modello supporti 30 linguaggi di programmazione, mostra le prestazioni più elevate nei sei linguaggi principali: Python, JavaScript, Java, PHP, Go e Ruby. I team dovrebbero prendere in considerazione l'utilizzo dell'elaborazione batch per l'indicizzazione del codice su larga scala per ottimizzare le prestazioni. La compatibilità RAG del modello lo rende particolarmente efficace per la generazione automatizzata di documentazione e le attività di comprensione del codice, sebbene i team dovrebbero implementare strategie di suddivisione in blocchi appropriate per basi di codice molto grandi. Per le distribuzioni di produzione, prendere in considerazione l'utilizzo dell'endpoint AWS SageMaker per l'inferenza gestita e implementare strategie di memorizzazione nella cache appropriate per ottimizzare le prestazioni delle query.

Blog che menzionano questo modello

aprile 08, 2025 • 21 minuti letti

jina-reranker-m0: Reranker multilingue e multimodale per documenti

Presentiamo jina-reranker-m0, il nostro nuovo reranker multimodale multilingue per il recupero di documenti visivi, con prestazioni allo stato dell'arte su documenti lunghi multilingue e attività di ricerca codice.