jina-embeddings-v2-base-code

Optimisé pour la recherche de code et de docstring

Publication de publication

Licence

Apache-2.0

Date de sortie

2024-02-05

Saisir

Texte (code)

Sortir

Vecteur

Détails du modèle

Paramètres: 137M

Longueur du jeton d'entrée: 8K

Dimension de sortie: 768

Prise en charge linguistique

🇺🇸 Anglais

Modèles associés

jina-embeddings-v2-base-en

Mots clés

code-embeddings

programming-languages

semantic-code-search

code-similarity

long-context

text-embeddings

multilingual-code

docstring-search

Disponible via

API Jina AWS SageMaker Microsoft Azure Visage qui fait un câlin

Graphique d'E/S

Choisissez les modèles à comparer

jina-embeddings-v2-base-code

jina-embeddings-v2-base-en

Aperçu

Jina Embeddings v2 Base Code relève un défi crucial dans le développement de logiciels modernes : naviguer et comprendre efficacement de grandes bases de code. Pour les équipes de développement qui ont du mal à découvrir et à documenter le code, ce modèle transforme la façon dont les développeurs interagissent avec le code en permettant la recherche en langage naturel dans 30 langages de programmation. Contrairement aux outils de recherche de code traditionnels qui s'appuient sur une correspondance de modèles exacte, ce modèle comprend la signification sémantique derrière le code, permettant aux développeurs de trouver des extraits de code pertinents à l'aide de descriptions en anglais simple. Cette capacité est particulièrement précieuse pour les équipes qui gèrent de grandes bases de code héritées, les développeurs qui intègrent de nouveaux projets ou les organisations qui cherchent à améliorer les pratiques de réutilisation et de documentation du code.

Méthodes

Le modèle atteint ses performances impressionnantes grâce à une architecture spécialisée conçue spécifiquement pour la compréhension du code. À la base, il utilise un réseau neuronal basé sur un transformateur avec 161 millions de paramètres, formés sur divers ensembles de données de langage de programmation mettant l'accent sur six langages principaux : Python, JavaScript, Java, PHP, Go et Ruby. Ce qui rend cette architecture unique est sa fenêtre de contexte étendue de 8 192 jetons, lui permettant de traiter des fonctions entières ou plusieurs fichiers à la fois tout en conservant la compréhension sémantique. Le modèle génère des intégrations denses de 768 dimensions qui capturent à la fois la structure syntaxique et la signification sémantique du code, lui permettant de comprendre les relations entre différents segments de code même lorsqu'ils utilisent des modèles de programmation ou une syntaxe différents pour atteindre le même objectif.

Performance

Lors de tests en conditions réelles, Jina Embeddings v2 Base Code démontre des capacités exceptionnelles, en tête du peloton dans neuf des quinze tests cruciaux de CodeNetSearch. Comparé aux modèles de géants du secteur comme Microsoft et Salesforce, il atteint des performances supérieures tout en conservant une empreinte plus efficace. Le modèle excelle particulièrement dans la compréhension de code interlinguistique, en faisant correspondre avec succès des extraits de code fonctionnellement équivalents dans différents langages de programmation. Sa fenêtre de contexte de 8 192 jetons s'avère particulièrement précieuse pour les fonctions volumineuses et les fichiers de code complexes, surpassant considérablement les modèles traditionnels qui ne gèrent généralement que quelques centaines de jetons. L'efficacité du modèle est évidente dans sa taille compacte de 307 Mo (non quantifiée), permettant une inférence rapide tout en maintenant une grande précision dans les tâches de recherche et de similarité de code.

Conseils

Pour déployer efficacement le code de base Jina Embeddings v2, les équipes doivent prendre en compte plusieurs aspects pratiques. Le modèle s'intègre parfaitement aux bases de données vectorielles populaires telles que MongoDB, Qdrant et Weaviate, ce qui facilite la création de systèmes de recherche de code évolutifs. Pour des performances optimales, implémentez un prétraitement de code approprié pour gérer la limite de 8 192 jetons, qui s'adapte généralement à la plupart des définitions de fonctions et de classes. Bien que le modèle prenne en charge 30 langages de programmation, il affiche les meilleures performances dans les six langages principaux : Python, JavaScript, Java, PHP, Go et Ruby. Les équipes doivent envisager d'utiliser le traitement par lots pour l'indexation de code à grande échelle afin d'optimiser les performances. La compatibilité RAG du modèle le rend particulièrement efficace pour les tâches automatisées de génération de documentation et de compréhension de code, bien que les équipes doivent mettre en œuvre des stratégies de segmentation appropriées pour les bases de code très volumineuses. Pour les déploiements de production, envisagez d'utiliser le point de terminaison AWS SageMaker pour l'inférence gérée et implémentez des stratégies de mise en cache appropriées pour optimiser les performances des requêtes.

Blogs qui mentionnent ce modèle

avril 08, 2025 • 21 minutes lues

jina-reranker-m0 : Reclasseur multilingue et multimodal de documents

Présentation de jina-reranker-m0, notre nouveau réordonnanceur multimodal multilingue pour la recherche de documents visuels, offrant des performances à l'état de l'art sur la recherche de longs documents multilingues et de code source.