Nouvelles
Modèles
Des produits
keyboard_arrow_down
Lecteur
Lisez les URL et effectuez des recherches sur le Web pour de meilleurs LLM de base.
Intégrations
Intégrations multimodales et multilingues de classe mondiale.
Reclasseur
Récupérateur neuronal de classe mondiale pour maximiser la pertinence de la recherche.
Recherche profonde
Recherchez, lisez et raisonnez jusqu'à trouver la meilleure réponse.
Plus
keyboard_arrow_down
Classificateur
Classification à zéro plan et à quelques plans pour l'image et le texte.
Segmenteur
Coupez un long texte en morceaux et effectuez la tokenisation.

Documentation de l'API
Génération automatique de code pour votre IDE ou LLM copilote
open_in_new


Entreprise
keyboard_arrow_down
À propos de nous
Contacter le service commercial
Programme de stage
Rejoignez-nous
open_in_new
Télécharger le logo
open_in_new
termes et conditions


Se connecter
login
warning
Ce modèle est obsolète pour les modèles plus récents.

jina-embeddings-v2-base-code

Optimisé pour la recherche de code et de docstring
Publication de publicationarrow_forward
Licence
license
Apache-2.0
Date de sortie
calendar_month
2024-02-05
Saisir
abc
Texte (code)
arrow_forward
Sortir
more_horiz
Vecteur
Détails du modèle
Paramètres: 137M
Longueur du jeton d'entrée: 8K
Dimension de sortie: 768
Prise en charge linguistique
🇺🇸 Anglais
Modèles associés
link
jina-embeddings-v2-base-en
Mots clés
code-embeddings
programming-languages
semantic-code-search
code-similarity
long-context
text-embeddings
multilingual-code
docstring-search
Disponible via
API JinaAWS SageMakerMicrosoft AzureVisage qui fait un câlin
Graphique d'E/S
Choisissez les modèles à comparer

Aperçu

Jina Embeddings v2 Base Code relève un défi crucial dans le développement de logiciels modernes : naviguer et comprendre efficacement de grandes bases de code. Pour les équipes de développement qui ont du mal à découvrir et à documenter le code, ce modèle transforme la façon dont les développeurs interagissent avec le code en permettant la recherche en langage naturel dans 30 langages de programmation. Contrairement aux outils de recherche de code traditionnels qui s'appuient sur une correspondance de modèles exacte, ce modèle comprend la signification sémantique derrière le code, permettant aux développeurs de trouver des extraits de code pertinents à l'aide de descriptions en anglais simple. Cette capacité est particulièrement précieuse pour les équipes qui gèrent de grandes bases de code héritées, les développeurs qui intègrent de nouveaux projets ou les organisations qui cherchent à améliorer les pratiques de réutilisation et de documentation du code.

Méthodes

Le modèle atteint ses performances impressionnantes grâce à une architecture spécialisée conçue spécifiquement pour la compréhension du code. À la base, il utilise un réseau neuronal basé sur un transformateur avec 161 millions de paramètres, formés sur divers ensembles de données de langage de programmation mettant l'accent sur six langages principaux : Python, JavaScript, Java, PHP, Go et Ruby. Ce qui rend cette architecture unique est sa fenêtre de contexte étendue de 8 192 jetons, lui permettant de traiter des fonctions entières ou plusieurs fichiers à la fois tout en conservant la compréhension sémantique. Le modèle génère des intégrations denses de 768 dimensions qui capturent à la fois la structure syntaxique et la signification sémantique du code, lui permettant de comprendre les relations entre différents segments de code même lorsqu'ils utilisent des modèles de programmation ou une syntaxe différents pour atteindre le même objectif.

Performance

Lors de tests en conditions réelles, Jina Embeddings v2 Base Code démontre des capacités exceptionnelles, en tête du peloton dans neuf des quinze tests cruciaux de CodeNetSearch. Comparé aux modèles de géants du secteur comme Microsoft et Salesforce, il atteint des performances supérieures tout en conservant une empreinte plus efficace. Le modèle excelle particulièrement dans la compréhension de code interlinguistique, en faisant correspondre avec succès des extraits de code fonctionnellement équivalents dans différents langages de programmation. Sa fenêtre de contexte de 8 192 jetons s'avère particulièrement précieuse pour les fonctions volumineuses et les fichiers de code complexes, surpassant considérablement les modèles traditionnels qui ne gèrent généralement que quelques centaines de jetons. L'efficacité du modèle est évidente dans sa taille compacte de 307 Mo (non quantifiée), permettant une inférence rapide tout en maintenant une grande précision dans les tâches de recherche et de similarité de code.

Conseils

Pour déployer efficacement le code de base Jina Embeddings v2, les équipes doivent prendre en compte plusieurs aspects pratiques. Le modèle s'intègre parfaitement aux bases de données vectorielles populaires telles que MongoDB, Qdrant et Weaviate, ce qui facilite la création de systèmes de recherche de code évolutifs. Pour des performances optimales, implémentez un prétraitement de code approprié pour gérer la limite de 8 192 jetons, qui s'adapte généralement à la plupart des définitions de fonctions et de classes. Bien que le modèle prenne en charge 30 langages de programmation, il affiche les meilleures performances dans les six langages principaux : Python, JavaScript, Java, PHP, Go et Ruby. Les équipes doivent envisager d'utiliser le traitement par lots pour l'indexation de code à grande échelle afin d'optimiser les performances. La compatibilité RAG du modèle le rend particulièrement efficace pour les tâches automatisées de génération de documentation et de compréhension de code, bien que les équipes doivent mettre en œuvre des stratégies de segmentation appropriées pour les bases de code très volumineuses. Pour les déploiements de production, envisagez d'utiliser le point de terminaison AWS SageMaker pour l'inférence gérée et implémentez des stratégies de mise en cache appropriées pour optimiser les performances des requêtes.
Blogs qui mentionnent ce modèle
avril 08, 2025 • 21 minutes lues
jina-reranker-m0 : Reclasseur multilingue et multimodal de documents
Présentation de jina-reranker-m0, notre nouveau réordonnanceur multimodal multilingue pour la recherche de documents visuels, offrant des performances à l'état de l'art sur la recherche de longs documents multilingues et de code source.
Jina AI
Modern dot matrix text display on a dark blue background, conveying a digital feel.
septembre 27, 2024 • 15 minutes lues
Migration des embeddings Jina v2 vers v3
Nous avons rassemblé quelques conseils pour vous aider à migrer de Jina Embeddings v2 vers v3.
Alex C-G
Scott Martens
A digital upgrade theme with "V3" and a white "2", set against a green and black binary code background, with "Upgrade" centr
avril 29, 2024 • 7 minutes lues
Jina Embeddings et Reranker sur Azure : Solutions d'IA évolutives et prêtes pour l'entreprise
Les Embeddings et Rerankers de Jina sont désormais disponibles sur Azure Marketplace. Les entreprises qui privilégient la confidentialité et la sécurité peuvent maintenant facilement intégrer les modèles de pointe de Jina AI directement dans leur écosystème Azure existant.
Susana Guzmán
Futuristic black background with a purple 3D grid, featuring the "Embeddings" and "Reranker" logos with a stylized "A".
février 05, 2024 • 4 minutes lues
Optimisez vos recherches de code avec les nouveaux embeddings Jina Code
Le nouveau 𝗷𝗶𝗻𝗮-𝗲𝗺𝗯𝗲𝗱𝗱𝗶𝗻𝗴𝘀-𝘃𝟮-𝗯𝗮𝘀𝗲-𝗰𝗼𝗱𝗲 est optimisé pour la recherche de code et de docstring. Ce modèle puissant prend en charge les recherches entre l'anglais et 30 langages de programmation largement utilisés, tous avec une longueur de contexte de 8192 et des performances SOTA.
Jina AI
Abstract image with concentric circles in purple and green, featuring "jina" logo and repeated "code embeddings" text around
Des bureaux
location_on
Sunnyvale, Californie
710 Lakeway Dr, Ste 200, Sunnyvale, CA 94085, États-Unis
location_on
Berlin, Allemagne (siège social)
Prinzessinnenstraße 19-20, 10969 Berlin, Allemagne
location_on
Pékin, Chine
Niveau 5, bâtiment 6, n° 48, rue Haidian Ouest, Pékin, Chine
location_on
Shenzhen, en Chine
402 étage 4, bâtiment technologique Fu'an, Shenzhen, Chine
Fondation Recherche
Lecteur
Intégrations
Reclasseur
Recherche profonde
Classificateur
Segmenteur
Documentation de l'API
Obtenir la clé API Jina
Limite de taux
Statut de l'API
Entreprise
À propos de nous
Contacter le service commercial
Rédaction
Programme de stage
Rejoignez-nous
open_in_new
Télécharger le logo
open_in_new
Termes
Sécurité
termes et conditions
Confidentialité
Gérer les cookies
email
Jina AI © 2020-2025.