Pressemitteilungen
Modelle
Produkte
keyboard_arrow_down
Leser
Lesen Sie URLs und suchen Sie im Internet nach fundierteren LLMs.
Einbettungen
Multimodale und mehrsprachige Einbettungen von Weltklasse.
Reranker
Neural Retriever der Weltklasse zur Maximierung der Suchrelevanz.
DeepSearch
Suchen, lesen und überlegen, bis die beste Antwort gefunden ist.
Mehr
keyboard_arrow_down
Klassifikator
Zero-Shot- und Few-Shot-Klassifizierung für Bild und Text.
Segmentierer
Schneiden Sie langen Text in Abschnitte und führen Sie eine Tokenisierung durch.

API-Dokumente
Automatische Codegenerierung für Ihre Copilot-IDE oder LLM
open_in_new


Unternehmen
keyboard_arrow_down
Über uns
Kontaktieren Sie unseren Vertrieb
Praktikantenprogramm
Begleiten Sie uns
open_in_new
Logo herunterladen
open_in_new
Terms & amp; Bedingungen


Einloggen
login
warning
Dieses Modell wird durch neuere Modelle ersetzt.

jina-embeddings-v2-base-code

Optimiert für die Suche nach Code und Dokumentzeichenfolgen
Beitrag veröffentlichenarrow_forward
Lizenz
license
Apache-2.0
Veröffentlichungsdatum
calendar_month
2024-02-05
Eingang
abc
Text (Code)
arrow_forward
Ausgabe
more_horiz
Vektor
Modelldetails
Parameter: 137M
Länge des Eingabetokens: 8K
Ausgabedimension: 768
Sprachunterstützung
🇺🇸 Englisch
Ähnliche Modelle
link
jina-embeddings-v2-base-en
Schlagwörter
code-embeddings
programming-languages
semantic-code-search
code-similarity
long-context
text-embeddings
multilingual-code
docstring-search
Erhältlich über
Jina-APIAWS SageMakerMicrosoft AzureUmarmendes Gesicht
E/A-Diagramm
Wählen Sie Modelle zum Vergleichen aus

Überblick

Jina Embeddings v2 Base Code bewältigt eine entscheidende Herausforderung der modernen Softwareentwicklung: die effiziente Navigation und das Verständnis großer Codebasen. Für Entwicklungsteams, die mit der Code-Erkennung und -Dokumentation zu kämpfen haben, verändert dieses Modell die Art und Weise, wie Entwickler mit Code interagieren, indem es die Suche in natürlicher Sprache in 30 Programmiersprachen ermöglicht. Im Gegensatz zu herkömmlichen Code-Suchtools, die auf exakter Musterübereinstimmung basieren, versteht dieses Modell die semantische Bedeutung hinter dem Code und ermöglicht es Entwicklern, relevante Codeausschnitte anhand einfacher englischer Beschreibungen zu finden. Diese Funktion ist besonders wertvoll für Teams, die große Legacy-Codebasen pflegen, Entwickler, die in neue Projekte einsteigen, oder Organisationen, die die Wiederverwendung von Code und die Dokumentationspraktiken verbessern möchten.

Methoden

Das Modell erreicht seine beeindruckende Leistung durch eine spezielle Architektur, die speziell für das Codeverständnis entwickelt wurde. Im Kern verwendet es ein transformatorbasiertes neuronales Netzwerk mit 161 Millionen Parametern, das anhand verschiedener Programmiersprachen-Datensätze trainiert wurde, wobei der Schwerpunkt auf sechs Hauptsprachen liegt: Python, JavaScript, Java, PHP, Go und Ruby. Was diese Architektur einzigartig macht, ist ihr erweitertes Kontextfenster mit 8.192 Token, das es ermöglicht, ganze Funktionen oder mehrere Dateien gleichzeitig zu verarbeiten und gleichzeitig das semantische Verständnis aufrechtzuerhalten. Das Modell generiert dichte 768-dimensionale Einbettungen, die sowohl die syntaktische Struktur als auch die semantische Bedeutung des Codes erfassen und es ihm ermöglichen, Beziehungen zwischen verschiedenen Codesegmenten zu verstehen, selbst wenn sie unterschiedliche Programmiermuster oder Syntax verwenden, um dasselbe Ziel zu erreichen.

Leistung

In Tests unter realen Bedingungen zeigt Jina Embeddings v2 Base Code außergewöhnliche Fähigkeiten und ist in neun von fünfzehn entscheidenden CodeNetSearch-Benchmarks führend. Im Vergleich zu Modellen von Branchenriesen wie Microsoft und Salesforce erreicht es eine überlegene Leistung bei gleichzeitig effizienterem Platzbedarf. Das Modell zeichnet sich insbesondere durch sprachübergreifendes Codeverständnis aus und gleicht erfolgreich funktional gleichwertige Codeausschnitte in verschiedenen Programmiersprachen ab. Sein Kontextfenster mit 8.192 Token erweist sich als besonders wertvoll für große Funktionen und komplexe Codedateien und übertrifft herkömmliche Modelle, die normalerweise nur einige hundert Token verarbeiten, deutlich. Die Effizienz des Modells zeigt sich in seiner kompakten Größe von 307 MB (unquantisiert), die schnelle Inferenz ermöglicht und gleichzeitig eine hohe Genauigkeit bei Codeähnlichkeit und Suchaufgaben beibehält.

Anleitung

Um Jina Embeddings v2 Base Code effektiv einzusetzen, sollten Teams mehrere praktische Aspekte berücksichtigen. Das Modell lässt sich nahtlos in beliebte Vektordatenbanken wie MongoDB, Qdrant und Weaviate integrieren, sodass sich skalierbare Codesuchsysteme leicht erstellen lassen. Für optimale Leistung implementieren Sie eine geeignete Codevorverarbeitung, um das 8.192-Token-Limit zu handhaben, das normalerweise die meisten Funktions- und Klassendefinitionen abdeckt. Obwohl das Modell 30 Programmiersprachen unterstützt, zeigt es die beste Leistung in den sechs Kernsprachen: Python, JavaScript, Java, PHP, Go und Ruby. Teams sollten die Verwendung von Batchverarbeitung für die Indizierung von Code im großen Maßstab in Betracht ziehen, um die Leistung zu optimieren. Die RAG-Kompatibilität des Modells macht es besonders effektiv für die automatische Dokumentationserstellung und das Codeverständnis, obwohl Teams geeignete Chunking-Strategien für sehr große Codebasen implementieren sollten. Erwägen Sie für Produktionsbereitstellungen die Verwendung des AWS SageMaker-Endpunkts für verwaltete Inferenz und implementieren Sie geeignete Caching-Strategien, um die Abfrageleistung zu optimieren.
Blogs, die dieses Modell erwähnen
April 08, 2025 • 21 Minuten gelesen
jina-reranker-m0: Mehrsprachiger multimodaler Dokument-Reranker
Wir stellen jina-reranker-m0 vor, unseren neuen mehrsprachigen multimodalen Reranker für das Abrufen visueller Dokumente, mit SOTA-Performance bei mehrsprachigen langen Dokumenten und Code-Suchaufgaben.
Jina AI
Modern dot matrix text display on a dark blue background, conveying a digital feel.
September 27, 2024 • 15 Minuten gelesen
Migration von Jina Embeddings v2 zu v3
Wir haben einige Tipps zusammengestellt, die Ihnen bei der Migration von Jina Embeddings v2 auf v3 helfen.
Alex C-G
Scott Martens
A digital upgrade theme with "V3" and a white "2", set against a green and black binary code background, with "Upgrade" centr
April 29, 2024 • 7 Minuten gelesen
Jina Embeddings und Reranker auf Azure: Skalierbare KI-Lösungen für Unternehmensanwendungen
Jina Embeddings und Reranker sind jetzt im Azure Marketplace verfügbar. Unternehmen, die Datenschutz und Sicherheit priorisieren, können Jina AIs hochmoderne Modelle nun problemlos direkt in ihr bestehendes Azure-Ökosystem integrieren.
Susana Guzmán
Futuristic black background with a purple 3D grid, featuring the "Embeddings" and "Reranker" logos with a stylized "A".
Februar 05, 2024 • 4 Minuten gelesen
Optimieren Sie Ihre Code-Suche mit den neuen Jina Code Embeddings
Das neue 𝗷𝗶𝗻𝗮-𝗲𝗺𝗯𝗲𝗱𝗱𝗶𝗻𝗴𝘀-𝘃𝟮-𝗯𝗮𝘀𝗲-𝗰𝗼𝗱𝗲 ist für die Suche nach Code und Docstrings optimiert. Dieses leistungsstarke Modell unterstützt Suchen zwischen Englisch und 30 häufig verwendeten Programmiersprachen, alle mit einer Kontextlänge von 8192 und SOTA-Performance.
Jina AI
Abstract image with concentric circles in purple and green, featuring "jina" logo and repeated "code embeddings" text around
Büros
location_on
Sunnyvale, Kalifornien
710 Lakeway Dr, Ste 200, Sunnyvale, CA 94085, USA
location_on
Berlin, Deutschland (Hauptsitz)
Prinzessinnenstraße 19-20, 10969 Berlin, Deutschland
location_on
Peking, China
Ebene 5, Gebäude 6, Nr. 48 Haidian West St. Peking, China
location_on
Shenzhen, China
402 Etage 4, Fu'an Technology Building, Shenzhen, China
Stiftung durchsuchen
Leser
Einbettungen
Reranker
DeepSearch
Klassifikator
Segmentierer
API-Dokumentation
Jina API-Schlüssel abrufen
Ratenbegrenzung
API-Status
Unternehmen
Über uns
Kontaktieren Sie unseren Vertrieb
Pressemitteilungen
Praktikantenprogramm
Begleiten Sie uns
open_in_new
Logo herunterladen
open_in_new
Bedingungen
Sicherheit
Terms & amp; Bedingungen
Privatsphäre
Cookie-Einstellungen
email
Jina AI © 2020-2025.