jina-embeddings-v2-base-code

コードおよび技術文書検索用のベクトルモデル

リリースノート

ライセンス

Apache-2.0

発売日

2024-02-05

入力

テキスト（コード）

出力

ベクター

モデル詳細

パラメータ: 137M

単語の長さを入力してください: 8K

出力寸法: 768

言語サポート

🇺🇸 英語

概要

Jina Embeddings v2 コードベースは、大規模なコードベースを効率的にナビゲートして理解するという、現代のソフトウェア開発における重要な課題を解決します。コードの発見と文書化に苦労している開発チームにとって、このモデルは 30 のプログラミング言語にわたる自然言語検索を可能にし、開発者がコードを操作する方法を変えます。正確なパターンマッチングに依存する従来のコード検索ツールとは異なり、このモデルはコードの背後にある意味論的な意味を理解するため、開発者は平易な英語の説明を使用して関連するコードスニペットを見つけることができます。この機能は、大規模なレガシーコードベースを維持しているチーム、新しいプロジェクトに参加している開発者、またはコードの再利用とドキュメント化の実践を改善しようとしている組織にとって特に価値があります。

方法

このモデルは、コード理解のために特別に設計された専用アーキテクチャを通じて、優れたパフォーマンスを実現します。その中核となるのは、Python、JavaScript、Java、PHP、Go、Ruby の 6 つの主要言語に重点を置いた、さまざまなプログラミング言語データセットでトレーニングされた 1 億 6,100 万のパラメーターを備えた Transformer ベースのニューラルネットワークです。このアーキテクチャは、8,192 トークンの拡張コンテキストウィンドウにより、セマンティックな理解を維持しながら関数全体または複数のファイルを同時に処理できるという点で独特です。このモデルは、コードの構文構造と意味論的な意味を捉える高密度の 768 次元ベクトルを生成するため、同じ目標を達成するために異なるプログラミングパターンや構文を使用している場合でも、異なるコードセグメント間の関係を理解できるようになります。

パフォーマンス

実際のテストでは、Jina Embeddings v2 Base Code は優れた機能を実証し、CodeNetSearch の主要なベンチマーク 15 件中 9 件で首位を獲得しました。 Microsoft や Salesforce などの業界大手のモデルと比較して、より効率的な設置面積を維持しながら、優れたパフォーマンスを実現します。このモデルは、言語を越えたコードの理解に特に優れており、異なるプログラミング言語で機能的に同等のコードスニペットを首尾よく照合します。 8,192 トークンのコンテキストウィンドウは、大規模な関数や複雑なコードファイルにとって特に価値があり、多くの場合数百トークンしか処理できない従来のモデルよりもはるかに優れています。このモデルの効率は 307MB (非量子化) というコンパクトなサイズに反映されており、コードの類似性と検索タスクで高い精度を維持しながら高速な推論が可能になります。

ガイド

Jina Embeddings v2 コードベースを効果的に展開するには、チームはいくつかの実用的な側面を考慮する必要があります。このモデルは、MongoDB、Qdrant、Weaviate などの一般的なベクトルデータベースとシームレスに統合されており、スケーラブルなコード検索システムを簡単に構築できます。最高のパフォーマンスを得るには、8,192 トークンの制限を処理する適切なコード前処理を実装します。通常、これはほとんどの関数およびクラス定義に対応します。このモデルは 30 のプログラミング言語をサポートしていますが、Python、JavaScript、Java、PHP、Go、Ruby の 6 つのコア言語で最も強力なパフォーマンスを示します。チームは、パフォーマンスを最適化するために、大規模なコードのインデックス作成にバッチ処理の使用を検討する必要があります。モデルの RAG 互換性により、自動ドキュメント生成やコード理解タスクに特に効果的ですが、チームは非常に大規模なコードベースに対して適切なチャンク戦略を実装する必要があります。本番環境のデプロイでは、マネージド推論に AWS SageMaker エンドポイントの使用を検討し、適切なキャッシュ戦略を実装してクエリのパフォーマンスを最適化します。

このモデルについて言及しているブログ

4月 08, 2025 • 21 読む時間

jina-reranker-m0：多言語マルチモーダルドキュメントリランカー

視覚的なドキュメントを検索するための新しい多言語・マルチモーダルリランカー jina-reranker-m0 を紹介します。多言語の長文ドキュメントやコード検索タスクにおいて、最先端（SOTA）の性能を実現しています。