jina-code-embeddings-1.5b

コード生成モデルからの効率的なコードベクトル

ライセンス

CC-BY-NC-4.0

発売日

2025-09-01

入力

テキスト（コード）

出力

ベクター

サポートされているロシア人形の寸法

128

256

512

1024

1536

後期分割法

モデル詳細

パラメータ: 1.5B

単語の長さを入力してください: 32K

出力寸法: 1536

ベースモデル

Qwen2.5-Coder-1.5B

訓練された言語

1 言語

サポートされている言語

29 言語

定量版

GGUF

概要

jina-code-embeddings-1.5bは、15億4千万パラメータのモデルであり、コード検索能力を大幅に向上させます。Qwen2.5-Coder-1.5Bバックボーンを基盤とし、ラストトークンプーリングを採用したこのモデルは、従来の限られたアラインメントデータを用いたトレーニングの限界を克服し、膨大なアラインメントされていないコードおよびドキュメントコーパスを活用できます。このモデルは、NL2Code、TechQA、Code2Code、Code2NL、Code2Completionの5つのカテゴリにまたがる包括的なタスク固有の指示を実装しており、それぞれクエリとドキュメントに異なるプレフィックスが付与されます。柔軟なベクトル切り捨てを実現するMatryoshka表現学習をサポートしています。サイズが大きいにもかかわらず、実用的な展開特性を維持しながら、はるかに大規模な代替モデルに匹敵するベンチマーク性能を達成しています。

方法

対照学習はInfoNCE損失関数を用いて、温度τ=0.05、バッチサイズ256（メモリ効率調整済み）、シーケンス長512で実施しました。学習には4つのA100 GPUを使用し、1500ステップで12時間を要しました。包括的な学習データには、MTEBセグメンテーション、CoSQA+、CodeSearchNet、CommitPackFT、そしてフレームワーク変換などのあまり知られていないシナリオのためのGPT-4o合成データが含まれていました。タスク固有のプレフィックスにより、ニュアンス理解が容易になります。Code2Codeは「以下の条件で同等のコードスニペットを見つける」といったクエリを使用します。アブレーション実験では、ラストトークンプーリングが優れていることが示されました。対照学習は、すべてのバッチの組み合わせを正負のペアとして学習信号を乗算することで実現されます。

パフォーマンス

全体平均スコア79.04%、MTEBコード平均スコア78.94%を達成し、当該パラメータカテゴリにおいて新たなベンチマークを樹立しました。HumanEvalで98.41%、MBPPで90.13%、WikiSQLで98.02%、CodeChefXLangで99.44%という優れた結果も収めています。コード間検索はCodeTransOceanContestで92.54%を達成しました。NL2CodeはCOIR-CodeSearchNetで86.45%、Doc2Codeで96.34%を達成しました。技術Q&AはStackOverflowQAで92.37%を達成しました。より大規模な代替手段を凌駕し、0.5Bリリースでも特にSWE-Bench（83.00%に対して86.33%）のような複雑なタスクにおいて改善が続いています。

ガイド

検索ニーズに基づいて命令プレフィックスを戦略的に使用し、パイプライン全体の一貫性を維持します。キャパシティの増加は、複数のパラダイムと大規模なコードベースを含む複雑なシナリオに最適です。ユースケースを分析して最適なMatryoshkaディメンションを決定し、品質とリソースのバランスを取ります。トレーニングと本番環境の一貫性の調整には、256のバッチサイズを使用します。CodeChefXLangのパフォーマンスは99.44%であるため、リポジトリ間および言語間の検索に最適です。RAGシステムの主要検索コンポーネントとして実装されています。ベクトルの類似性に基づく信頼度スコアリングの使用を検討してください。1秒未満のレイテンシでパフォーマンスと効率のバランスを必要とするエンタープライズ展開に最適です。頻繁に使用されるベクトルをキャッシュし、階層型インデックスを使用して速度を向上させます。

このモデルについて言及しているブログ

9月 30, 2025 • 8 読む時間

AIの赤毛の継子、ベクトルモデル

ベクトルモデルは、AI業界で最も華やかな側面ではありませんが、画像生成ツールやチャットボットは、ベクトルモデルなしには存在し得ません。

9月 04, 2025 • 6 読む時間

Jina Code Embeddings: 0.5B および 1.5B で SOTA のコード検索を実現

コード生成LLM → コードのベクトルモデル：0.5B/1.5Bのモデルが25のコード検索ベンチマークでSOTA（最高性能）を達成。