以下の方法で入手できます
I/O 図
比較するモデルを選択してください
紙 (1)
概要
jina-code-embeddings-1.5bは、15億4千万パラメータのモデルであり、コード検索能力を大幅に向上させます。Qwen2.5-Coder-1.5Bバックボーンを基盤とし、ラストトークンプーリングを採用したこのモデルは、従来の限られたアラインメントデータを用いたトレーニングの限界を克服し、膨大なアラインメントされていないコードおよびドキュメントコーパスを活用できます。このモデルは、NL2Code、TechQA、Code2Code、Code2NL、Code2Completionの5つのカテゴリにまたがる包括的なタスク固有の指示を実装しており、それぞれクエリとドキュメントに異なるプレフィックスが付与されます。柔軟なベクトル切り捨てを実現するMatryoshka表現学習をサポートしています。サイズが大きいにもかかわらず、実用的な展開特性を維持しながら、はるかに大規模な代替モデルに匹敵するベンチマーク性能を達成しています。
方法
対照学習はInfoNCE損失関数を用いて、温度τ=0.05、バッチサイズ256(メモリ効率調整済み)、シーケンス長512で実施しました。学習には4つのA100 GPUを使用し、1500ステップで12時間を要しました。包括的な学習データには、MTEBセグメンテーション、CoSQA+、CodeSearchNet、CommitPackFT、そしてフレームワーク変換などのあまり知られていないシナリオのためのGPT-4o合成データが含まれていました。タスク固有のプレフィックスにより、ニュアンス理解が容易になります。Code2Codeは「以下の条件で同等のコードスニペットを見つける」といったクエリを使用します。アブレーション実験では、ラストトークンプーリングが優れていることが示されました。対照学習は、すべてのバッチの組み合わせを正負のペアとして学習信号を乗算することで実現されます。
パフォーマンス
全体平均スコア79.04%、MTEBコード平均スコア78.94%を達成し、当該パラメータカテゴリにおいて新たなベンチマークを樹立しました。HumanEvalで98.41%、MBPPで90.13%、WikiSQLで98.02%、CodeChefXLangで99.44%という優れた結果も収めています。コード間検索はCodeTransOceanContestで92.54%を達成しました。NL2CodeはCOIR-CodeSearchNetで86.45%、Doc2Codeで96.34%を達成しました。技術Q&AはStackOverflowQAで92.37%を達成しました。より大規模な代替手段を凌駕し、0.5Bリリースでも特にSWE-Bench(83.00%に対して86.33%)のような複雑なタスクにおいて改善が続いています。
ガイド
検索ニーズに基づいて命令プレフィックスを戦略的に使用し、パイプライン全体の一貫性を維持します。キャパシティの増加は、複数のパラダイムと大規模なコードベースを含む複雑なシナリオに最適です。ユースケースを分析して最適なMatryoshkaディメンションを決定し、品質とリソースのバランスを取ります。トレーニングと本番環境の一貫性の調整には、256のバッチサイズを使用します。CodeChefXLangのパフォーマンスは99.44%であるため、リポジトリ間および言語間の検索に最適です。RAGシステムの主要検索コンポーネントとして実装されています。ベクトルの類似性に基づく信頼度スコアリングの使用を検討してください。1秒未満のレイテンシでパフォーマンスと効率のバランスを必要とするエンタープライズ展開に最適です。頻繁に使用されるベクトルをキャッシュし、階層型インデックスを使用して速度を向上させます。
このモデルについて言及しているブログ




