ニュース
モデル
API
keyboard_arrow_down
読者
URL を読み取ったり検索したりすると、大規模なモデルのサポートが向上します。
ベクトルモデル
世界クラスのマルチモーダル、多言語埋め込み。
並べ替え者
検索の関連性を最大化する世界クラスのニューラルレトリーバー。
MCP terminalコマンドラインarticlellms.txtsmart_toyエージェントdata_objectモデルmenu_book書類



ログイン
login
ベクトルモデル
copyright CC BY-NC 4.0
open_in_new リリースノート

jina-code-embeddings-1.5b

コード生成モデルからの効率的なコードベクトル
ライセンス
copyright CC-BY-NC-4.0
発売日
calendar_month
2025-09-01
入力
abc
テキスト(コード)
arrow_forward
出力
more_horiz
ベクター
サポートされているロシア人形の寸法 help_outline
128
256
512
1024
1536
後期分割法 help_outline
cancel
No
モデル詳細
パラメータ: 1.5B
単語の長さを入力してください: 32K
出力寸法: 1536
ベースモデル help_outline
open_in_new
Qwen2.5-Coder-1.5B
訓練された言語 help_outline
1 言語
サポートされている言語 help_outline
29 言語
定量版 help_outline
GGUF
関連機種
link
jina-code-embeddings-0.5b
link
jina-embeddings-v2-base-code
サポートされているタスク
translate NL → コード
help_center 技術品質保証
sync_alt コード → コード
description コード→NL
auto_fix_high 仕上げる
ラベル
code-embeddings
programming-languages
semantic-code-search
code-similarity
long-context
text-embeddings
multilingual-code
docstring-search
以下の方法で入手できます
APIアマゾンクラウドマイクロソフトクラウドグーグルクラウド顔を抱きしめる
I/O 図

コード

jina-code-embeddings

タスク

ベクター

比較するモデルを選択してください
紙 (1)
NeurIPS 2025
8月 31, 2025
Efficient Code Embeddings from Code Generation Models

概要

jina-code-embeddings-1.5bは、15億4千万パラメータのモデルであり、コード検索能力を大幅に向上させます。Qwen2.5-Coder-1.5Bバックボーンを基盤とし、ラストトークンプーリングを採用したこのモデルは、従来の限られたアラインメントデータを用いたトレーニングの限界を克服し、膨大なアラインメントされていないコードおよびドキュメントコーパスを活用できます。このモデルは、NL2Code、TechQA、Code2Code、Code2NL、Code2Completionの5つのカテゴリにまたがる包括的なタスク固有の指示を実装しており、それぞれクエリとドキュメントに異なるプレフィックスが付与されます。柔軟なベクトル切り捨てを実現するMatryoshka表現学習をサポートしています。サイズが大きいにもかかわらず、実用的な展開特性を維持しながら、はるかに大規模な代替モデルに匹敵するベンチマーク性能を達成しています。

方法

対照学習はInfoNCE損失関数を用いて、温度τ=0.05、バッチサイズ256(メモリ効率調整済み)、シーケンス長512で実施しました。学習には4つのA100 GPUを使用し、1500ステップで12時間を要しました。包括的な学習データには、MTEBセグメンテーション、CoSQA+、CodeSearchNet、CommitPackFT、そしてフレームワーク変換などのあまり知られていないシナリオのためのGPT-4o合成データが含まれていました。タスク固有のプレフィックスにより、ニュアンス理解が容易になります。Code2Codeは「以下の条件で同等のコードスニペットを見つける」といったクエリを使用します。アブレーション実験では、ラストトークンプーリングが優れていることが示されました。対照学習は、すべてのバッチの組み合わせを正負のペアとして学習信号を乗算することで実現されます。

パフォーマンス

全体平均スコア79.04%、MTEBコード平均スコア78.94%を達成し、当該パラメータカテゴリにおいて新たなベンチマークを樹立しました。HumanEvalで98.41%、MBPPで90.13%、WikiSQLで98.02%、CodeChefXLangで99.44%という優れた結果も収めています。コード間検索はCodeTransOceanContestで92.54%を達成しました。NL2CodeはCOIR-CodeSearchNetで86.45%、Doc2Codeで96.34%を達成しました。技術Q&AはStackOverflowQAで92.37%を達成しました。より大規模な代替手段を凌駕し、0.5Bリリースでも特にSWE-Bench(83.00%に対して86.33%)のような複雑なタスクにおいて改善が続いています。

ガイド

検索ニーズに基づいて命令プレフィックスを戦略的に使用し、パイプライン全体の一貫性を維持します。キャパシティの増加は、複数のパラダイムと大規模なコードベースを含む複雑なシナリオに最適です。ユースケースを分析して最適なMatryoshkaディメンションを決定し、品質とリソースのバランスを取ります。トレーニングと本番環境の一貫性の調整には、256のバッチサイズを使用します。CodeChefXLangのパフォーマンスは99.44%であるため、リポジトリ間および言語間の検索に最適です。RAGシステムの主要検索コンポーネントとして実装されています。ベクトルの類似性に基づく信頼度スコアリングの使用を検討してください。1秒未満のレイテンシでパフォーマンスと効率のバランスを必要とするエンタープライズ展開に最適です。頻繁に使用されるベクトルをキャッシュし、階層型インデックスを使用して速度を向上させます。
このモデルについて言及しているブログ
9月 30, 2025 • 8 読む時間
AIの赤毛の継子、ベクトルモデル
ベクトルモデルは、AI業界で最も華やかな側面ではありませんが、画像生成ツールやチャットボットは、ベクトルモデルなしには存在し得ません。
Scott Martens
Humorous office cartoon depicting a team gathered around robots; signs labeled "embeddings", "tools", "reasoning", and "lol"
9月 04, 2025 • 6 読む時間
Jina Code Embeddings: 0.5B および 1.5B で SOTA のコード検索を実現
コード生成LLM → コードのベクトルモデル:0.5B/1.5Bのモデルが25のコード検索ベンチマークでSOTA(最高性能)を達成。
Jina AI
Green "Code Embeddings" text displayed in a LED dot style on a black background, evoking a futuristic and technological atmos
オフィス
location_on
カリフォルニア州サニーベール
710 Lakeway Dr, Ste 200, サニーベール, カリフォルニア州 94085, アメリカ合衆国
location_on
ベルリン、ドイツ
Prinzessinnenstraße 19-20、10969 ベルリン、ドイツ
検索ベース
読者
ベクトルモデル
並べ替え者
Jina APIキーを取得する
レート制限
APIステータス
会社
私たちについて
営業担当者に問い合わせる
ニュース
インターンシッププログラム
Jinaロゴをダウンロード
open_in_new
Elasticロゴをダウンロード
open_in_new
条項
安全性
利用規約
プライバシー
Cookieを管理する
email
エラスティックジナAI © 2020-2026.