新闻
模型
API
keyboard_arrow_down
读取器
读取URL或搜索为大模型提供更好的依据。
向量模型
世界一流的多模态多语言向量模型。
重排器
世界一流的重排器,最大限度地提高搜索相关性。
Elastic Inference Service
在 Elasticsearch 中原生运行 Jina 模型。
MCP terminal命令行articlellms.txtsmart_toy代理人data_object模式menu_book文档



登录
login
向量模型
copyright CC BY-NC 4.0
open_in_new 发行说明

jina-code-embeddings-0.5b

来自代码生成模型的高效代码向量
许可证
copyright CC-BY-NC-4.0
发布日期
calendar_month
2025-09-01
输入
abc
文本(代码)
arrow_forward
输出
more_horiz
向量
支持的俄罗斯套娃维度 help_outline
64
128
256
512
896
迟分技术 help_outline
cancel
No
模型详细信息
参数: 494M
输入词元长度: 32K
输出维度: 896
底座模型 help_outline
open_in_new
Qwen2.5-Coder-0.5B
训练过的语言 help_outline
1 语言
支持的语言 help_outline
29 语言
量化版本 help_outline
GGUF
相关模型
link
jina-code-embeddings-1.5b
link
jina-embeddings-v2-base-code
支持的任务
translate NL→代码
help_center 技术质量保证
sync_alt 代码→代码
description Code→NL
auto_fix_high 完成
标签
code-embeddings
programming-languages
semantic-code-search
code-similarity
long-context
text-embeddings
multilingual-code
docstring-search
可通过以下方式获取
Jina API亚马逊云微软云谷歌云抱抱脸
I/O 图

代码

jina-code-embeddings

任务

向量

选择要比较的模型
论文 (1)
NeurIPS 2025
八月 31, 2025
Efficient Code Embeddings from Code Generation Models

概述

jina-code-embeddings-0.5b 是一个包含 4.94 亿个参数的代码向量模型,旨在从自然语言查询、技术问答中检索代码,并识别跨语言的相似代码。该模型基于 Qwen2.5-Coder-0.5B 主干网络构建,通过最后一个词法单元池化生成向量,并解决了传统代码向量模型依赖于注释和文档字符串等稀缺对齐数据的根本局限性。该模型利用大模型训练中使用的大量未对齐代码和文档,尽管规模较小,但仍实现了最佳性能。它支持五种具有特定指令前缀的任务类别:NL2Code、TechQA、Code2Code、Code2NL 和 Code2Completion。该模型实现了可截断向量的 Matryoshka 表示学习,从而允许灵活地权衡精度和资源。

方法

该模型采用 InfoNCE 损失函数进行对比训练,温度 τ=0.05,批次大小 512,序列长度 512。训练数据包括 MTEB 代码任务、CoSQA+、经过调整的公共数据集以及用于罕见场景的 GPT-4o 合成数据。特定于任务的指令前缀会根据查询和文档对模型进行不同的条件调整 - 例如,NL2Code 使用“根据以下查询查找最相关的代码片段:”来处理查询。在四块 A100 GPU 上进行 1500 步训练耗时 8.3 小时。在消融研究中,最后标记池化的表现优于平均注意力池化和潜在注意力池化。对比方法将查询-文档对视为正例,将交叉组合视为每个批次中的负例。

性能

在各项基准测试中,其总体平均得分达到 78.41%,MTEB 代码平均得分达到 78.72%。值得关注的得分包括 HumanEval 的 96.77%、MBPP 的 89.01%、WikiSQL 的 98.31% 和 CodeChefXLang 的 99.70%。其性能优于类似规模的 Qwen3-Embedding-0.6B 以及更大规模的模型,例如 jina-embeddings-v4 (74.11%) 和 gemini-embedding-001 (77.38%)。在代码到代码检索方面表现出色,在 CodeTransOceanContest 上得分为 90.37%。NL2Code 性能强劲,在 COIR-CodeSearchNet 上得分为 85.73%,在 Doc2Code 上得分为 95.98%。其技术问答能力在 StackOverflowQA 上达到了 91.04%。

最佳实践

始终为查询和文档使用适当的特定于任务的指令前缀。利用 Matryoshka 向量来平衡质量和资源——从全维度开始,并根据需要截断。最佳批量大小为 512,序列长度为 512 个标记。使用余弦相似度进行向量比较。鉴于 CodeChefXLang 的性能高达 99.70%,非常适合多语言代码搜索。考虑采用两阶段检索,先从该模型中获取初始候选集,然后进行重新排序。由于其紧凑的尺寸,非常适合边缘部署和实时应用。缓存频繁访问的向量,并为大型代码库实现分层索引。
提及此模型的博客
十月 03, 2025 • 7 分钟的读取量
Jina Reranker v3:用于 SOTA 多语言检索的 0.6B Listwise 重排器
全新 0.6B 参数的 listwise 重排器,可在单个上下文窗口中考虑查询和所有候选文档。
Jina AI
Light blue background with stylized text in the center, composed of small dots or squares, evoking a modern and minimalistic
九月 30, 2025 • 8 分钟的读取量
向量模型是 AI 界的灰姑娘
向量模型可能不是人工智能行业中最吸引人的部分,但如果没有它们,图像生成器和聊天机器人就不可能存在。
Scott Martens
Humorous office cartoon depicting a team gathered around robots; signs labeled "embeddings", "tools", "reasoning", and "lol"
九月 04, 2025 • 6 分钟的读取量
Jina Code Embeddings:0.5B 和 1.5B 参数规模下的 SOTA 代码检索向量模型
代码生成大模型 → 代码向量模型:0.5B/1.5B 模型在 25 个代码检索基准测试中实现了 SOTA 性能。
Jina AI
Green "Code Embeddings" text displayed in a LED dot style on a black background, evoking a futuristic and technological atmos
搜索底座
读取器
向量模型
重排器
Elastic Inference Service
open_in_new
获取 Jina API 密钥
速率限制
API 状态
公司
关于我们
联系销售
新闻
实习生项目
下载 Jina 标志
open_in_new
下载 Elastic 徽标
open_in_new
条款
安全
条款及条件
隐私
管理 Cookie
email
Elastic © 2020-2026.