新闻
模型
产品
keyboard_arrow_down
读取器
读取URL或搜索为大模型提供更好的依据。
向量模型
世界一流的多模态多语言向量模型。
重排器
世界一流的重排器,最大限度地提高搜索相关性。

MCP 服务器
添加 mcp.jina.ai 到您的MCP工具箱,让大模型学用我们的API
open_in_new
API 文档
为您的AI 编程助手 IDE 或大模型自动生成代码
open_in_new


公司
keyboard_arrow_down
关于我们
联系销售
实习生项目
条款及条件
下载 Jina 标志
open_in_new
下载 Elastic 徽标
open_in_new



登录
login
为什么要开发代码嵌入模型?
性能基准测试
模型亮点
无缝 API 集成
新闻稿
二月 05, 2024

用全新的 Jina Code Embeddings 提升你的代码搜索体验

新的 𝗷𝗶𝗻𝗮-𝗲𝗺𝗯𝗲𝗱𝗱𝗶𝗻𝗴𝘀-𝘃𝟮-𝗯𝗮𝘀𝗲-𝗰𝗼𝗱𝗲 针对代码和文档字符串搜索进行了优化。这个强大的模型支持在英语和 30 种广泛使用的编程语言之间进行搜索,所有语言均支持 8192 上下文长度,并具有最先进的性能。
Abstract image with concentric circles in purple and green, featuring "jina" logo and repeated "code embeddings" text around
Jina AI
Jina AI • 4 分钟的读取量

代码和文档的精确搜索比以往任何时候都更加重要。我们非常激动地推出我们最新的代码嵌入模型:jina-embeddings-v2-base-code。这个新的开源编程语言嵌入模型旨在改进开发者与代码和文档的交互方式。它支持英语和 30 种主流编程语言,作为同类模型中唯一支持高达 8,192 输入 token 的开源模型而脱颖而出。jina-embeddings-v2-base-code 现已在 HuggingFace 上以 Apache 2.0 许可证发布,并可通过我们的 Embedding API 免费使用。

0:00
/0:07

访问 Embedding API 并从下拉列表中选择 jina-embeddings-v2-base-code。免费体验 100 万个 token。

tag为什么要开发代码嵌入模型?

开发者经常需要浏览大量代码库,不是为了寻找错误,而是为了定位特定功能或理解某些流程是如何实现的。这项任务往往耗时费力,有时就像大海捞针。集成开发环境(IDE)通过提供自动化信息搜索的工具和功能,显著改善了这一过程。然而,仍有进一步提升的空间,这正是我们的嵌入模型发挥作用的地方。

tagjina-embeddings-v2-base-code 的使用场景

通过整合 AI 驱动的搜索功能,我们不仅增强了 IDE 中的现有功能,还改变了开发者与代码库交互的方式。这项技术超越了简单的文本搜索,提供了语义理解能力,可以解读查询背后的意图,从而显著减少代码审查、单元测试和整体质量管理所需的时间和精力。

增强的代码导航

  • 查询格式:用自然语言描述你要搜索的功能或代码片段。
  • 检索结果格式:相关的代码文件或代码片段,以及指向代码特定部分的注释或高亮。

简化的代码审查

  • 查询格式:描述你想要在代码库中审查的编程概念或模式。
  • 检索结果格式:匹配所描述概念、模式或最佳实践的代码片段或拉取请求列表,使审查者能够专注于需要改进的关键领域。

自动化文档辅助

  • 查询格式:需要文档或解释的代码片段。
  • 检索结果格式:建议的 docstring 或文档条目,解释代码的功能、参数和返回类型,使维护最新和全面的文档变得更加容易。

通过解决这些具体的使用场景,jina-embeddings-v2-base-code 不仅提升了开发体验,还促进了更具协作性和效率的编码环境。

tag性能基准测试

在精确度和准确度至关重要的领域,jina-embeddings-v2-base-code 在十五个关键 CodeNetSearch 基准测试中的九个中表现优异。不仅如此,我们的模型在其余基准测试中也保持着极具竞争力的分数。与包括微软和 Salesforce 在内的最接近的竞争对手相比,jina-embeddings-v2-base-code 不仅排名更高,还展示了其卓越的设计和能力。

Table of NLP model results comparing performance metrics across multiple programming languages.
我们模型的卓越表现不仅仅是个别案例;总的来说,所有 Jina Embedding 模型在相关基准测试中都取得了最高排名,在代码检索开源模型中脱颖而出。

tag模型亮点

  • 领先的性能:我们对卓越的追求体现在 Jina Embedding 模型的表现上,它们在基准测试中始终名列前茅,超越其他开源产品,甚至优于微软和 Salesforce 的模型。
  • 小巧而强大:在 AI 领域,效率至关重要。jina-embeddings-v2-base-code 拥有 1.61 亿个参数(未量化前为 307MB),设计注重效率,在不损失性能的同时提供高速表现和成本节省。
  • 扩展的上下文能力:能够处理高达 8192 个 token,可以处理大型函数和众多对象文件,提供的理解深度和上下文超越了仅支持几百个 token 的模型的局限性。
  • 多语言支持:为了实现多功能性,我们的模型训练涵盖了 30 种编程语言和框架,重点强调六种最流行的语言:Python、JavaScript、Java、PHP、Go 和 Ruby。这种广泛的覆盖确保 jina-embeddings-v2-base-code 能够满足编程社区的多样化需求。
  • RAG 集成实现无缝代码生成:该模型与 RAG 的兼容性以及与代码生成模型的集成不仅可以从通用知识生成代码,还能够读取相关 API 和文档,从而实现高效准确的自动代码集成。

tag无缝 API 集成

jina-embeddings-v2-base-code 设计为易于集成,支持主要的向量数据库,如 MongoDB、Qdrant 和 Weaviate,以及 Haystack 和 LlamaIndex 等框架。这确保开发者可以轻松地将我们的模型整合到他们现有的系统中,利用其功能来增强代码检索和文档处理。

Black background with colorful logos including MongoDB, Pinecone, and Chroma for various tech projects.
支持我们嵌入式 API 的框架

我们重视您对 jina-embeddings-v2-base-code 的反馈。加入我们的社区频道,提供反馈并了解我们的最新进展。让我们一起打造一个更强大、更包容的 AI 未来。

类别:
新闻稿
rss_feed

更多新闻
十二月 04, 2025 • 7 分钟的读取量
Jina-VLM:小型多语言视觉语言模型
Jina AI
Artistic representation of "Vln" in vibrant, rainbow-like colors on a minimalistic white background, with a focus on color di
十月 03, 2025 • 7 分钟的读取量
Jina Reranker v3:用于 SOTA 多语言检索的 0.6B Listwise 重排器
Jina AI
Light blue background with stylized text in the center, composed of small dots or squares, evoking a modern and minimalistic
九月 04, 2025 • 6 分钟的读取量
Jina Code Embeddings:0.5B 和 1.5B 参数规模下的 SOTA 代码检索向量模型
Jina AI
Green "Code Embeddings" text displayed in a LED dot style on a black background, evoking a futuristic and technological atmos
办公室
location_on
加利福尼亚州桑尼维尔
710 Lakeway Dr, Ste 200, 桑尼维尔, 加州 94085, 美国
location_on
德国柏林(总部)
Prinzessinnenstraße 19-20,10969 柏林,德国
搜索底座
读取器
向量模型
重排器
获取 Jina API 密钥
速率限制
API 状态
公司
关于我们
联系销售
新闻
实习生项目
下载 Jina 标志
open_in_new
下载 Elastic 徽标
open_in_new
条款
安全
条款及条件
隐私
管理 Cookie
email
Jina AI,一家 Elastic 公司 © 2020-2025.