Новости
Модели
API
keyboard_arrow_down
Читатель
Читайте URL-адреса и ищите информацию в Интернете для получения более подходящей подготовки для получения степени магистра права.
Вложения
Мультимодальные многоязычные вложения мирового класса.
Реранкер
Нейронный ретривер мирового класса для максимального повышения релевантности поиска.

MCP-сервер
Добавьте mcp.jina.ai в качестве сервера MCP для доступа к нашему API в LLM.
open_in_new
API-документы
Автоматическая генерация кода для вашего второго пилота IDE или LLM
open_in_new


Компания
keyboard_arrow_down
О нас
Связаться с отделом продаж
Стажерская программа
Условия использования
Загрузить логотип Jina
open_in_new
Скачать логотип Elastic
open_in_new



Авторизоваться
login
Зачем разрабатывать модель эмбеддингов для кода?
Оценка производительности
Основные преимущества модели
Бесшовная интеграция API
пресс-релиз
февраль 05, 2024

Улучшите свой поиск по коду с помощью новых Code Embeddings от Jina

Новая модель 𝗷𝗶𝗻𝗮-𝗲𝗺𝗯𝗲𝗱𝗱𝗶𝗻𝗴𝘀-𝘃𝟮-𝗯𝗮𝘀𝗲-𝗰𝗼𝗱𝗲 оптимизирована для поиска по коду и документации. Эта мощная модель поддерживает поиск между английским и 30 широко используемыми языками программирования, всё с контекстным окном в 8192 токена и производительностью на уровне SOTA.
Abstract image with concentric circles in purple and green, featuring "jina" logo and repeated "code embeddings" text around
Jina AI
Jina AI • 4 минуты чтения

Точный поиск по коду и документации важен как никогда. Мы рады представить наши новейшие эмбеддинги в мире программирования: jina-embeddings-v2-base-code. Эта новая модель эмбеддингов с открытым исходным кодом разработана для улучшения взаимодействия разработчиков с кодом и документацией. Поддерживая английский язык и 30 популярных языков программирования, она выделяется как единственная модель с открытым исходным кодом такого типа, которая может обрабатывать до 8192 входных токенов. Модель jina-embeddings-v2-base-code теперь доступна на HuggingFace под лицензией Apache 2.0 и может быть свободно использована через наш Embedding API.

0:00
/0:07

Посетите Embedding API и выберите jina-embeddings-v2-base-code из выпадающего списка. Получите 1М токенов бесплатно.

tagЗачем разрабатывать модель эмбеддингов для кода?

Разработчики часто сталкиваются с необходимостью навигации по обширным кодовым базам не для поиска ошибок, а для нахождения определенной функциональности или понимания реализации определенных процессов. Эта задача может быть трудоемкой и порой напоминает поиск иголки в стоге сена. Интегрированные среды разработки (IDE) значительно улучшили этот процесс, предоставив инструменты и функции, автоматизирующие поиск информации. Однако существует потенциал для дальнейшего улучшения, и именно здесь вступает в игру наша модель эмбеддингов.

tagВарианты использования jina-embeddings-v2-base-code

Интегрируя возможности поиска на основе ИИ, мы не просто расширяем существующие функции IDE, мы трансформируем способ взаимодействия разработчиков с кодовыми базами. Эта технология выходит за рамки простого текстового поиска, предлагая семантическое понимание, которое может интерпретировать намерение запроса, тем самым значительно сокращая время и усилия, необходимые для проверки кода, модульного тестирования и общего управления качеством.

Улучшенная навигация по коду

  • Формат запроса: Описание функциональности или фрагмента кода на естественном языке, который вы ищете.
  • Формат полученного результата: Релевантные файлы кода или фрагменты, где реализована описанная функциональность, вместе с аннотациями или подсветкой конкретных частей кода.

Оптимизированный код-ревью

  • Формат запроса: Описание концепций программирования или паттернов, которые вы хотите проверить в кодовой базе.
  • Формат полученного результата: Список фрагментов кода или pull request'ов, которые соответствуют описанным концепциям, паттернам или лучшим практикам, позволяющий рецензентам сосредоточиться на критических областях для улучшения.

Автоматизированная помощь в документировании

  • Формат запроса: Фрагмент кода, для которого нужна документация или объяснение.
  • Формат полученного результата: Предлагаемые docstring'и или записи документации, объясняющие функциональность кода, параметры и типы возвращаемых значений, что облегчает поддержание актуальной и полной документации.

Решая эти конкретные задачи, jina-embeddings-v2-base-code не только улучшает опыт разработки, но и способствует созданию более совместной и эффективной среды программирования.

tagОценка производительности

В области, где точность и аккуратность имеют первостепенное значение, jina-embeddings-v2-base-code превзошла своих конкурентов, лидируя в девяти из пятнадцати ключевых тестов CodeNetSearch. Более того, наша модель показывает высоко конкурентные результаты в остальных тестах. В сравнении с ближайшими конкурентами, включая модели от таких технологических гигантов как Microsoft и Salesforce, jina-embeddings-v2-base-code не только занимает более высокие позиции, но и демонстрирует превосходство своего дизайна и возможностей.

Таблица результатов NLP моделей, сравнивающая метрики производительности для различных языков программирования.
Превосходство нашей модели проявляется не только в отдельных случаях; по всем параметрам все модели Jina Embedding достигли высших позиций в соответствующих тестах, выделяясь среди моделей с открытым исходным кодом для поиска по коду.

tagОсновные преимущества модели

  • Производительность на уровне современных стандартов: Наше стремление к совершенству отражается в производительности моделей Jina Embedding, которые постоянно занимают первые места в тестах среди других открытых решений и даже превосходят модели от Microsoft и Salesforce.
  • Компактность при высокой мощности: В мире ИИ эффективность является ключевым фактором. С 161 миллионом параметров (307МБ без квантизации), jina-embeddings-v2-base-code разработана для эффективности, обеспечивая высокую производительность и экономию средств без компромиссов в возможностях.
  • Расширенные возможности контекста: Способность обрабатывать до 8192 токенов позволяет работать с большими функциями и многочисленными файлами объектов, обеспечивая глубину понимания и контекста, которая превосходит ограничения моделей, поддерживающих лишь несколько сотен токенов.
  • Поддержка нескольких языков: Ориентированная на универсальность, модель обучена на 30 языках программирования и фреймворках, с акцентом на шесть самых популярных: Python, JavaScript, Java, PHP, Go и Ruby. Это обширное покрытие гарантирует, что jina-embeddings-v2-base-code отвечает разнообразным потребностям сообщества программистов.
  • Интеграция RAG для бесшовной генерации кода: Совместимость модели с RAG и интеграция с моделью генерации кода обеспечивают не только генерацию кода на основе общих знаний, но и возможность читать соответствующие API и документацию, что позволяет осуществлять автоматическую интеграцию кода эффективно и точно.
  • tagБесшовная интеграция API

    jina-embeddings-v2-base-code разработан для простой интеграции, поддерживает основные векторные базы данных, такие как MongoDB, Qdrant и Weaviate, а также фреймворки вроде Haystack и LlamaIndex. Это гарантирует, что разработчики могут без труда интегрировать нашу модель в свои существующие системы, используя её возможности для улучшения процессов поиска кода и работы с документацией.

    Черный фон с красочными логотипами, включая MongoDB, Pinecone и Chroma для различных технических проектов.
    Фреймворки, поддерживающие наш API эмбеддингов

    Мы ценим ваши отзывы о jina-embeddings-v2-base-code. Присоединяйтесь к нашему сообществу, чтобы оставлять отзывы и быть в курсе наших достижений. Вместе мы формируем более надёжное и инклюзивное будущее AI.

    Категории:
    пресс-релиз
    rss_feed

    Читать далее
    декабрь 04, 2025 • 7 минуты чтения
    Jina-VLM: Маленькая многоязычная модель Vision Language Model
    Jina AI
    Artistic representation of "Vln" in vibrant, rainbow-like colors on a minimalistic white background, with a focus on color di
    октябрь 03, 2025 • 7 минуты чтения
    Jina Reranker v3: 0.6B Listwise Reranker для SOTA Мультиязычного Поиска
    Jina AI
    Light blue background with stylized text in the center, composed of small dots or squares, evoking a modern and minimalistic
    сентябрь 04, 2025 • 6 минуты чтения
    Jina Code Embeddings: SOTA для извлечения кода при 0.5B и 1.5B
    Jina AI
    Green "Code Embeddings" text displayed in a LED dot style on a black background, evoking a futuristic and technological atmos
    Офисы
    location_on
    Саннивейл, Калифорния
    710 Lakeway Dr, Ste 200, Саннивейл, Калифорния 94085, США
    location_on
    Берлин, Германия (штаб-квартира)
    Prinzessinnenstraße 19-20, 10969 Берлин, Германия
    Поиск Фонда
    Читатель
    Вложения
    Реранкер
    Получить API-ключ Jina
    Ограничение скорости
    Статус API
    Компания
    О нас
    Связаться с отделом продаж
    отдел новостей
    Стажерская программа
    Загрузить логотип Jina
    open_in_new
    Скачать логотип Elastic
    open_in_new
    Условия
    Безопасность
    Условия использования
    Конфиденциальность
    Управление файлами cookie
    email
    Jina AI от Elastic © 2020-2025.