jina-embeddings-v2-base-code

코드 및 기술 문서 검색을 위한 벡터 모델

릴리스 노트

특허

Apache-2.0

출시일

2024-02-05

입력하다

텍스트(코드)

산출

벡터

모델 세부정보

매개변수: 137M

단어 길이를 입력하세요: 8K

출력 크기: 768

언어 지원

🇺🇸 영어

개요

Jina Embeddings v2 Code Base는 현대 소프트웨어 개발의 주요 과제인 대규모 코드 베이스를 효율적으로 탐색하고 이해하는 문제를 해결합니다. 코드 발견 및 문서화로 어려움을 겪고 있는 개발 팀을 위해 이 모델은 30개 프로그래밍 언어에 대한 자연어 검색을 지원함으로써 개발자가 코드와 상호 작용하는 방식을 변화시킵니다. 정확한 패턴 일치에 의존하는 기존 코드 검색 도구와 달리 이 모델은 코드 뒤에 숨은 의미를 이해하므로 개발자는 일반 영어 설명을 사용하여 관련 코드 조각을 찾을 수 있습니다. 이 기능은 대규모 레거시 코드 베이스를 유지 관리하는 팀, 새 프로젝트에 참여하는 개발자 또는 코드 재사용 및 문서화 방식을 개선하려는 조직에 특히 유용합니다.

방법

이 모델은 코드 이해를 위해 특별히 설계된 특수 목적 아키텍처를 통해 인상적인 성능을 달성합니다. 핵심적으로는 Python, JavaScript, Java, PHP, Go 및 Ruby 등 6가지 주요 언어에 중점을 두고 다양한 프로그래밍 언어 데이터세트에 대해 훈련된 1억 6,100만 개의 매개변수가 있는 Transformer 기반 신경망을 사용합니다. 이 아키텍처는 8,192개 토큰의 확장된 컨텍스트 창을 통해 의미론적 이해를 유지하면서 전체 기능 또는 여러 파일을 동시에 처리할 수 있다는 점에서 독특합니다. 이 모델은 코드의 구문 구조와 의미론적 의미를 포착하는 조밀한 768차원 벡터를 생성하므로 동일한 목표를 달성하기 위해 서로 다른 프로그래밍 패턴이나 구문을 사용하더라도 서로 다른 코드 세그먼트 간의 관계를 이해할 수 있습니다.

성능

실제 테스트에서 Jina Embeddings v2 Base Code는 주요 CodeNetSearch 벤치마크 15개 중 9개를 차지하는 뛰어난 기능을 보여주었습니다. Microsoft 및 Salesforce와 같은 업계 거대 기업의 모델에 비해 더 효율적인 공간을 유지하면서 뛰어난 성능을 달성합니다. 이 모델은 특히 언어 간 코드 이해에 뛰어나며, 다양한 프로그래밍 언어에서 기능적으로 동일한 코드 조각을 성공적으로 일치시킵니다. 8,192개의 토큰 컨텍스트 창은 대규모 기능과 복잡한 코드 파일에 특히 유용하며, 종종 수백 개의 토큰만 처리할 수 있는 기존 모델보다 훨씬 뛰어납니다. 모델의 효율성은 307MB(비양자화)의 컴팩트한 크기에 반영되어 코드 유사성 및 검색 작업에서 높은 정확도를 유지하면서 빠른 추론을 가능하게 합니다.

가이드

Jina Embeddings v2 코드 베이스를 효과적으로 배포하기 위해 팀은 몇 가지 실용적인 측면을 고려해야 합니다. 이 모델은 MongoDB, Qdrant 및 Weaviate와 같은 널리 사용되는 벡터 데이터베이스와 원활하게 통합되어 확장 가능한 코드 검색 시스템을 쉽게 구축할 수 있습니다. 최상의 성능을 얻으려면 일반적으로 대부분의 함수 및 클래스 정의를 수용하는 8,192개 토큰 제한을 처리하는 적절한 코드 전처리를 구현하십시오. 이 모델은 30가지 프로그래밍 언어를 지원하지만 Python, JavaScript, Java, PHP, Go, Ruby 등 6가지 핵심 언어에서 가장 강력한 성능을 보여줍니다. 팀은 성능을 최적화하기 위해 대규모 코드 인덱싱을 위한 일괄 처리 사용을 고려해야 합니다. 모델의 RAG 호환성은 자동화된 문서 생성 및 코드 이해 작업에 특히 효과적이지만 팀은 매우 큰 코드 기반에 대해 적절한 청크 전략을 구현해야 합니다. 프로덕션 배포의 경우 관리형 추론을 위해 AWS SageMaker 엔드포인트를 사용하는 것을 고려하고 적절한 캐싱 전략을 구현하여 쿼리 성능을 최적화하십시오.

이 모델을 언급하는 블로그

4월 08, 2025 • 21 독서의 분

jina-reranker-m0: 다국어 멀티모달 문서 재정렬기

시각적 문서를 검색하기 위한 새로운 다국어 멀티모달 리랭커인 jina-reranker-m0를 소개합니다. 다국어 긴 문서와 코드 검색 작업에서 최고 수준(SOTA)의 성능을 제공합니다.