Noticias
Modelos
Productos
keyboard_arrow_down
Lector
Lea las URL y busque en la web para obtener una base más sólida para su LLM.
Incrustaciones
Integraciones multilingües y multimodales de clase mundial.
reclasificador
Recuperador neuronal de clase mundial para maximizar la relevancia de la búsqueda.
Búsqueda profunda
Busca, lee y razona hasta encontrar la mejor respuesta.
Más
keyboard_arrow_down
Clasificador
Clasificación de cero disparos y pocos disparos para imágenes y texto.
Segmentador
Corta el texto largo en fragmentos y haz tokenización.

Documentación de la API
Generación automática de código para su IDE o LLM de Copilot
open_in_new


Compañía
keyboard_arrow_down
Sobre nosotros
Contactar con ventas
Programa de prácticas
Únete a nosotros
open_in_new
Descargar logotipo
open_in_new
Términos y condiciones


Acceso
login
warning
Este modelo está obsoleto por los modelos más nuevos.

jina-embedding-b-en-v1

La primera versión del modelo Jina Embedding, el OG.
Licencia
license
Apache-2.0
Fecha de lanzamiento
calendar_month
2023-06-17
Aporte
abc
Texto
arrow_forward
Producción
more_horiz
Vector
Detalles del modelo
Parámetros: 110M
Longitud del token de entrada: 512
Dimensión de salida: 768
Soporte de idioma
🇺🇸 Inglés
Modelos relacionados
link
jina-embeddings-v2-base-en
link
jina-embeddings-v3
Etiquetas
text-embedding
english
base-model
legacy
bert-based
production
Disponible a través de
Cara abrazada
Elige modelos para comparar
Publicaciones (1)
EMNLP 2023
julio 20, 2023
Jina Embeddings: A Novel Set of High-Performance Sentence Embedding Models

Descripción general

Jina Embedding B v1 es un modelo de incrustación de texto especializado diseñado para transformar texto en inglés en representaciones numéricas de alta dimensión, manteniendo al mismo tiempo el significado semántico. El modelo aborda la necesidad crítica de incrustaciones de texto eficientes y precisas en entornos de producción, especialmente valiosas para organizaciones que requieren un equilibrio entre la eficiencia computacional y la calidad de incrustación. Con sus 110 millones de parámetros que generan incrustaciones de 768 dimensiones, sirve como una solución práctica para equipos que implementan búsqueda semántica, agrupación de documentos o sistemas de recomendación de contenido sin requerir recursos computacionales extensos.

Métodos

El modelo emplea una arquitectura basada en un codificador T5 mejorado con agrupamiento de medias para generar representaciones de longitud fija. Entrenado en el conjunto de datos Linnaeus-Clean cuidadosamente seleccionado, que contiene 385 millones de pares de oraciones de alta calidad filtrados de los 1.600 millones de pares iniciales, el modelo se sometió a un proceso de entrenamiento de dos fases. La primera fase utilizó aprendizaje contrastivo con pérdida de InfoNCE en pares de texto, mientras que la segunda fase incorporó entrenamiento de tripletes para refinar la capacidad del modelo para distinguir entre contenido similar y diferente. Este innovador enfoque de entrenamiento, combinado con un riguroso filtrado de datos que incluye detección de idioma y verificación de consistencia, permite que el modelo capture relaciones semánticas matizadas de manera efectiva.

Actuación

En evaluaciones del mundo real, Jina Embedding B v1 demuestra capacidades impresionantes, particularmente en tareas de similitud textual semántica. El modelo logra un rendimiento de vanguardia en STS12 con una puntuación de 0,751, superando a modelos establecidos como all-mpnet-base-v2 y all-minilm-l6-v2. Muestra un sólido rendimiento en varios puntos de referencia, al tiempo que mantiene tiempos de inferencia eficientes. Sin embargo, los usuarios deben tener en cuenta que el modelo está optimizado específicamente para contenido en idioma inglés y es posible que no funcione de manera óptima en tareas multilingües o específicas del código. Desde entonces, el modelo ha sido reemplazado por jina-embeddings-v2-base-en y jina-embeddings-v3, que ofrecen un rendimiento mejorado en una gama más amplia de casos de uso.

Guía

Para una implementación óptima, el modelo requiere una GPU compatible con CUDA, aunque su tamaño moderado permite una inferencia eficiente en hardware estándar. El modelo acepta secuencias de entrada de hasta 512 tokens de longitud y es particularmente adecuado para entornos de producción donde la generación de incrustaciones consistentes y confiables es crucial. Funciona mejor con contenido en inglés y es ideal para aplicaciones como búsqueda semántica, comparación de similitudes de documentos y sistemas de recomendación de contenido. Los equipos deben considerar el uso de las versiones más nuevas v2 o v3 para nuevos proyectos, ya que ofrecen un rendimiento mejorado y un soporte de idiomas más amplio. El modelo no se recomienda para tareas que requieran comprensión multilingüe o conocimiento de dominio especializado fuera del texto en inglés general.
Oficinas
location_on
Sunnyvale, California
710 Lakeway Dr, Ste 200, Sunnyvale, CA 94085, EE. UU.
location_on
Berlín, Alemania (sede central)
Prinzessinnenstraße 19-20, 10969 Berlín, Alemania
location_on
Beijing, China
Piso 5, Edificio 6, No.48 Haidian West St. Pekín, China
location_on
Shenzhen, China
Piso 402, Edificio de Tecnología Fu'an, Shenzhen, China
Fundación de búsqueda
Lector
Incrustaciones
reclasificador
Búsqueda profunda
Clasificador
Segmentador
Documentación API
Obtener la clave API de Jina
Límite de velocidad
Estado de la API
Compañía
Sobre nosotros
Contactar con ventas
Sala de prensa
Programa de prácticas
Únete a nosotros
open_in_new
Descargar logotipo
open_in_new
Términos
Seguridad
Términos y condiciones
Privacidad
Administrar cookies
email
Jina AI © 2020-2025.