Disponible a través de
Elige modelos para comparar
Publicaciones (1)
Descripción general
Jina Embedding B v1 es un modelo de incrustación de texto especializado diseñado para transformar texto en inglés en representaciones numéricas de alta dimensión, manteniendo al mismo tiempo el significado semántico. El modelo aborda la necesidad crítica de incrustaciones de texto eficientes y precisas en entornos de producción, especialmente valiosas para organizaciones que requieren un equilibrio entre la eficiencia computacional y la calidad de incrustación. Con sus 110 millones de parámetros que generan incrustaciones de 768 dimensiones, sirve como una solución práctica para equipos que implementan búsqueda semántica, agrupación de documentos o sistemas de recomendación de contenido sin requerir recursos computacionales extensos.
Métodos
El modelo emplea una arquitectura basada en un codificador T5 mejorado con agrupamiento de medias para generar representaciones de longitud fija. Entrenado en el conjunto de datos Linnaeus-Clean cuidadosamente seleccionado, que contiene 385 millones de pares de oraciones de alta calidad filtrados de los 1.600 millones de pares iniciales, el modelo se sometió a un proceso de entrenamiento de dos fases. La primera fase utilizó aprendizaje contrastivo con pérdida de InfoNCE en pares de texto, mientras que la segunda fase incorporó entrenamiento de tripletes para refinar la capacidad del modelo para distinguir entre contenido similar y diferente. Este innovador enfoque de entrenamiento, combinado con un riguroso filtrado de datos que incluye detección de idioma y verificación de consistencia, permite que el modelo capture relaciones semánticas matizadas de manera efectiva.
Actuación
En evaluaciones del mundo real, Jina Embedding B v1 demuestra capacidades impresionantes, particularmente en tareas de similitud textual semántica. El modelo logra un rendimiento de vanguardia en STS12 con una puntuación de 0,751, superando a modelos establecidos como all-mpnet-base-v2 y all-minilm-l6-v2. Muestra un sólido rendimiento en varios puntos de referencia, al tiempo que mantiene tiempos de inferencia eficientes. Sin embargo, los usuarios deben tener en cuenta que el modelo está optimizado específicamente para contenido en idioma inglés y es posible que no funcione de manera óptima en tareas multilingües o específicas del código. Desde entonces, el modelo ha sido reemplazado por jina-embeddings-v2-base-en y jina-embeddings-v3, que ofrecen un rendimiento mejorado en una gama más amplia de casos de uso.
Guía
Para una implementación óptima, el modelo requiere una GPU compatible con CUDA, aunque su tamaño moderado permite una inferencia eficiente en hardware estándar. El modelo acepta secuencias de entrada de hasta 512 tokens de longitud y es particularmente adecuado para entornos de producción donde la generación de incrustaciones consistentes y confiables es crucial. Funciona mejor con contenido en inglés y es ideal para aplicaciones como búsqueda semántica, comparación de similitudes de documentos y sistemas de recomendación de contenido. Los equipos deben considerar el uso de las versiones más nuevas v2 o v3 para nuevos proyectos, ya que ofrecen un rendimiento mejorado y un soporte de idiomas más amplio. El modelo no se recomienda para tareas que requieran comprensión multilingüe o conocimiento de dominio especializado fuera del texto en inglés general.