jina-embeddings-v2-base-de

Este modelo está obsoleto por los modelos más nuevos.

Incrustaciones

Licencia Apache 2.0

Publicación de lanzamiento

jina-embeddings-v2-base-de

Integraciones bilingües alemán-inglés con rendimiento SOTA

Licencia

Apache-2.0

Fecha de lanzamiento

2024-01-15

Aporte

Texto

Producción

Vector

Fragmentación tardía

Yes

Detalles del modelo

Parámetros: 161M

Longitud del token de entrada: 8K

Dimensión de salida: 768

Modelo base

jina-embeddings-v2-base-en

Idiomas entrenados

2 idiomas

Modelos relacionados

jina-embeddings-v2-base-en

Etiquetas

german-language

text-embedding

monolingual

large-context

production

semantic-search

document-retrieval

fine-tunable

Disponible a través de

API de Jina AWS SageMaker Microsoft Azure Cara abrazada

Gráfico de E/S

Elige modelos para comparar

jina-embeddings-v2-base-de

jina-embeddings-v2-base-en

Publicaciones (1)

arXiv

febrero 26, 2024

Multi-Task Contrastive Learning for 8192-Token Bilingual Text Embeddings

Descripción general

Jina Embeddings v2 Base German aborda un desafío crítico en los negocios internacionales: cerrar la brecha lingüística entre los mercados alemán e inglés. Para las empresas alemanas que se expanden a territorios de habla inglesa, donde un tercio de las empresas generan más del 20 % de sus ventas globales, la comprensión bilingüe precisa es esencial. Este modelo transforma la forma en que las organizaciones manejan el contenido en varios idiomas al permitir la comprensión y recuperación de textos sin problemas tanto en alemán como en inglés, lo que lo hace invaluable para las empresas que implementan sistemas de documentación internacionales, plataformas de soporte al cliente o soluciones de gestión de contenido. A diferencia de los enfoques tradicionales basados en la traducción, este modelo asigna directamente significados equivalentes en ambos idiomas al mismo espacio de incrustación, lo que permite operaciones bilingües más precisas y eficientes.

Métodos

El modelo logra sus impresionantes capacidades bilingües a través de una arquitectura innovadora que procesa textos en alemán e inglés dentro de un espacio de incrustación unificado de 768 dimensiones. En esencia, emplea una red neuronal basada en transformadores con 161 millones de parámetros, cuidadosamente entrenada para comprender las relaciones semánticas en ambos idiomas. Lo que hace que esta arquitectura sea particularmente efectiva es su enfoque de minimización de sesgos, diseñado específicamente para evitar el error común de favorecer las estructuras gramaticales en inglés, un problema identificado en investigaciones recientes con modelos multilingües. La ventana de contexto extendida del modelo de 8192 tokens le permite procesar documentos completos o múltiples páginas de texto en una sola pasada, manteniendo la coherencia semántica en el contenido de formato largo en ambos idiomas.

Actuación

En pruebas reales, Jina Embeddings v2 Base German demuestra una eficiencia y precisión excepcionales, en particular en tareas de recuperación de texto en varios idiomas. El modelo supera al modelo base E5 de Microsoft a pesar de tener menos de un tercio de su tamaño, e iguala el rendimiento del modelo grande E5 a pesar de ser siete veces más pequeño. En los principales puntos de referencia, incluidos WikiCLIR para la recuperación de texto de inglés a alemán, STS17 y STS22 para la comprensión bidireccional del lenguaje, y BUCC para la alineación precisa de texto bilingüe, el modelo demuestra constantemente capacidades superiores. Su tamaño compacto de 322 MB permite la implementación en hardware estándar a la vez que mantiene un rendimiento de vanguardia, lo que lo hace particularmente eficiente para entornos de producción donde los recursos computacionales son una consideración.

Guía

Para implementar Jina Embeddings v2 Base German de manera eficaz, las organizaciones deben considerar varios aspectos prácticos. El modelo se integra perfectamente con bases de datos vectoriales populares como MongoDB, Qdrant y Weaviate, lo que facilita la creación de sistemas de búsqueda bilingües escalables. Para un rendimiento óptimo, implemente un preprocesamiento de texto adecuado para manejar el límite de 8192 tokens de manera eficaz; esto generalmente admite alrededor de 15 a 20 páginas de texto. Si bien el modelo se destaca tanto en contenido en alemán como en inglés, es particularmente eficaz cuando se lo utiliza para tareas de recuperación en varios idiomas donde los idiomas de consulta y documento pueden diferir. Las organizaciones deben considerar la implementación de estrategias de almacenamiento en caché para el contenido al que se accede con frecuencia y utilizar el procesamiento por lotes para la indexación de documentos a gran escala. La integración del modelo con AWS SageMaker proporciona una ruta confiable para la implementación de producción, aunque los equipos deben monitorear el uso de tokens e implementar una limitación de velocidad adecuada para aplicaciones de alto tráfico. Al utilizar el modelo para aplicaciones RAG, considere implementar la detección de idioma para optimizar la construcción de indicaciones en función del idioma de entrada.

Blogs que mencionan este modelo

septiembre 27, 2024 • 15 minutos de lectura

Migración de Jina Embeddings v2 a v3

Recopilamos algunos consejos para ayudarte a migrar de Jina Embeddings v2 a v3.