Noticias
Modelos
API
keyboard_arrow_down
Lector
Lea las URL y busque en la web para obtener una base más sólida para su LLM.
Incrustaciones
Integraciones multilingües y multimodales de clase mundial.
reclasificador
Recuperador neuronal de clase mundial para maximizar la relevancia de la búsqueda.
Servicio de inferencia elástica
Ejecuta modelos Jina de forma nativa dentro de Elasticsearch.
MCP terminalCLIarticlellms.txtsmart_toyAgentesdata_objectEsquemamenu_bookDocumentos



Acceso
login
warning
Este modelo está obsoleto por los modelos más nuevos.
Incrustaciones
Licencia Apache 2.0
open_in_new Publicación de lanzamiento

jina-embeddings-v2-base-de

Integraciones bilingües alemán-inglés con rendimiento SOTA
Licencia
Apache-2.0
Fecha de lanzamiento
calendar_month
2024-01-15
Aporte
abc
Texto
arrow_forward
Producción
more_horiz
Vector
Fragmentación tardía help_outline
check_circle
Yes
Detalles del modelo
Parámetros: 161M
Longitud del token de entrada: 8K
Dimensión de salida: 768
Modelo base help_outline
open_in_new
jina-embeddings-v2-base-en
Idiomas entrenados help_outline
2 idiomas
Modelos relacionados
link
jina-embeddings-v2-base-en
Etiquetas
german-language
text-embedding
monolingual
large-context
production
semantic-search
document-retrieval
fine-tunable
Disponible a través de
API de JinaAWS SageMakerMicrosoft AzureCara abrazada
Gráfico de E/S

Texto

jina-embeddings-v2-base-de

Vector

Elige modelos para comparar
Publicaciones (1)
arXiv
febrero 26, 2024
Multi-Task Contrastive Learning for 8192-Token Bilingual Text Embeddings

Descripción general

Jina Embeddings v2 Base German aborda un desafío crítico en los negocios internacionales: cerrar la brecha lingüística entre los mercados alemán e inglés. Para las empresas alemanas que se expanden a territorios de habla inglesa, donde un tercio de las empresas generan más del 20 % de sus ventas globales, la comprensión bilingüe precisa es esencial. Este modelo transforma la forma en que las organizaciones manejan el contenido en varios idiomas al permitir la comprensión y recuperación de textos sin problemas tanto en alemán como en inglés, lo que lo hace invaluable para las empresas que implementan sistemas de documentación internacionales, plataformas de soporte al cliente o soluciones de gestión de contenido. A diferencia de los enfoques tradicionales basados en la traducción, este modelo asigna directamente significados equivalentes en ambos idiomas al mismo espacio de incrustación, lo que permite operaciones bilingües más precisas y eficientes.

Métodos

El modelo logra sus impresionantes capacidades bilingües a través de una arquitectura innovadora que procesa textos en alemán e inglés dentro de un espacio de incrustación unificado de 768 dimensiones. En esencia, emplea una red neuronal basada en transformadores con 161 millones de parámetros, cuidadosamente entrenada para comprender las relaciones semánticas en ambos idiomas. Lo que hace que esta arquitectura sea particularmente efectiva es su enfoque de minimización de sesgos, diseñado específicamente para evitar el error común de favorecer las estructuras gramaticales en inglés, un problema identificado en investigaciones recientes con modelos multilingües. La ventana de contexto extendida del modelo de 8192 tokens le permite procesar documentos completos o múltiples páginas de texto en una sola pasada, manteniendo la coherencia semántica en el contenido de formato largo en ambos idiomas.

Actuación

En pruebas reales, Jina Embeddings v2 Base German demuestra una eficiencia y precisión excepcionales, en particular en tareas de recuperación de texto en varios idiomas. El modelo supera al modelo base E5 de Microsoft a pesar de tener menos de un tercio de su tamaño, e iguala el rendimiento del modelo grande E5 a pesar de ser siete veces más pequeño. En los principales puntos de referencia, incluidos WikiCLIR para la recuperación de texto de inglés a alemán, STS17 y STS22 para la comprensión bidireccional del lenguaje, y BUCC para la alineación precisa de texto bilingüe, el modelo demuestra constantemente capacidades superiores. Su tamaño compacto de 322 MB permite la implementación en hardware estándar a la vez que mantiene un rendimiento de vanguardia, lo que lo hace particularmente eficiente para entornos de producción donde los recursos computacionales son una consideración.

Guía

Para implementar Jina Embeddings v2 Base German de manera eficaz, las organizaciones deben considerar varios aspectos prácticos. El modelo se integra perfectamente con bases de datos vectoriales populares como MongoDB, Qdrant y Weaviate, lo que facilita la creación de sistemas de búsqueda bilingües escalables. Para un rendimiento óptimo, implemente un preprocesamiento de texto adecuado para manejar el límite de 8192 tokens de manera eficaz; esto generalmente admite alrededor de 15 a 20 páginas de texto. Si bien el modelo se destaca tanto en contenido en alemán como en inglés, es particularmente eficaz cuando se lo utiliza para tareas de recuperación en varios idiomas donde los idiomas de consulta y documento pueden diferir. Las organizaciones deben considerar la implementación de estrategias de almacenamiento en caché para el contenido al que se accede con frecuencia y utilizar el procesamiento por lotes para la indexación de documentos a gran escala. La integración del modelo con AWS SageMaker proporciona una ruta confiable para la implementación de producción, aunque los equipos deben monitorear el uso de tokens e implementar una limitación de velocidad adecuada para aplicaciones de alto tráfico. Al utilizar el modelo para aplicaciones RAG, considere implementar la detección de idioma para optimizar la construcción de indicaciones en función del idioma de entrada.
Blogs que mencionan este modelo
septiembre 27, 2024 • 15 minutos de lectura
Migración de Jina Embeddings v2 a v3
Recopilamos algunos consejos para ayudarte a migrar de Jina Embeddings v2 a v3.
Alex C-G
Scott Martens
A digital upgrade theme with "V3" and a white "2", set against a green and black binary code background, with "Upgrade" centr
mayo 15, 2024 • 11 minutos de lectura
Embeddings binarios: Toda la IA, 3.125% del peso
32 bits es mucha precisión para algo tan robusto e inexacto como un modelo de AI. ¡Así que nos deshicimos de 31 de ellos! Los embeddings binarios son más pequeños, más rápidos y altamente eficientes.
Sofia Vasileva
Scott Martens
Futuristic digital 3D model of a coffee grinder with blue neon lights on a black background, featuring numerical data.
abril 29, 2024 • 7 minutos de lectura
Embeddings y Reranker de Jina en Azure: Soluciones de IA escalables y listas para negocios
Los Jina Embeddings y Rerankers están ahora disponibles en Azure Marketplace. Las empresas que priorizan la privacidad y la seguridad ahora pueden integrar fácilmente los modelos de última generación de Jina AI directamente en su ecosistema Azure existente.
Susana Guzmán
Futuristic black background with a purple 3D grid, featuring the "Embeddings" and "Reranker" logos with a stylized "A".
enero 31, 2024 • 16 minutos de lectura
Un análisis profundo de la tokenización
La tokenización, en los LLMs, significa dividir los textos de entrada en partes más pequeñas para su procesamiento. Entonces, ¿por qué los embeddings se cobran por token?
Scott Martens
Colorful speckled grid pattern with a mix of small multicolored dots on a black background, creating a mosaic effect.
enero 26, 2024 • 13 minutos de lectura
Los modelos bilingües de Jina Embeddings v2 ahora son de código abierto en Hugging Face
Los modelos de embedding bilingües de código abierto de Jina AI para alemán-inglés y chino-inglés ya están disponibles en Hugging Face. Vamos a explicar la instalación y la recuperación entre idiomas.
Scott Martens
Colorful "EMBEDDINGS" text above a pile of yellow smileys on a black background with decorative lines at the top.
Oficinas
location_on
Sunnyvale, California
710 Lakeway Dr, Ste 200, Sunnyvale, CA 94085, EE. UU.
location_on
Berlín, Alemania
Prinzessinnenstraße 19-20, 10969 Berlín, Alemania
Fundación de búsqueda
Lector
Incrustaciones
reclasificador
Servicio de inferencia elástica
open_in_new
Obtener la clave API de Jina
Límite de velocidad
Estado de la API
Compañía
Sobre nosotros
Contactar con ventas
Sala de prensa
Programa de prácticas
Descargar el logotipo de Jina
open_in_new
Descargar el logotipo de Elastic
open_in_new
Términos
Seguridad
Términos y condiciones
Privacidad
Administrar cookies
email
Jina AI de Elastic © 2020-2026.