Noticias
Modelos
Productos
keyboard_arrow_down
Búsqueda profunda
Busca, lee y razona hasta encontrar la mejor respuesta.
Lector
Lea las URL y busque en la web para obtener una base más sólida para su LLM.
Incrustaciones
Integraciones multilingües y multimodales de clase mundial.
reclasificador
Recuperador neuronal de clase mundial para maximizar la relevancia de la búsqueda.
Más
keyboard_arrow_down
Clasificador
Clasificación de cero disparos y pocos disparos para imágenes y texto.
Segmentador
Corta el texto largo en fragmentos y haz tokenización.

Documentación de la API
Generación automática de código para su IDE o LLM de Copilot
open_in_new


Compañía
keyboard_arrow_down
Sobre nosotros
Contactar con ventas
Programa de prácticas
Únete a nosotros
open_in_new
Descargar logotipo
open_in_new
Términos y condiciones


Acceso
login
warning
Este modelo está obsoleto por los modelos más nuevos.

jina-embeddings-v2-base-es

Incorporaciones bilingües español-inglés con rendimiento SOTA
Publicación de lanzamientoarrow_forward
Licencia
license
Apache-2.0
Fecha de lanzamiento
calendar_month
2024-02-14
Aporte
abc
Texto
arrow_forward
Producción
more_horiz
Vector
Detalles del modelo
Parámetros: 161M
Longitud del token de entrada: 8K
Dimensión de salida: 768
Soporte de idioma
🇺🇸 Inglés
🇪🇸 Español
Modelos relacionados
link
jina-embeddings-v2-base-en
link
jina-embeddings-v2-base-de
link
jina-embeddings-v2-base-zh
Etiquetas
spanish
bilingual
long-context
8k-context
bert-based
production-ready
semantic-search
cross-lingual
text-embeddings
fine-tunable
Disponible a través de
API de JinaAWS SageMakerMicrosoft AzureCara abrazada
Elige modelos para comparar
Publicaciones (1)
arXiv
febrero 26, 2024
Multi-Task Contrastive Learning for 8192-Token Bilingual Text Embeddings

Descripción general

Jina Embeddings v2 Base Spanish es un innovador modelo de incrustación de texto bilingüe que aborda el desafío crítico de la recuperación y el análisis de información entre contenido en español e inglés. A diferencia de los modelos multilingües tradicionales que a menudo muestran un sesgo hacia idiomas específicos, este modelo ofrece un rendimiento verdaderamente equilibrado tanto en español como en inglés, lo que lo hace indispensable para las organizaciones que operan en mercados de habla hispana o que manejan contenido bilingüe. La característica más notable del modelo es su capacidad de generar incrustaciones alineadas geométricamente: cuando los textos en español e inglés expresan el mismo significado, sus representaciones vectoriales se agrupan naturalmente en el espacio de incrustación, lo que permite una búsqueda y un análisis sin problemas entre idiomas.

Métodos

En el corazón de este modelo se encuentra una arquitectura innovadora basada en ALiBi (Atención con sesgos lineales) bidireccional simétrico, un enfoque sofisticado que permite el procesamiento de secuencias de hasta 8192 tokens sin incrustaciones posicionales tradicionales. El modelo utiliza una arquitectura BERT modificada con 161 millones de parámetros, que incorpora unidades lineales controladas (GLU) y técnicas de normalización de capas especializadas. El entrenamiento sigue un proceso de tres etapas: preentrenamiento inicial en un corpus de texto masivo, seguido de un ajuste fino con pares de texto cuidadosamente seleccionados y, finalmente, entrenamiento negativo duro para mejorar la discriminación entre contenido similar pero semánticamente distinto. Este enfoque, combinado con incrustaciones de 768 dimensiones, permite que el modelo capture relaciones semánticas matizadas al tiempo que mantiene la eficiencia computacional.

Actuación

En evaluaciones comparativas exhaustivas, el modelo demuestra capacidades excepcionales, en particular en tareas de recuperación en varios idiomas, donde supera a modelos multilingües significativamente más grandes como E5 y BGE-M3 a pesar de tener solo un 15-30 % de su tamaño. El modelo logra un rendimiento superior en tareas de recuperación y agrupamiento, mostrando una fortaleza particular en la búsqueda de coincidencias de contenido semánticamente equivalente en varios idiomas. Cuando se prueba en el benchmark MTEB, exhibe un rendimiento sólido en varias tareas, incluidas la clasificación, el agrupamiento y la similitud semántica. La ventana de contexto extendida de 8192 tokens resulta especialmente valiosa para el procesamiento de documentos largos, mostrando un rendimiento constante incluso con documentos que abarcan varias páginas, una capacidad de la que carecen la mayoría de los modelos de la competencia.

Guía

Para utilizar este modelo de manera eficaz, las organizaciones deben garantizar el acceso a una infraestructura de GPU compatible con CUDA para lograr un rendimiento óptimo. El modelo se integra perfectamente con las principales bases de datos vectoriales y marcos RAG, incluidos MongoDB, Qdrant, Weaviate y Haystack, lo que lo hace fácilmente implementable en entornos de producción. Se destaca en aplicaciones como búsqueda de documentos bilingües, sistemas de recomendación de contenido y análisis de documentos en varios idiomas. Si bien el modelo muestra una versatilidad impresionante, está particularmente optimizado para escenarios bilingües español-inglés y puede no ser la mejor opción para aplicaciones monolingües o escenarios que involucran otros pares de idiomas. Para obtener resultados óptimos, los textos de entrada deben tener el formato adecuado en español o inglés, aunque el modelo maneja contenido en varios idiomas de manera eficaz. El modelo admite el ajuste fino para aplicaciones específicas del dominio, pero esto debe abordarse considerando cuidadosamente la calidad y distribución de los datos de entrenamiento.
Blogs que mencionan este modelo
abril 29, 2024 • 7 minutos de lectura
Embeddings y Reranker de Jina en Azure: Soluciones de IA escalables y listas para negocios
Los Jina Embeddings y Rerankers están ahora disponibles en Azure Marketplace. Las empresas que priorizan la privacidad y la seguridad ahora pueden integrar fácilmente los modelos de última generación de Jina AI directamente en su ecosistema Azure existente.
Susana Guzmán
Futuristic black background with a purple 3D grid, featuring the "Embeddings" and "Reranker" logos with a stylized "A".
febrero 14, 2024 • 4 minutos de lectura
Aquí Se Habla Español: Embeddings Español-Inglés de Alta Calidad y Contexto de 8k
El nuevo modelo de embeddings bilingüe español-inglés de Jina AI lleva la tecnología AI más avanzada a medio billón de hispanohablantes.
Jina AI
Digital wireframe rendering of a Gothic-style cathedral, with colorful outlines and pointed spires on a dark background.
Oficinas
location_on
Sunnyvale, California
710 Lakeway Dr, Ste 200, Sunnyvale, CA 94085, EE. UU.
location_on
Berlín, Alemania (sede central)
Prinzessinnenstraße 19-20, 10969 Berlín, Alemania
location_on
Beijing, China
Piso 5, Edificio 6, No.48 Haidian West St. Pekín, China
location_on
Shenzhen, China
Piso 402, Edificio de Tecnología Fu'an, Shenzhen, China
Fundación de búsqueda
Búsqueda profunda
Lector
Incrustaciones
reclasificador
Clasificador
Segmentador
Documentación API
Obtener la clave API de Jina
Límite de velocidad
Estado de la API
Compañía
Sobre nosotros
Contactar con ventas
Sala de prensa
Programa de prácticas
Únete a nosotros
open_in_new
Descargar logotipo
open_in_new
Términos
Seguridad
Términos y condiciones
Privacidad
Administrar cookies
email
Jina AI © 2020-2025.