Jina AI está una vez más demostrando su compromiso con los modelos de IA multilingües de alta calidad al lanzar su modelo bilingüe español-inglés.
Este modelo proporciona vectores de embeddings para textos de hasta 8k tokens en español o inglés, diseñado para que si los textos en los dos idiomas significan lo mismo, sus embeddings estén geométricamente cercanos. Jina Embeddings v2 para español e inglés es ideal para la recuperación de información entre idiomas, análisis semántico bilingüe y aplicaciones RAG bilingües.
Este nuevo modelo, jina-embeddings-v2-base-es, trae al español el mismo rendimiento de vanguardia y el conjunto de características innovadoras de los modelos v2
de Jina AI para inglés, alemán, chino y lenguajes de programación:
- 8.192 tokens de contexto de entrada, un líder entre los modelos de embedding de código abierto.
- Bilingüismo real en lugar de multilingüismo desigual. Los modelos bilingües de Jina AI están entrenados para dar soporte equilibrado a ambos idiomas, evitando los sesgos de los modelos "multilingües" entrenados en recopilaciones no curadas de Internet.
- jina-embeddings-v2-base-es es compacto en comparación con modelos de código abierto de rendimiento comparable. Los embeddings tienen 768 dimensiones, ahorrando espacio y tiempo de ejecución en producción.
- Los modelos Jina Embeddings v2 están completamente integrados en las principales bases de datos vectoriales, frameworks RAG y bibliotecas de desarrollo de IA:
Jina Embeddings v2 para español e inglés está accesible a través de la API de Embeddings de Jina ahora mismo, con un millón de tokens gratuitos, así que no pagas nada para probarlo.

tagBenchmarks
En los benchmarks en español, Jina v2 para español e inglés supera al modelo base Multilingual E5 y al modelo BGE M3, los únicos modelos de código abierto comparables con soporte para español. Las pruebas a continuación (MTEB-es) están adaptadas del Massive Text Embeddings Benchmark. Puedes verlas y ejecutarlas desde este repositorio de GitHub.

Jina Embeddings supera a E5 en todas las métricas excepto clasificación y supera a BGE-M3 en tareas de recuperación, agrupación y tareas entre idiomas, a pesar de ser del 15% al 30% del tamaño de estos modelos más grandes.
- Rendimiento significativamente mejor en tareas de recuperación (como encontrar documentos relacionados en una base de datos) y agrupación (identificar grupos de documentos que pertenecen juntos en una colección)
- Rendimiento aproximadamente igual con E5 en reordenación (ordenar documentos por similitud semántica) y rendimiento casi igual en clasificación de texto en español.
- Los tres modelos tienen puntuaciones de benchmark muy similares para tareas entre idiomas (encontrar textos semánticamente similares en inglés para una entrada en español, o viceversa), aunque Jina Embeddings sigue teniendo el mejor rendimiento.
En comparación con los modelos multilingües de código cerrado de Open AI y Cohere, los logros de Jina Embeddings son aún más impresionantes dado su tamaño compacto.

En tareas de recuperación en español, Jina supera a los modelos de código cerrado ofrecidos por Open AI y Cohere y supera a Open AI (y casi iguala el rendimiento de Cohere) en tareas entre idiomas.
tagJina Embeddings: IA para un Mundo Multilingüe
El español es hablado por más de medio billón de personas, con estatus oficial en más de 20 países, junto con la Unión Europea, las Naciones Unidas, la Organización Mundial del Comercio y la FIFA. La introducción de este modelo bilingüe especializado deja claro el compromiso de Jina AI de llevar las tecnologías de IA a todos.
Además del español y su modelo monolingüe de alto rendimiento en inglés, Jina AI ofrece actualmente modelos de embedding de última generación para alemán, chino y lenguajes de programación, con más por venir.
Jina AI está comprometida con el avance de la tecnología de IA para la audiencia más amplia, dando gran importancia a la transparencia, accesibilidad, asequibilidad, privacidad y protección de datos.
Valoramos tus comentarios sobre todos nuestros modelos. Únete a nuestro canal comunitario para contribuir y mantenerte informado sobre nuevos desarrollos.
