Noticias
Modelos
Productos
keyboard_arrow_down
Búsqueda profunda
Busca, lee y razona hasta encontrar la mejor respuesta.
Lector
Lea las URL y busque en la web para obtener una base más sólida para su LLM.
Incrustaciones
Integraciones multilingües y multimodales de clase mundial.
reclasificador
Recuperador neuronal de clase mundial para maximizar la relevancia de la búsqueda.
Más
keyboard_arrow_down
Clasificador
Clasificación de cero disparos y pocos disparos para imágenes y texto.
Segmentador
Corta el texto largo en fragmentos y haz tokenización.

Documentación de la API
Generación automática de código para su IDE o LLM de Copilot
open_in_new


Compañía
keyboard_arrow_down
Sobre nosotros
Contactar con ventas
Programa de prácticas
Únete a nosotros
open_in_new
Descargar logotipo
open_in_new
Términos y condiciones


Acceso
login
Benchmarks
Jina Embeddings: IA para un Mundo Multilingüe
presione soltar
febrero 14, 2024

Aquí Se Habla Español: Embeddings Español-Inglés de Alta Calidad y Contexto de 8k

El nuevo modelo de embeddings bilingüe español-inglés de Jina AI lleva la tecnología AI más avanzada a medio billón de hispanohablantes.
Digital wireframe rendering of a Gothic-style cathedral, with colorful outlines and pointed spires on a dark background.
Jina AI
Jina AI • 4 minutos de lectura

Jina AI está una vez más demostrando su compromiso con los modelos de IA multilingües de alta calidad al lanzar su modelo bilingüe español-inglés.

Este modelo proporciona vectores de embeddings para textos de hasta 8k tokens en español o inglés, diseñado para que si los textos en los dos idiomas significan lo mismo, sus embeddings estén geométricamente cercanos. Jina Embeddings v2 para español e inglés es ideal para la recuperación de información entre idiomas, análisis semántico bilingüe y aplicaciones RAG bilingües.

Este nuevo modelo, jina-embeddings-v2-base-es, trae al español el mismo rendimiento de vanguardia y el conjunto de características innovadoras de los modelos v2 de Jina AI para inglés, alemán, chino y lenguajes de programación:

  • 8.192 tokens de contexto de entrada, un líder entre los modelos de embedding de código abierto.
  • Bilingüismo real en lugar de multilingüismo desigual. Los modelos bilingües de Jina AI están entrenados para dar soporte equilibrado a ambos idiomas, evitando los sesgos de los modelos "multilingües" entrenados en recopilaciones no curadas de Internet.
  • jina-embeddings-v2-base-es es compacto en comparación con modelos de código abierto de rendimiento comparable. Los embeddings tienen 768 dimensiones, ahorrando espacio y tiempo de ejecución en producción.
  • Los modelos Jina Embeddings v2 están completamente integrados en las principales bases de datos vectoriales, frameworks RAG y bibliotecas de desarrollo de IA:
    • MongoDB
    • Qdrant
    • Weaviate
    • Haystack
    • LlamaIndex

Jina Embeddings v2 para español e inglés está accesible a través de la API de Embeddings de Jina ahora mismo, con un millón de tokens gratuitos, así que no pagas nada para probarlo.

Embedding API
Start with 1M free tokens. Top-performing, 8192 context length bilingual embeddings for your search and RAG systems.

tagBenchmarks

En los benchmarks en español, Jina v2 para español e inglés supera al modelo base Multilingual E5 y al modelo BGE M3, los únicos modelos de código abierto comparables con soporte para español. Las pruebas a continuación (MTEB-es) están adaptadas del Massive Text Embeddings Benchmark. Puedes verlas y ejecutarlas desde este repositorio de GitHub.

GitHub - jina-ai/mteb-es: MTEB: Massive Text Embedding Benchmark with Spanish datasets
MTEB: Massive Text Embedding Benchmark with Spanish datasets - jina-ai/mteb-es
GitHubjina-ai
Technical table displaying models, sizes, and performance metrics for cross-language, retrieval, and classification tasks.

Jina Embeddings supera a E5 en todas las métricas excepto clasificación y supera a BGE-M3 en tareas de recuperación, agrupación y tareas entre idiomas, a pesar de ser del 15% al 30% del tamaño de estos modelos más grandes.

  • Rendimiento significativamente mejor en tareas de recuperación (como encontrar documentos relacionados en una base de datos) y agrupación (identificar grupos de documentos que pertenecen juntos en una colección)
  • Rendimiento aproximadamente igual con E5 en reordenación (ordenar documentos por similitud semántica) y rendimiento casi igual en clasificación de texto en español.
  • Los tres modelos tienen puntuaciones de benchmark muy similares para tareas entre idiomas (encontrar textos semánticamente similares en inglés para una entrada en español, o viceversa), aunque Jina Embeddings sigue teniendo el mejor rendimiento.

En comparación con los modelos multilingües de código cerrado de Open AI y Cohere, los logros de Jina Embeddings son aún más impresionantes dado su tamaño compacto.

Table comparing machine translation systems with models, vendors, and metrics like Spanish benchmarks and cross-language rera

En tareas de recuperación en español, Jina supera a los modelos de código cerrado ofrecidos por Open AI y Cohere y supera a Open AI (y casi iguala el rendimiento de Cohere) en tareas entre idiomas.

tagJina Embeddings: IA para un Mundo Multilingüe

El español es hablado por más de medio billón de personas, con estatus oficial en más de 20 países, junto con la Unión Europea, las Naciones Unidas, la Organización Mundial del Comercio y la FIFA. La introducción de este modelo bilingüe especializado deja claro el compromiso de Jina AI de llevar las tecnologías de IA a todos.

Además del español y su modelo monolingüe de alto rendimiento en inglés, Jina AI ofrece actualmente modelos de embedding de última generación para alemán, chino y lenguajes de programación, con más por venir.

Jina AI está comprometida con el avance de la tecnología de IA para la audiencia más amplia, dando gran importancia a la transparencia, accesibilidad, asequibilidad, privacidad y protección de datos.

Valoramos tus comentarios sobre todos nuestros modelos. Únete a nuestro canal comunitario para contribuir y mantenerte informado sobre nuevos desarrollos.

Embedding API
Comienza con 1M de tokens gratuitos. Embeddings bilingües de alto rendimiento con contexto de 8192 para tus sistemas de búsqueda y RAG.
Categorías:
presione soltar
rss_feed
Oficinas
location_on
Sunnyvale, California
710 Lakeway Dr, Ste 200, Sunnyvale, CA 94085, EE. UU.
location_on
Berlín, Alemania (sede central)
Prinzessinnenstraße 19-20, 10969 Berlín, Alemania
location_on
Beijing, China
Piso 5, Edificio 6, No.48 Haidian West St. Pekín, China
location_on
Shenzhen, China
Piso 402, Edificio de Tecnología Fu'an, Shenzhen, China
Fundación de búsqueda
Búsqueda profunda
Lector
Incrustaciones
reclasificador
Clasificador
Segmentador
Documentación API
Obtener la clave API de Jina
Límite de velocidad
Estado de la API
Compañía
Sobre nosotros
Contactar con ventas
Sala de prensa
Programa de prácticas
Únete a nosotros
open_in_new
Descargar logotipo
open_in_new
Términos
Seguridad
Términos y condiciones
Privacidad
Administrar cookies
email
Jina AI © 2020-2025.