On Parle Espagnol Ici : Embeddings Espagnol-Anglais de Haute Qualité et Contexte de 8k

Jina AI démontre une fois de plus son engagement envers des modèles d'IA multilingues de haute qualité en lançant son modèle bilingue espagnol-anglais.

Ce modèle fournit des vecteurs d'embedding pour des textes allant jusqu'à 8k tokens en espagnol ou en anglais, conçus de manière à ce que si des textes dans les deux langues signifient la même chose, leurs embeddings soient géométriquement proches. Jina Embeddings v2 pour l'espagnol et l'anglais est idéalement adapté pour la recherche d'informations interlingue, l'analyse sémantique bilingue et les applications RAG bilingues.

Ce nouveau modèle, jina-embeddings-v2-base-es, apporte à l'espagnol les mêmes performances de pointe et l'ensemble des fonctionnalités innovantes des modèles v2 de Jina AI pour l'anglais, l'allemand, le chinois, et les langages de programmation :

8 192 tokens de contexte d'entrée, un leader parmi les modèles d'embedding open source.
Un véritable bilinguisme plutôt qu'un multilinguisme déséquilibré. Les modèles bilingues de Jina AI sont entraînés pour offrir un support équilibré aux deux langues, évitant les biais des modèles "multilingues" entraînés sur des extractions Internet non filtrées.
jina-embeddings-v2-base-es est compact comparé aux modèles open source de performance comparable. Les embeddings eux-mêmes sont de 768 dimensions, économisant de l'espace et du temps d'exécution en production.
Les modèles Jina Embeddings v2 sont entièrement intégrés dans les principales bases de données vectorielles, frameworks RAG et bibliothèques de développement IA :

Jina Embeddings v2 pour l'espagnol et l'anglais est accessible dès maintenant via l'API Embeddings de Jina, avec un million de tokens gratuits, vous ne payez donc rien pour l'essayer.

tagBenchmarks

Sur les benchmarks espagnols, Jina v2 pour l'espagnol et l'anglais surpasse le modèle Multilingual E5 base et le modèle BGE M3, les seuls modèles open source comparables avec support de l'espagnol. Les tests ci-dessous (MTEB-es) sont adaptés du Massive Text Embeddings Benchmark. Vous pouvez les consulter et les exécuter depuis ce dépôt GitHub.

Technical table displaying models, sizes, and performance metrics for cross-language, retrieval, and classification tasks.

Jina Embeddings surpasse E5 sur toutes les métriques sauf la classification et surpasse BGE-M3 dans les tâches de recherche, de clustering et cross-langues, malgré une taille représentant seulement 15 % à 30 % de celle de ces modèles plus grands.

Performance significativement meilleure dans les tâches de recherche (comme trouver des documents connexes dans une base de données) et de clustering (identifier des groupes de documents qui vont ensemble dans une collection)
Performance à peu près égale avec E5 sur le reranking (classement des documents par similarité sémantique) et presque égale sur la classification de texte en espagnol.
Les trois modèles ont des scores de benchmark très similaires pour les tâches cross-langues (trouver des textes sémantiquement similaires en anglais à partir d'une entrée en espagnol, ou vice-versa), bien que Jina Embeddings reste le plus performant.

Comparé aux modèles multilingues propriétaires d'Open AI et Cohere, les réalisations de Jina Embeddings sont encore plus impressionnantes compte tenu de sa taille compacte.

Table comparing machine translation systems with models, vendors, and metrics like Spanish benchmarks and cross-language rera

Pour les tâches de recherche en espagnol, Jina surpasse les modèles propriétaires proposés par Open AI et Cohere et surpasse Open AI (et égale presque les performances de Cohere) sur les tâches cross-langues.

tagJina Embeddings : l'IA pour un monde multilingue

L'espagnol est parlé par plus d'un demi-milliard de personnes, avec un statut officiel dans plus de 20 pays, ainsi qu'à l'Union européenne, aux Nations Unies, à l'Organisation mondiale du commerce et à la FIFA. L'introduction de ce modèle bilingue spécialisé démontre clairement l'engagement de Jina AI à rendre les technologies d'IA accessibles à tous.

En plus de l'espagnol et de son modèle monolingue anglais haute performance, Jina AI propose actuellement des modèles d'embedding à la pointe de la technologie pour l'allemand, le chinois, et les langages de programmation, avec d'autres à venir.

Jina AI s'engage à faire progresser la technologie d'IA pour le plus grand nombre, en accordant une grande importance à la transparence, l'accessibilité, l'abordabilité, la confidentialité et la protection des données.

Nous apprécions vos retours sur tous nos modèles. Rejoignez notre canal communautaire pour contribuer et rester informé des nouveaux développements.