Nouvelles
Modèles
Des produits
keyboard_arrow_down
Lecteur
Lisez les URL et effectuez des recherches sur le Web pour de meilleurs LLM de base.
Intégrations
Intégrations multimodales et multilingues de classe mondiale.
Reclasseur
Récupérateur neuronal de classe mondiale pour maximiser la pertinence de la recherche.
Recherche profonde
Recherchez, lisez et raisonnez jusqu'à trouver la meilleure réponse.
Plus
keyboard_arrow_down
Classificateur
Classification à zéro plan et à quelques plans pour l'image et le texte.
Segmenteur
Coupez un long texte en morceaux et effectuez la tokenisation.

Documentation de l'API
Génération automatique de code pour votre IDE ou LLM copilote
open_in_new


Entreprise
keyboard_arrow_down
À propos de nous
Contacter le service commercial
Programme de stage
Rejoignez-nous
open_in_new
Télécharger le logo
open_in_new
termes et conditions


Se connecter
login
Benchmarks
Jina Embeddings : l'IA pour un monde multilingue
communiqué de presse
février 14, 2024

On Parle Espagnol Ici : Embeddings Espagnol-Anglais de Haute Qualité et Contexte de 8k

Le nouveau modèle d'embeddings bilingue espagnol-anglais de Jina AI apporte l'état de l'art en matière d'IA à un demi-milliard d'hispanophones.
Digital wireframe rendering of a Gothic-style cathedral, with colorful outlines and pointed spires on a dark background.
Jina AI
Jina AI • 4 minutes lues

Jina AI démontre une fois de plus son engagement envers des modèles d'IA multilingues de haute qualité en lançant son modèle bilingue espagnol-anglais.

Ce modèle fournit des vecteurs d'embedding pour des textes allant jusqu'à 8k tokens en espagnol ou en anglais, conçus de manière à ce que si des textes dans les deux langues signifient la même chose, leurs embeddings soient géométriquement proches. Jina Embeddings v2 pour l'espagnol et l'anglais est idéalement adapté pour la recherche d'informations interlingue, l'analyse sémantique bilingue et les applications RAG bilingues.

Ce nouveau modèle, jina-embeddings-v2-base-es, apporte à l'espagnol les mêmes performances de pointe et l'ensemble des fonctionnalités innovantes des modèles v2 de Jina AI pour l'anglais, l'allemand, le chinois, et les langages de programmation :

  • 8 192 tokens de contexte d'entrée, un leader parmi les modèles d'embedding open source.
  • Un véritable bilinguisme plutôt qu'un multilinguisme déséquilibré. Les modèles bilingues de Jina AI sont entraînés pour offrir un support équilibré aux deux langues, évitant les biais des modèles "multilingues" entraînés sur des extractions Internet non filtrées.
  • jina-embeddings-v2-base-es est compact comparé aux modèles open source de performance comparable. Les embeddings eux-mêmes sont de 768 dimensions, économisant de l'espace et du temps d'exécution en production.
  • Les modèles Jina Embeddings v2 sont entièrement intégrés dans les principales bases de données vectorielles, frameworks RAG et bibliothèques de développement IA :
    • MongoDB
    • Qdrant
    • Weaviate
    • Haystack
    • LlamaIndex.

Jina Embeddings v2 pour l'espagnol et l'anglais est accessible dès maintenant via l'API Embeddings de Jina, avec un million de tokens gratuits, vous ne payez donc rien pour l'essayer.

Embedding API
Start with 1M free tokens. Top-performing, 8192 context length bilingual embeddings for your search and RAG systems.

tagBenchmarks

Sur les benchmarks espagnols, Jina v2 pour l'espagnol et l'anglais surpasse le modèle Multilingual E5 base et le modèle BGE M3, les seuls modèles open source comparables avec support de l'espagnol. Les tests ci-dessous (MTEB-es) sont adaptés du Massive Text Embeddings Benchmark. Vous pouvez les consulter et les exécuter depuis ce dépôt GitHub.

GitHub - jina-ai/mteb-es: MTEB: Massive Text Embedding Benchmark with Spanish datasets
MTEB: Massive Text Embedding Benchmark with Spanish datasets - jina-ai/mteb-es
GitHubjina-ai
Technical table displaying models, sizes, and performance metrics for cross-language, retrieval, and classification tasks.

Jina Embeddings surpasse E5 sur toutes les métriques sauf la classification et surpasse BGE-M3 dans les tâches de recherche, de clustering et cross-langues, malgré une taille représentant seulement 15 % à 30 % de celle de ces modèles plus grands.

  • Performance significativement meilleure dans les tâches de recherche (comme trouver des documents connexes dans une base de données) et de clustering (identifier des groupes de documents qui vont ensemble dans une collection)
  • Performance à peu près égale avec E5 sur le reranking (classement des documents par similarité sémantique) et presque égale sur la classification de texte en espagnol.
  • Les trois modèles ont des scores de benchmark très similaires pour les tâches cross-langues (trouver des textes sémantiquement similaires en anglais à partir d'une entrée en espagnol, ou vice-versa), bien que Jina Embeddings reste le plus performant.

Comparé aux modèles multilingues propriétaires d'Open AI et Cohere, les réalisations de Jina Embeddings sont encore plus impressionnantes compte tenu de sa taille compacte.

Table comparing machine translation systems with models, vendors, and metrics like Spanish benchmarks and cross-language rera

Pour les tâches de recherche en espagnol, Jina surpasse les modèles propriétaires proposés par Open AI et Cohere et surpasse Open AI (et égale presque les performances de Cohere) sur les tâches cross-langues.

tagJina Embeddings : l'IA pour un monde multilingue

L'espagnol est parlé par plus d'un demi-milliard de personnes, avec un statut officiel dans plus de 20 pays, ainsi qu'à l'Union européenne, aux Nations Unies, à l'Organisation mondiale du commerce et à la FIFA. L'introduction de ce modèle bilingue spécialisé démontre clairement l'engagement de Jina AI à rendre les technologies d'IA accessibles à tous.

En plus de l'espagnol et de son modèle monolingue anglais haute performance, Jina AI propose actuellement des modèles d'embedding à la pointe de la technologie pour l'allemand, le chinois, et les langages de programmation, avec d'autres à venir.

Jina AI s'engage à faire progresser la technologie d'IA pour le plus grand nombre, en accordant une grande importance à la transparence, l'accessibilité, l'abordabilité, la confidentialité et la protection des données.

Nous apprécions vos retours sur tous nos modèles. Rejoignez notre canal communautaire pour contribuer et rester informé des nouveaux développements.

Embedding API
Commencez avec 1M de tokens gratuits. Embeddings bilingues haute performance avec contexte de 8192 tokens pour vos systèmes de recherche et RAG.
Catégories:
communiqué de presse
rss_feed
Des bureaux
location_on
Sunnyvale, Californie
710 Lakeway Dr, Ste 200, Sunnyvale, CA 94085, États-Unis
location_on
Berlin, Allemagne (siège social)
Prinzessinnenstraße 19-20, 10969 Berlin, Allemagne
location_on
Pékin, Chine
Niveau 5, bâtiment 6, n° 48, rue Haidian Ouest, Pékin, Chine
location_on
Shenzhen, en Chine
402 étage 4, bâtiment technologique Fu'an, Shenzhen, Chine
Fondation Recherche
Lecteur
Intégrations
Reclasseur
Recherche profonde
Classificateur
Segmenteur
Documentation de l'API
Obtenir la clé API Jina
Limite de taux
Statut de l'API
Entreprise
À propos de nous
Contacter le service commercial
Rédaction
Programme de stage
Rejoignez-nous
open_in_new
Télécharger le logo
open_in_new
Termes
Sécurité
termes et conditions
Confidentialité
Gérer les cookies
email
Jina AI © 2020-2025.