Nouvelles
Modèles
Des produits
keyboard_arrow_down
Lecteur
Lisez les URL et effectuez des recherches sur le Web pour de meilleurs LLM de base.
Intégrations
Intégrations multimodales et multilingues de classe mondiale.
Reclasseur
Récupérateur neuronal de classe mondiale pour maximiser la pertinence de la recherche.
Recherche profonde
Recherchez, lisez et raisonnez jusqu'à trouver la meilleure réponse.
Plus
keyboard_arrow_down
Classificateur
Classification à zéro plan et à quelques plans pour l'image et le texte.
Segmenteur
Coupez un long texte en morceaux et effectuez la tokenisation.

Documentation de l'API
Génération automatique de code pour votre IDE ou LLM copilote
open_in_new


Entreprise
keyboard_arrow_down
À propos de nous
Contacter le service commercial
Programme de stage
Rejoignez-nous
open_in_new
Télécharger le logo
open_in_new
termes et conditions


Se connecter
login
warning
Ce modèle est obsolète pour les modèles plus récents.

jina-embeddings-v2-base-de

Intégrations bilingues allemand-anglais avec performances SOTA
Publication de publicationarrow_forward
Licence
license
Apache-2.0
Date de sortie
calendar_month
2024-01-15
Saisir
abc
Texte
arrow_forward
Sortir
more_horiz
Vecteur
Détails du modèle
Paramètres: 161M
Longueur du jeton d'entrée: 8K
Dimension de sortie: 768
Prise en charge linguistique
🇺🇸 Anglais
🇩🇪 Deutsch
Modèles associés
link
jina-embeddings-v2-base-en
Mots clés
german-language
text-embedding
monolingual
large-context
production
semantic-search
document-retrieval
fine-tunable
Disponible via
API JinaAWS SageMakerMicrosoft AzureVisage qui fait un câlin
Choisissez les modèles à comparer
Publications (1)
arXiv
février 26, 2024
Multi-Task Contrastive Learning for 8192-Token Bilingual Text Embeddings

Aperçu

Jina Embeddings v2 Base German répond à un défi crucial dans le commerce international : combler le fossé linguistique entre les marchés allemand et anglais. Pour les entreprises allemandes qui se développent dans les territoires anglophones, où un tiers des entreprises génèrent plus de 20 % de leurs ventes mondiales, une compréhension bilingue précise est essentielle. Ce modèle transforme la façon dont les organisations gèrent le contenu multilingue en permettant une compréhension et une récupération transparentes du texte en allemand et en anglais, ce qui le rend inestimable pour les entreprises qui mettent en œuvre des systèmes de documentation internationaux, des plateformes de support client ou des solutions de gestion de contenu. Contrairement aux approches traditionnelles basées sur la traduction, ce modèle mappe directement les significations équivalentes dans les deux langues sur le même espace d'intégration, ce qui permet des opérations bilingues plus précises et plus efficaces.

Méthodes

Le modèle atteint ses impressionnantes capacités bilingues grâce à une architecture innovante qui traite à la fois des textes allemands et anglais dans un espace d'intégration unifié de 768 dimensions. À la base, il utilise un réseau neuronal basé sur un transformateur avec 161 millions de paramètres, soigneusement formés pour comprendre les relations sémantiques dans les deux langues. Ce qui rend cette architecture particulièrement efficace est son approche de minimisation des biais, spécialement conçue pour éviter le piège courant consistant à privilégier les structures grammaticales anglaises - un problème identifié dans des recherches récentes sur les modèles multilingues. La fenêtre de contexte étendue du modèle de 8 192 jetons lui permet de traiter des documents entiers ou plusieurs pages de texte en un seul passage, en maintenant la cohérence sémantique sur le contenu long dans les deux langues.

Performance

Lors de tests en conditions réelles, Jina Embeddings v2 Base German fait preuve d'une efficacité et d'une précision exceptionnelles, notamment dans les tâches de recherche multilingue. Le modèle surpasse le modèle de base E5 de Microsoft tout en étant moins d'un tiers de sa taille, et égale les performances du modèle E5 large bien qu'il soit sept fois plus petit. Dans les tests de référence clés, notamment WikiCLIR pour la recherche de l'anglais vers l'allemand, STS17 et STS22 pour la compréhension bidirectionnelle des langues et BUCC pour l'alignement précis du texte bilingue, le modèle démontre systématiquement des capacités supérieures. Sa taille compacte de 322 Mo permet un déploiement sur du matériel standard tout en maintenant des performances de pointe, ce qui le rend particulièrement efficace pour les environnements de production où les ressources de calcul sont un facteur important.

Conseils

Pour déployer efficacement Jina Embeddings v2 Base German, les organisations doivent prendre en compte plusieurs aspects pratiques. Le modèle s'intègre parfaitement aux bases de données vectorielles populaires telles que MongoDB, Qdrant et Weaviate, ce qui facilite la création de systèmes de recherche bilingues évolutifs. Pour des performances optimales, implémentez un prétraitement de texte approprié pour gérer efficacement la limite de 8 192 jetons, ce qui permet généralement de gérer environ 15 à 20 pages de texte. Bien que le modèle excelle à la fois dans le contenu allemand et anglais, il est particulièrement efficace lorsqu'il est utilisé pour des tâches de récupération multilingue où les langues de requête et de document peuvent différer. Les organisations doivent envisager de mettre en œuvre des stratégies de mise en cache pour le contenu fréquemment consulté et d'utiliser le traitement par lots pour l'indexation de documents à grande échelle. L'intégration AWS SageMaker du modèle offre un chemin fiable vers le déploiement en production, bien que les équipes doivent surveiller l'utilisation des jetons et mettre en œuvre une limitation de débit appropriée pour les applications à fort trafic. Lorsque vous utilisez le modèle pour les applications RAG, envisagez de mettre en œuvre la détection de langue pour optimiser la construction d'invites en fonction de la langue d'entrée.
Blogs qui mentionnent ce modèle
septembre 27, 2024 • 15 minutes lues
Migration des embeddings Jina v2 vers v3
Nous avons rassemblé quelques conseils pour vous aider à migrer de Jina Embeddings v2 vers v3.
Alex C-G
Scott Martens
A digital upgrade theme with "V3" and a white "2", set against a green and black binary code background, with "Upgrade" centr
mai 15, 2024 • 11 minutes lues
Plongements binaires : Toute l'IA, 3,125 % du volume
32-bits, c'est beaucoup de précision pour quelque chose d'aussi robuste et imprécis qu'un modèle d'IA. Nous nous sommes donc débarrassés de 31 d'entre eux ! Les embeddings binaires sont plus petits, plus rapides et très performants.
Sofia Vasileva
Scott Martens
Futuristic digital 3D model of a coffee grinder with blue neon lights on a black background, featuring numerical data.
avril 29, 2024 • 7 minutes lues
Jina Embeddings et Reranker sur Azure : Solutions d'IA évolutives et prêtes pour l'entreprise
Les Embeddings et Rerankers de Jina sont désormais disponibles sur Azure Marketplace. Les entreprises qui privilégient la confidentialité et la sécurité peuvent maintenant facilement intégrer les modèles de pointe de Jina AI directement dans leur écosystème Azure existant.
Susana Guzmán
Futuristic black background with a purple 3D grid, featuring the "Embeddings" and "Reranker" logos with a stylized "A".
janvier 31, 2024 • 16 minutes lues
Une analyse approfondie de la tokenisation
La tokenisation, dans les LLMs, signifie découper les textes d'entrée en plus petites parties pour leur traitement. Alors pourquoi les embeddings sont-ils facturés au token ?
Scott Martens
Colorful speckled grid pattern with a mix of small multicolored dots on a black background, creating a mosaic effect.
janvier 26, 2024 • 13 minutes lues
Les modèles bilingues Jina Embeddings v2 sont maintenant open source sur Hugging Face
Les modèles d'embedding bilingues open-source de Jina AI pour l'allemand-anglais et le chinois-anglais sont maintenant disponibles sur Hugging Face. Nous allons voir l'installation et la recherche inter-langues.
Scott Martens
Colorful "EMBEDDINGS" text above a pile of yellow smileys on a black background with decorative lines at the top.
Des bureaux
location_on
Sunnyvale, Californie
710 Lakeway Dr, Ste 200, Sunnyvale, CA 94085, États-Unis
location_on
Berlin, Allemagne (siège social)
Prinzessinnenstraße 19-20, 10969 Berlin, Allemagne
location_on
Pékin, Chine
Niveau 5, bâtiment 6, n° 48, rue Haidian Ouest, Pékin, Chine
location_on
Shenzhen, en Chine
402 étage 4, bâtiment technologique Fu'an, Shenzhen, Chine
Fondation Recherche
Lecteur
Intégrations
Reclasseur
Recherche profonde
Classificateur
Segmenteur
Documentation de l'API
Obtenir la clé API Jina
Limite de taux
Statut de l'API
Entreprise
À propos de nous
Contacter le service commercial
Rédaction
Programme de stage
Rejoignez-nous
open_in_new
Télécharger le logo
open_in_new
Termes
Sécurité
termes et conditions
Confidentialité
Gérer les cookies
email
Jina AI © 2020-2025.