Nouvelles
Modèles
Des produits
keyboard_arrow_down
Lecteur
Lisez les URL et effectuez des recherches sur le Web pour de meilleurs LLM de base.
Intégrations
Intégrations multimodales et multilingues de classe mondiale.
Reclasseur
Récupérateur neuronal de classe mondiale pour maximiser la pertinence de la recherche.
Recherche profonde
Recherchez, lisez et raisonnez jusqu'à trouver la meilleure réponse.
Plus
keyboard_arrow_down
Classificateur
Classification à zéro plan et à quelques plans pour l'image et le texte.
Segmenteur
Coupez un long texte en morceaux et effectuez la tokenisation.

Documentation de l'API
Génération automatique de code pour votre IDE ou LLM copilote
open_in_new


Entreprise
keyboard_arrow_down
À propos de nous
Contacter le service commercial
Programme de stage
Rejoignez-nous
open_in_new
Télécharger le logo
open_in_new
termes et conditions


Se connecter
login
Deux problèmes du RAG
Propagation avant uniquement
L'ancrage dans la nature est difficile
Mon point de vue
Avis
mai 24, 2024

Le RAG est mort, encore une fois ? and {{{output end}}} tags. For source language English, translate to: fr (French) {{{input start}}} RAG is Dead, Again? {{{input end}}} Le RAG est mort, encore une fois ?

RAG n'est qu'un modèle algorithmique parmi d'autres que vous pouvez utiliser. Mais si vous en faites *l'* algorithme par excellence et que vous l'idolâtrez, vous vivez alors dans une bulle que vous avez créée, et cette bulle finira par éclater.
Cartoon of four characters in a cemetery with graves marked "RAG," mixing somber themes with humorous actions.
Han Xiao
Han Xiao • 4 minutes lues

Il est difficile de dire si les gens détestent aimer le RAG ou aiment détester le RAG.

Selon les discussions récentes sur X et HN, le RAG devrait être mort, encore une fois. Cette fois, les critiques se concentrent sur la sur-ingénierie de la plupart des frameworks RAG qui, comme l'ont démontré @jeremyphoward @HamelHusain @Yampeleg, pourraient être réalisés avec 20 lignes de code Python.

La dernière fois que nous avons eu cette ambiance, c'était peu après la sortie de Claude/Gemini avec une fenêtre de contexte très longue. Ce qui rend cette fois-ci pire, c'est que même le RAG de Google génère des résultats amusants comme l'ont montré @icreatelife @mark_riedl, ce qui est ironique car en avril, lors du Google Next à Las Vegas, Google présentait le RAG comme la solution d'ancrage.

tagDeux problèmes du RAG

Je vois deux problèmes avec les frameworks et solutions RAG que nous avons aujourd'hui.

tagPropagation avant uniquement

Premièrement, presque tous les frameworks RAG implémentent uniquement un chemin de « propagation avant » et manquent d'un chemin de « rétropropagation ». C'est un système incomplet. Je me souviens de @swyx, dans l'un des épisodes de @latentspacepod, argumentant que le RAG ne sera pas tué par la longue fenêtre de contexte des LLM car :

  1. le contexte long est coûteux pour les développeurs et
  2. le contexte long est difficile à déboguer et manque de décomposabilité.

Mais si tous les frameworks RAG se concentrent uniquement sur le chemin de propagation avant, en quoi est-ce plus facile à déboguer qu'un LLM ? Il est également intéressant de voir combien de personnes s'enthousiasment pour les résultats auto-magiques du RAG à partir de quelques POC aléatoires et oublient complètement qu'ajouter plus de couches de propagation avant sans ajustement arrière est une terrible idée. Nous savons tous qu'ajouter une couche supplémentaire à vos réseaux de neurones étend son espace paramétrique et donc sa capacité de représentation, lui permettant de faire plus de choses potentielles, mais sans entraînement, ce n'est rien. Il y a pas mal de startups dans la Bay Area qui travaillent sur l'évaluation — essentiellement en essayant d'évaluer la perte d'un système de propagation avant. Est-ce utile ? Oui. Mais cela aide-t-il à fermer la boucle du RAG ? Non.

Alors qui travaille sur la rétropropagation du RAG ? À ma connaissance, pas beaucoup. Je connais principalement DSPy, une bibliothèque de @stanfordnlp @lateinteraction qui s'est donné cette mission.

GitHub - stanfordnlp/dspy: DSPy: The framework for programming—not prompting—foundation models
DSPy: The framework for programming—not prompting—foundation models - stanfordnlp/dspy
GitHubstanfordnlp

Mais même pour DSPy, l'accent principal est mis sur l'optimisation des démonstrations few-shot, pas sur le système complet (ou du moins selon l'usage de la communauté). Mais pourquoi ce problème est-il difficile ? Parce que le signal est très épars, et optimiser un système de pipeline non différentiable est essentiellement un problème combinatoire — en d'autres termes, extrêmement difficile. J'ai appris quelques optimisations sous-modulaires pendant mon doctorat, et j'ai le sentiment que cette technique sera bien utilisée dans l'optimisation RAG.

tagL'ancrage dans la nature est difficile

Je suis d'accord que le RAG sert à l'ancrage, malgré les résultats de recherche amusants de Google. Il existe deux types d'ancrage : l'ancrage de recherche, qui utilise les moteurs de recherche pour étendre les connaissances mondiales des LLM, et l'ancrage de vérification, qui utilise des connaissances privées (par exemple, des données propriétaires) pour faire de la vérification des faits.

Dans les deux cas, il cite des connaissances externes pour améliorer la factualité du résultat, à condition que ces ressources externes soient fiables. Dans les résultats de recherche amusants de Google, on peut facilement voir que tout sur le web n'est pas fiable (oui, grande surprise, qui l'eût cru !), ce qui fait paraître l'ancrage de recherche mauvais. Mais je crois que vous ne pouvez en rire que pour l'instant. Il existe des mécanismes de feedback implicites derrière l'interface utilisateur de Google Search qui collectent les réactions des utilisateurs à ces résultats et pondèrent la crédibilité du site web pour un meilleur ancrage. En général, cela devrait être assez temporaire, car ce RAG doit juste passer le démarrage à froid, et les résultats s'amélioreront avec le temps.

Diagramme du processus de recherche de Jina AI avec les blocs "Ancrage de recherche", "Connaissances privées" et "Ancrage de vérification", et U connexe
Deux types d'ancrage qui inspirent Jina Reader

RAG a été présenté comme une solution d'ancrage lors de la conférence Google Next.

tagMon point de vue

RAG n'est ni mort ni vivant ; alors arrêtez d'en débattre. RAG n'est qu'un modèle algorithmique parmi d'autres que vous pouvez utiliser. Mais si vous en faites l'algorithme et que vous l'idolâtrez, alors vous vivez dans une bulle que vous avez créée, et cette bulle finira par éclater.

Catégories:
Avis
rss_feed
Des bureaux
location_on
Sunnyvale, Californie
710 Lakeway Dr, Ste 200, Sunnyvale, CA 94085, États-Unis
location_on
Berlin, Allemagne (siège social)
Prinzessinnenstraße 19-20, 10969 Berlin, Allemagne
location_on
Pékin, Chine
Niveau 5, bâtiment 6, n° 48, rue Haidian Ouest, Pékin, Chine
location_on
Shenzhen, en Chine
402 étage 4, bâtiment technologique Fu'an, Shenzhen, Chine
Fondation Recherche
Lecteur
Intégrations
Reclasseur
Recherche profonde
Classificateur
Segmenteur
Documentation de l'API
Obtenir la clé API Jina
Limite de taux
Statut de l'API
Entreprise
À propos de nous
Contacter le service commercial
Rédaction
Programme de stage
Rejoignez-nous
open_in_new
Télécharger le logo
open_in_new
Termes
Sécurité
termes et conditions
Confidentialité
Gérer les cookies
email
Jina AI © 2020-2025.