Notizia
Modelli
API
keyboard_arrow_down
Lettore
Leggi gli URL e cerca sul web per ottenere LLM più approfonditi.
Incorporamenti
Incorporamenti multilingue multimodali di livello mondiale.
Riclassificazione
Recupero neurale di livello mondiale per massimizzare la pertinenza della ricerca.
MCP terminalCLIarticlellms.txtsmart_toyAgentidata_objectSchemamenu_bookDocumenti



Login
login
Due problemi del RAG
Solo feed-forward
Il grounding nel mondo reale è difficile
Il Mio Parere
Opinione
maggio 24, 2024

RAG è Morto, di Nuovo?

RAG è solo uno dei pattern algoritmici che puoi utilizzare. Ma se lo rendi *l'* algoritmo e lo idolatri, allora stai vivendo in una bolla che hai creato tu stesso, e quella bolla prima o poi scoppierà.
Cartoon of four characters in a cemetery with graves marked "RAG," mixing somber themes with humorous actions.
Han Xiao
Han Xiao • 4 minuti letti

È difficile dire se le persone odiano amare il RAG o amano odiare il RAG.

Secondo recenti discussioni su X e HN, il RAG dovrebbe essere morto, di nuovo. Questa volta, le critiche si concentrano sull'eccessiva ingegnerizzazione della maggior parte dei framework RAG che, come hanno dimostrato @jeremyphoward @HamelHusain @Yampeleg, potrebbero essere realizzati con 20 righe di codice Python.

L'ultima volta che abbiamo avuto questa sensazione è stato poco dopo il rilascio di Claude/Gemini con una finestra di contesto molto ampia. Ciò che rende questa volta peggiore è che persino il RAG di Google genera risultati divertenti come hanno mostrato @icreatelife @mark_riedl, il che è ironico perché ad aprile, al Google Next di Las Vegas, Google aveva presentato il RAG come la soluzione di grounding.

tagDue problemi del RAG

Vedo due problemi con i framework e le soluzioni RAG che abbiamo oggi.

tagSolo feed-forward

Primo, quasi tutti i framework RAG implementano solo un percorso "feed-forward" e mancano di un percorso di "back-propagation". È un sistema incompleto. Ricordo che @swyx, in uno degli episodi di @latentspacepod, sosteneva che il RAG non sarà ucciso dalla lunga finestra di contesto degli LLM poiché:

  1. il contesto lungo è costoso per gli sviluppatori e
  2. il contesto lungo è difficile da debuggare e manca di decomponibilità.

Ma se tutti i framework RAG si concentrano solo sul percorso in avanti, come può essere più facile da debuggare rispetto a un LLM? È anche interessante vedere quante persone si entusiasmano eccessivamente per i risultati auto-magici del RAG da alcune POC casuali e dimenticano completamente che aggiungere più livelli forward senza tuning backward è un'idea terribile. Sappiamo tutti che aggiungere un altro livello alle reti neurali espande il loro spazio parametrico e quindi la capacità di rappresentazione, permettendogli di fare più cose potenziali, ma senza training, questo non significa nulla. Ci sono diverse startup nella Bay Area che lavorano sulla valutazione—essenzialmente cercando di valutare la perdita di un sistema feed-forward. È utile? Sì. Ma aiuta a chiudere il ciclo del RAG? No.

Quindi chi sta lavorando sulla back-propagation del RAG? Per quanto ne so, non molti. Conosco principalmente DSPy, una libreria di @stanfordnlp @lateinteraction che ha questa missione.

GitHub - stanfordnlp/dspy: DSPy: The framework for programming—not prompting—foundation models
DSPy: The framework for programming—not prompting—foundation models - stanfordnlp/dspy
GitHubstanfordnlp

Ma anche per DSPy, il focus principale è sull'ottimizzazione delle dimostrazioni few-shot, non sull'intero sistema (o almeno dall'uso della community). Ma perché questo problema è difficile? Perché il segnale è molto sparso, e ottimizzare un sistema pipeline non differenziabile è essenzialmente un problema combinatorio—in altre parole, estremamente difficile. Durante il mio dottorato ho studiato un po' di ottimizzazione submodulare, e ho la sensazione che questa tecnica sarà molto utile nell'ottimizzazione del RAG.

tagIl grounding nel mondo reale è difficile

Sono d'accordo che il RAG serve per il grounding, nonostante i risultati divertenti di Google. Ci sono due tipi di grounding: search grounding, che usa i motori di ricerca per estendere la conoscenza del mondo degli LLM, e check grounding, che usa conoscenze private (ad esempio dati proprietari) per fare fact-checking.

In entrambi i casi, cita conoscenze esterne per migliorare la fattualità del risultato, a condizione che queste risorse esterne siano affidabili. Nei risultati divertenti di Google, si può facilmente vedere che non tutto sul web è affidabile (sì, grande sorpresa, chi l'avrebbe mai detto!), il che fa sembrare il search grounding cattivo. Ma credo che si possa riderne solo per ora. Ci sono alcuni meccanismi di feedback impliciti dietro l'interfaccia utente di Google Search che raccolgono le reazioni degli utenti a quei risultati e pesano la credibilità del sito web per un migliore grounding. In generale, dovrebbe essere abbastanza temporaneo, poiché questo RAG deve solo superare la fase iniziale, e i risultati miglioreranno nel tempo.

Diagram of Jina AI's search process with "Search Grounding," "Private Knowledge," and "Check Grounding" blocks, and related U
Due tipi di grounding che ispirano Jina Reader

RAG è stato presentato come soluzione di grounding alla conferenza Google Next.

tagIl Mio Parere

RAG non è né morto né vivo; quindi smettiamola di discuterne. RAG è solo uno dei pattern algoritmici che si possono utilizzare. Ma se lo rendi l' algoritmo e lo idolatri, allora stai vivendo in una bolla che hai creato tu stesso, e questa bolla scoppierà.

Categorie:
Opinione
rss_feed

Per saperne di più
settembre 30, 2025 • 8 minuti letti
Gli Embeddings Sono il Figliastro dai Capelli Rossi dell'IA
Scott Martens
Humorous office cartoon depicting a team gathered around robots; signs labeled "embeddings", "tools", "reasoning", and "lol"
agosto 14, 2024 • 17 minuti letti
Aspirando il Web, l'AI sta avvelenando se stessa
Alex C-G
Scott Martens
Illustration of a cartoonish robot vacuum cleaner with big eyes and an open mouth, humorously sticking out a tongue to clean,
luglio 19, 2024 • 22 minuti letti
L'Intelligenza Artificiale Generativa per il Romance è la Killer App? Speriamo di No
Scott Martens
Alex C-G
Sofia Vasileva
Black-and-white cartoon of a man on one knee proposing with a ring, flanked by whimsical robots.
Uffici
location_on
Sunnyvale, California
710 Lakeway Dr, Ste 200, Sunnyvale, CA 94085, Stati Uniti
location_on
Berlino, Germania
Prinzessinnenstraße 19-20, 10969 Berlino, Germania
Fondazione di ricerca
Lettore
Incorporamenti
Riclassificazione
Ottieni la chiave API Jina
Limite di velocità
Stato dell'API
Azienda
Chi siamo
Contatta le vendite
Sala stampa
Programma di stagista
Scarica il logo Jina
open_in_new
Scarica il logo Elastic
open_in_new
Termini
Sicurezza
Termini & Condizioni
Privacy
Gestisci i cookie
email
Jina AI di Elastic © 2020-2026.