I modelli di embedding per contesti lunghi sono ciechi oltre i 4K token

A febbraio 2025, un team di ricercatori AI ha pubblicato il paper NoLiMA, che introduce un nuovo benchmark per valutare la capacità dei modelli linguistici di gestire contesti lunghi.

NoLiMa: Long-Context Evaluation Beyond Literal Matching

Recent large language models (LLMs) support long contexts ranging from 128K to 1M tokens. A popular method for evaluating these capabilities is the needle-in-a-haystack (NIAH) test, which involves retrieving a "needle" (relevant information) from a "haystack" (long irrelevant context). Extensions of this approach include increasing distractors, fact chaining, and in-context reasoning. However, in these benchmarks, models can exploit existing literal matches between the needle and haystack to simplify the task. To address this, we introduce NoLiMa, a benchmark extending NIAH with a carefully designed needle set, where questions and needles have minimal lexical overlap, requiring models to infer latent associations to locate the needle within the haystack. We evaluate 12 popular LLMs that claim to support contexts of at least 128K tokens. While they perform well in short contexts (<1K), performance degrades significantly as context length increases. At 32K, for instance, 10 models drop below 50% of their strong short-length baselines. Even GPT-4o, one of the top-performing exceptions, experiences a reduction from an almost-perfect baseline of 99.3% to 69.7%. Our analysis suggests these declines stem from the increased difficulty the attention mechanism faces in longer contexts when literal matches are absent, making it harder to retrieve relevant information.

arXiv.orgAli Modarressi

Questo paper introduce un cambiamento significativo al tradizionale benchmark Needle-in-a-Haystack (NIAH) rimuovendo le corrispondenze letterali tra le domande e l'ago (informazione rilevante) nascosto nel pagliaio (testo irrilevante).

Per esempio, nel tradizionale NIAH, se la domanda è "In che anno John ha visitato Parigi?", l'ago potrebbe contenere direttamente "John ha visitato Parigi nel 2019." In NOLIMA, la domanda potrebbe essere "Quale personaggio è stato in Francia?" mentre l'ago contiene "In realtà, Yuki vive accanto alla Semper Opera House" - richiedendo al modello di sapere che la Semper Opera House si trova a Dresda, Germania, non in Francia.

Evidenzia una limitazione critica negli LLM attuali: si basano fortemente sul pattern matching superficiale, e la loro capacità di eseguire ragionamenti associativi profondi si deteriora rapidamente con l'aumentare della lunghezza del contesto.

Basandoci su queste intuizioni, miriamo a investigare se pattern di performance simili si verificano nei modelli di embedding, concentrandoci specificamente su jina-embeddings-v3. Poiché l'efficacia dei sistemi RAG dipende criticamente dalla qualità dei modelli di recupero, cerchiamo di estendere la ricerca di NoLiMA attraverso esperimenti controllati che affrontano due questioni fondamentali:

Come gestiscono i modelli di embedding il recupero needle-in-a-haystack attraverso diverse lunghezze di contesto quando sono costretti a fare salti semantici oltre le corrispondenze letterali di parole chiave?
L'augmentation strategica delle query con contenuti semanticamente simili può mitigare questo gap di performance?

Il netto contrasto osservato negli LLM—robusti con il matching lessicale ma vulnerabili con variazioni semantiche—suggerisce che i sistemi di recupero basati su embedding potrebbero affrontare sfide simili quando si va oltre il matching di termini superficiale, potenzialmente rivelando limitazioni fondamentali nelle attuali tecnologie di ricerca semantica.

tagCostruzione di Aghi e Pagliai

tagCostruzione degli Aghi

I test tradizionali needle-in-haystack usano aghi che riflettono la formulazione della domanda ricercata. Per esempio:

Domanda: "Quale personaggio è stato a Dresda?"
Ago: "Yuki vive a Dresda."

Ma come NoLiMA, vogliamo testare la comprensione semantica piuttosto che il semplice matching di parole chiave, quindi creiamo variazioni a un salto (usando parole specificamente non presenti nei documenti) con due diversi ordinamenti di parole:

Domanda: "Quale personaggio è stato a Dresda?"
Ago (predefinito): "In realtà, Yuki vive accanto alla Semper Opera House."
Ago (invertito): "La Semper Opera House è accanto a dove vive Yuki."

💡

La Semper Opera House si trova a Dresda, fornendo il contesto per questo ago a un salto.

Seguendo la metodologia del paper, generiamo questi gruppi ago-domanda (costituiti da una domanda, un ago a un salto e un ago a un salto invertito) attraverso diverse categorie, come gli esempi seguenti:

Categoria	Domanda	Ago originale (per riferimento)	Ago a un salto	Ago a un salto invertito
Restrizioni dietetiche	Quale personaggio non può mangiare pasti a base di pesce?	Alice non può mangiare pasti a base di pesce.	Poi, Alice ha menzionato di essere vegana da anni.	Essere vegana era importante per Alice da anni.
Condizioni mediche	Quale personaggio non può bere latte?	Bob non può bere latte.	Bob ha spiegato di essere intollerante al lattosio.	Essere intollerante al lattosio influenzava Bob quotidianamente.
Competenza linguistica	Quale personaggio parla francese?	Charlie parla francese.	In effetti, Charlie ha studiato alla Sorbona.	Alla Sorbona, Charlie ha completato il suo corso di laurea.
Background professionale	Quale personaggio è un musicista?	Diane è una musicista.	Nel 2013, Diane ha diretto alla Sydney Opera House.	L'esibizione alla Sydney Opera House è stata diretta da Diane.

💡

I nomi sopra sono solo per riferimento. Negli aghi effettivi sono estratti casualmente da una lista di nomi culturalmente diversi.

Notare che gli aghi originali (corrispondenze letterali di parole chiave) sono forniti per riferimento e non vengono utilizzati nei nostri esperimenti.

tagCostruzione dei Pagliai

Abbiamo iniziato con dieci libri di pubblico dominio, ciascuno contenente almeno 50.000 token, concatenando casualmente brevi frammenti (sotto i 250 token) da essi in pagliai di varie lunghezze, ovvero 128, 256, 512, 1024, 2048, 4096 e 8192 token. Abbiamo poi incorporato un ago in ciascun pagliaio:

Figura 1: Costruzione del pagliaio da brevi frammenti di libri e un singolo ago per pagliaio.

Per un esempio più concreto, prenderemo l'ago "In realtà, Yuki vive accanto alla Semper Opera House" e lo metteremo in un pagliaio di 128 token alla posizione 50:

Figura 2: Un esempio di ago nel pagliaio.

Usando jina-embeddings-v3 per incorporare i testi, il punteggio di similarità tra il testo dell'ago e il testo del pagliaio è:

Question-Haystack similarity = 0.2391

Quindi normalizziamo il punteggio dividendo questo numero per il punteggio di similarità tra la domanda e l'ago predefinito (nessuna creazione di pagliaio, solo confronto diretto):

Question-Needle similarity = 0.3598
Normalized Query-Haystack similarity = 0.2391 / 0.3598 = 0.6644

Questa normalizzazione è necessaria perché non tutti i modelli producono gli stessi punteggi di similarità tra due testi, e jina-embeddings-v3 ha la tendenza a sottocalcolare la similarità tra due testi.

Per ogni ago (inclusi tutti quelli predefiniti e invertiti) abbiamo generato dieci pagliai per lunghezza di contesto, incorporando un ago per pagliaio in una posizione diversa. Per un dato ago e lunghezza di contesto, i pagliai apparirebbero più o meno così:

Figura 3: Aghi posizionati a intervalli regolari in dieci pagliai.

Come controllo, abbiamo anche generato un pagliaio per ogni condizione di test senza alcun ago. In totale, sono 3.234 pagliai. Abbiamo codificato ogni pagliaio con jina-embeddings-v3 (usando il LoRA predefinito per il matching del testo), poi per ogni pagliaio lo abbiamo troncato (se i token totali superavano 8.192, il limite perjina-embeddings-v3) ha poi codificato la sua domanda corrispondente.

tagMetriche di Valutazione

Il nostro framework di valutazione utilizza diverse metriche per valutare le prestazioni dei modelli di embedding su diverse lunghezze di contesto:

tagMetriche Primarie

Punteggio di Similarità Normalizzato
La metrica principale è un punteggio di similarità normalizzato che tiene conto sia della similarità semantica tra la domanda e l'intero contesto (similarità domanda-pagliaio), sia della similarità di base tra la domanda e il suo ago predefinito corrispondente (similarità domanda-ago). Questa normalizzazione assicura che le prestazioni del modello vengano valutate in relazione a un punto di riferimento significativo piuttosto che solo a punteggi di similarità assoluti. Il processo di normalizzazione prevede il calcolo del punteggio di similarità del coseno diretto tra le domande e i loro aghi corrispondenti (il nostro baseline), e la divisione della similarità domanda-pagliaio per questo punteggio di base:

$\text{Similarità Normalizzata} = \frac{\cos{(q,h)}}{\cos{(q,n)}}$

Rapporto Comparativo con la Casualità
Per qualsiasi modello di embedding, i punteggi di similarità del coseno tra diverse coppie query-documento sono direttamente confrontabili solo quando la query rimane la stessa. Pertanto, oltre a utilizzare punteggi di similarità normalizzati, misuriamo anche quanto spesso la domanda è più simile all'intero pagliaio rispetto a un passaggio casuale della stessa lunghezza senza ago.

tagMetriche Secondarie

Analisi della Separazione
Questa metrica valuta quanto bene il modello distingue tra contenuto rilevante e irrilevante. Include la separazione media, che rappresenta la differenza tra esempi positivi (passaggi contenenti la risposta) ed esempi negativi (passaggi che non contengono la risposta), e il punteggio AUC (Area Under the Curve), che misura la capacità di discriminazione basata sull'area sotto la curva ROC (Receiver Operating Characteristic).

Effetti della Posizione
Analizziamo come il posizionamento dell'ago influenza le prestazioni attraverso il coefficiente di correlazione tra posizione e punteggio di similarità, pendenza della regressione che mostra il cambiamento delle prestazioni tra le posizioni, e analisi delle prestazioni suddivise per posizione.

tagRisultati

tagDegradazione del Punteggio di Similarità e Correttezza

I nostri risultati mostrano chiaramente che le prestazioni si degradano all'aumentare della lunghezza del contesto, con il punteggio di similarità medio che scende da 0,37 a 128 token a 0,10 a 8K token, seguendo un trend non lineare con un forte calo tra 128 e 1K token.

Figura 4: Prestazioni normalizzate vs lunghezza del contesto.

Nella figura seguente, dimostriamo che invertire l'ago ha poca differenza sul punteggio di similarità normalizzato. Sia l'ago predefinito (es. "In realtà, Yuki vive vicino alla Semper Opera House") sia l'ago invertito (es. "La Semper Opera House è accanto a dove vive Yuki") mostrano prestazioni quasi identiche:

Figura 5: Prestazioni con ordine predefinito vs invertito.

Le diverse connessioni semantiche del dataset mostrano prestazioni variabili, con le coppie località-punto di riferimento che mantengono i risultati più forti, mentre le connessioni dietetiche e le condizioni mediche si degradano più rapidamente:

Figura 6: Prestazioni normalizzate per gruppo vs lunghezza del contesto.

Confrontando i risultati con la casualità si confermano i nostri risultati, mostrando che più grande è il pagliaio, più i risultati si avvicinano alla casualità, cioè siamo quasi altrettanto propensi a selezionare un passaggio casuale senza ago (risposta corretta) quanto il pagliaio per una data domanda:

Figura 7: Prestazioni del modello vs casualità (0,5).

Ancora una volta, vediamo prestazioni variabili basate su diverse connessioni semantiche, con alcune (come le restrizioni dietetiche) che scendono ben al di sotto della casualità anche con contesti relativamente brevi, mentre altre (come luoghi e punti di riferimento) mostrano prestazioni molto migliori indipendentemente dalla lunghezza del contesto:

Figura 8: Prestazioni per gruppo vs casualità.

Invertire l'ago ha poco effetto sulle prestazioni. Nel grafico seguente, mostriamo il rapporto comparativo di preferenza del pagliaio corretto rispetto alla casualità, suddiviso per l'ordine dell'ago inserito (predefinito o invertito):

Figura 9: Ordine predefinito vs invertito - prestazioni vs casualità.

Poiché possiamo vedere che i risultati per gli aghi in ordine predefinito e invertito seguono la stessa tendenza, non continueremo l'analisi divisa rispetto a questo criterio.

tagPossiamo Separare i Risultati Positivi da Quelli Negativi?

Uno dei nostri risultati più importanti deriva dall'analisi di quanto bene i modelli di embedding possano distinguere il contenuto rilevante da quello irrilevante attraverso diverse lunghezze di contesto. Questa "analisi della separazione" rivela che la correttezza del recupero cade rapidamente tra la lunghezza di contesto di 128 e 1000 token, e poi continua a diminuire, anche se a un ritmo più lento:

Figura 10: Analisi della separazione vs lunghezza del contesto.

Per contesti brevi (128 token), il modello mostra una forte separazione con una differenza media di 0,1 e una chiara discriminazione, raggiungendo un AUC di 0,81 (che significa che nell'81% dei casi, il modello classifica un passaggio rilevante più in alto di uno irrilevante). Questo indica che in contesti più brevi, il modello può distinguere in modo affidabile i passaggi che contengono la risposta da quelli che non la contengono.

Tuttavia, questo si deteriora rapidamente con l'aumentare della lunghezza del contesto. A 1.000 token, la separazione scende del 60% a 0,040, e l'AUC diminuisce a 0,66, segnalando un notevole calo delle prestazioni. A 8.000 token, c'è una separazione minima (0,001) e una discriminazione quasi casuale, con un AUC di solo 0,50. Questo schema rivela un'intuizione cruciale: anche quando i modelli possono calcolare punteggi di similarità ragionevoli in contesti più lunghi, riescono a malapena a utilizzare questi punteggi per distinguere le informazioni rilevanti da quelle irrilevanti. A 8.000 token, la capacità del modello di differenziare i contenuti rilevanti è essenzialmente casuale.

La velocità di questo deterioramento con la crescita del contesto è sorprendente. I punteggi di similarità grezzi calano di circa il 75% da 128 a 8.000 token, ma le metriche di separazione diminuiscono di quasi il 99% nello stesso intervallo. Ancora più preoccupante, l'effect size mostra un declino ancora più ripido, cadendo del 98,6%. Questo suggerisce che le difficoltà dei modelli di embedding con contesti lunghi vanno oltre la semplice riduzione dei punteggi di similarità—la loro capacità fondamentale di identificare informazioni rilevanti si deteriora molto più gravemente di quanto precedentemente compreso.

tagCome la Posizione dell'Ago Influenza le Metriche Principali?

Mentre le metriche di performance principali sono solitamente migliori quando l'ago è all'inizio del pagliaio, il deterioramento delle prestazioni non sempre correla con il posizionamento nel mezzo del contesto:

Figura 11: Performance per posizione relativa attraverso le lunghezze di contesto.

Vediamo anche che le prestazioni sono migliori quando l'ago è all'inizio di un dato contesto, e nei contesti brevi notiamo un piccolo miglioramento delle prestazioni quando l'ago è posizionato verso la fine. Tuttavia, in tutti i contesti vediamo un calo delle prestazioni quando l'ago è nelle posizioni centrali:

Figura 12: Rapporti comparativi per posizione.

tagQuale Effetto Ha l'Espansione delle Query sui Risultati?

Abbiamo recentemente pubblicato un post sul blog riguardo l'espansione delle query, una tecnica utilizzata nei sistemi di ricerca per migliorare le prestazioni di ricerca aggiungendo termini rilevanti alle query.

Nel post, abbiamo utilizzato un LLM per generare termini di espansione, che sono stati poi aggiunti agli embedding delle query per migliorare le prestazioni di recupero. I risultati hanno mostrato miglioramenti significativi. Ora, vogliamo esaminare come (o se) la tecnica migliorerà i risultati per la ricerca dell'ago nel pagliaio. Per esempio, data una query:

Which character has been to Dresden?

Utilizziamo un LLM (Gemini 2.0) per espanderla e aggiungere 100 termini aggiuntivi che appaiono così:

Which character has been to Dresden? Character: fictional character literary character protagonist antagonist figure persona role dramatis personae\\n\\nDresden: Dresden Germany; bombing of Dresden World War II historical fiction Kurt Vonnegut Slaughterhouse-Five city in Saxony Elbe River cultural landmark\\n\\nHas been to: visited traveled to journeyed to presence in appears in features in set in takes place in location setting

tagQuanto l'Espansione delle Query Aiuta a Trovare l'Ago nel Pagliaio?

Per il nostro esperimento, abbiamo generato tre set di termini di query espansi (come descritto nel post originale) - 100, 150 e 250 termini. Abbiamo poi eseguito lo stesso set di esperimenti di prima, ripetuti tre volte, una volta per ciascun set di termini di query espansi.

I risultati con tutti i set di espansione hanno mostrato un chiaro deterioramento all'aumentare della lunghezza del contesto, con un effetto simile al non utilizzare l'espansione delle query (Figure 4 e 7):

Figura 13: Performance normalizzata combinata: tutte le dimensioni di espansione.

Rispetto alle query non espanse, tutte le condizioni di espansione delle query hanno mostrato lo stesso pattern di degradazione delle prestazioni con l'aumentare del contesto. La tendenza al deterioramento è anche ancora non lineare con un forte declino tra 128 e 1K token:

Figura 14: Rapporto comparativo combinato: tutte le dimensioni di espansione.

Tuttavia, esaminando il rapporto comparativo si vede che l'espansione delle query ha chiari benefici: Il modello è molto più propenso a selezionare il pagliaio con l'ago rispetto a quello senza. Al contrario, senza espansione delle query la probabilità di selezionare il passaggio corretto è diminuita così tanto che, con un pagliaio di 8K token, era quasi la stessa che scegliere un passaggio casuale.

tagCome Spieghiamo i Risultati del Matching dell'Ago con l'Espansione delle Query?

Questi risultati si allineano con le scoperte sia del paper NoLiMa che della ricerca sull'espansione delle query, e possono essere spiegati come segue:

Compromesso tra qualità e quantità: Le migliori prestazioni dell'espansione a 100 termini, rispetto a 150 e 250 termini, suggerisce che c'è un punto ottimale dove termini aggiuntivi iniziano ad aggiungere più rumore che segnale. L'espansione a 250 termini probabilmente introduce termini con relazioni semantiche più deboli rispetto alla query originale, che diventano controproducenti in contesti più lunghi.
La lunghezza del contesto rimane la sfida principale: Nonostante i benefici dell'espansione delle query, le prestazioni si degradano comunque significativamente con l'aumentare della lunghezza del contesto. Questo suggerisce che anche con l'espansione, persiste la limitazione architettonica fondamentale dei modelli basati sull'attention in contesti lunghi.
Identificazione della soglia pratica: Il rapporto comparativo che rimane sopra 0,5 indica che l'espansione mantiene prestazioni superiori alla casualità anche a 8K token, fornendo un modo pratico per estendere la finestra di contesto effettiva per i modelli di embedding. Il confronto con la casualità mostra che, anche quando presentato con documenti di contesto lungo, espandere la query rende più probabile trovare la risposta corretta (cioè l'ago) rispetto a una incorretta. Questo è un miglioramento rispetto alle query non espanse, dove la probabilità di trovare la risposta corretta si avvicina alla casualità all'aumentare della lunghezza del contesto.

tagDiagnosi: Quale Ruolo Gioca il Matching Lessicale negli Embedding?

Negli esperimenti precedenti, abbiamo misurato l'efficacia dei modelli di embedding nel fare inferenze semantiche "one-hop" in passaggi con contesto lungo, rimuovendo ogni possibilità di matching letterale. Abbiamo scoperto che, anche con l'espansione delle query, la capacità del modello di embedding di trovare passaggi rilevanti si deteriora con l'aumentare della lunghezza del contesto. Questo effetto è significativo, e la scoperta è degna di nota perché normalmente ci aspetteremmo che un modello di embedding sia in grado di fare le inferenze rilevanti senza assistenza aggiuntiva. Quando sostituiamo i match letterali con variazioni one-hop (es. "Dresden" → "Semper Opera House"), stiamo solo sostituendo un concetto con un altro vicino.

Affrontiamo ora direttamente la questione: Il matching letterale gioca davvero un ruolo sufficientemente significativo nel matching semantico, o l'effetto della lunghezza del contesto lo sovrasta? Per rispondere a questa domanda, abbiamo rifatto i nostri test con aghi contenenti match letterali, es.

Domanda: "Which character has been to Dresden?"
Ago (default): "Actually, Yuki lives in Dresden."
Ago (invertito): "Dresden is where Yuki lives."

Da notare che, invece di una variazione a singolo salto per dedurre che la Semperoper è a Dresda e quindi un personaggio che vive accanto dovrebbe essere quello che ha visitato Dresda, questi indizi indicano direttamente il nome del personaggio che vive a Dresda.

Dopo aver riformulato tutte le 22 coppie domanda-indizio in questo modo, abbiamo ripetuto i nostri esperimenti con tutte le lunghezze di contesto incluse e i posizionamenti degli indizi, utilizzando lo stesso modello di embedding jina-embeddings-v3.

Figura 15: Performance normalizzata vs lunghezza del contesto.

Figura 16: Performance del modello vs probabilità casuale (0.5).

Figura 17: Rapporti comparativi per posizione

I risultati sono sorprendenti. Anche con corrispondenze letterali nel contesto, la capacità del modello di distinguere la risposta corretta da una casuale si deteriora rapidamente all'aumentare della lunghezza del contesto, pur mantenendo un leggero vantaggio rispetto alla completa assenza di corrispondenze letterali.

Questo dimostra definitivamente che la capacità di un modello di embedding di trovare un ago in un pagliaio è influenzata molto più dalla dimensione del pagliaio (e dal posizionamento dell'ago in esso) che dalla formulazione semantica dell'ago.

tagConclusione

I nostri risultati con i modelli di embedding si allineano con lo studio NoLiMA sugli LLM: la dimensione del contesto è altamente determinante per il corretto matching e recupero. Dimostriamo che questo è vero anche quando c'è una corrispondenza esatta lettera per lettera.

Il problema non è la capacità di un embedding di eseguire il matching semantico. Modelli di embedding come jina-embeddings-v3 gestiscono bene contesti brevi, ma la loro efficacia diminuisce all'aumentare della lunghezza del contesto. L'espansione delle query può ridurre questo effetto in una certa misura, ma la qualità del recupero si degrada comunque su contesti più lunghi. Inoltre, l'espansione delle query pone ulteriori problemi, poiché è crucialmente importante identificare termini di espansione che migliorino il recupero senza aggiungere rumore semantico. Stiamo investigando e cercando modi per affrontare direttamente il recupero "ago nel pagliaio" e migliorare le prestazioni del futuro jina-embeddings-v4.