Im Februar 2025 veröffentlichte ein Team von KI-Forschern das NoLiMA Paper, das einen neuartigen Benchmark zur Bewertung der Fähigkeit von Large Language Models einführt, lange Kontexte zu verarbeiten.

Dieses Paper führt eine bedeutende Änderung am traditionellen Needle-in-a-Haystack (NIAH) Benchmark ein, indem es wörtliche Übereinstimmungen zwischen Fragen und der Nadel (relevante Information) im Heuhaufen (irrelevanter Text) entfernt.
Es zeigt eine kritische Einschränkung aktueller LLMs auf: Sie verlassen sich stark auf oberflächliches Pattern Matching, und ihre Fähigkeit zu tiefgehendem assoziativem Denken verschlechtert sich rapide mit zunehmender Kontextlänge.
Basierend auf diesen Erkenntnissen möchten wir untersuchen, ob ähnliche Leistungsmuster bei Embedding-Modellen auftreten, speziell bei jina-embeddings-v3. Da die Effektivität von RAG-Systemen kritisch von der Qualität der Retrieval-Modelle abhängt, wollen wir NoLiMAs Forschung durch kontrollierte Experimente erweitern, die zwei Kernfragen adressieren:
- Wie gehen Embedding-Modelle mit Needle-in-a-Haystack-Retrieval bei verschiedenen Kontextlängen um, wenn sie gezwungen sind, semantische Sprünge jenseits wörtlicher Keyword-Matches zu machen?
- Kann strategische Query-Augmentation mit semantisch ähnlichem Content diese Leistungslücke verringern?
Der starke Kontrast bei LLMs — robust bei lexikalischen Matches aber anfällig bei semantischen Variationen — deutet darauf hin, dass Embedding-basierte Retrieval-Systeme ähnliche Herausforderungen haben könnten, wenn sie über oberflächliches Term Matching hinausgehen, was möglicherweise fundamentale Einschränkungen aktueller Semantic Search Technologien aufzeigt.
tagKonstruktion von Nadeln und Heuhaufen
tagKonstruktion der Nadeln
Traditionelle Needle-in-a-Haystack Tests verwenden Nadeln, die die Formulierung der gesuchten Frage widerspiegeln. Zum Beispiel:
- Frage: "Welche Person war in Dresden?"
- Nadel: "Yuki lebt in Dresden."
Aber wie bei NoLiMA wollen wir semantisches Verständnis statt bloßes Keyword Matching testen, also erstellen wir Ein-Hop-Variationen (mit Wörtern, die speziell nicht in den Dokumenten vorkommen) mit zwei verschiedenen Wortanordnungen:
- Frage: "Welche Person war in Dresden?"
- Nadel (Standard): "Tatsächlich lebt Yuki neben der Semperoper."
- Nadel (invertiert): "Die Semperoper ist neben dem Ort, wo Yuki lebt."
Der Methodik des Papers folgend generieren wir diese Nadel-Fragen-Gruppen (bestehend aus einer Frage, einer Ein-Hop-Nadel und einer invertierten Ein-Hop-Nadel) über mehrere Kategorien hinweg, wie die Beispiele unten zeigen:
Category | Question | Original needle (for reference) | One-hop needle | Inverted one-hop needle |
---|---|---|---|---|
Dietary restrictions | Which character cannot eat fish-based meals? | Alice cannot eat fish-based meals. | Then, Alice mentioned being vegan for years. | Being vegan was important to Alice for years. |
Medical conditions | Which character cannot drink milk? | Bob can't drink milk. | Bob explained he was lactose intolerant. | Being lactose intolerant affected Bob daily. |
Language proficiency | Which character speaks French? | Charlie speaks French. | Actually, Charlie studied at the Sorbonne. | At the Sorbonne, Charlie completed his degree. |
Professional background | Which character is a musician? | Diane is a musician. | In 2013, Diane conducted at the Sydney Opera House. | The Sydney Opera House performance was conducted by Diane. |
Beachten Sie, dass die ursprünglichen Nadeln (wörtliche Keyword-Matches) nur als Referenz angegeben sind und nicht in unseren Experimenten verwendet werden.
tagKonstruktion der Heuhaufen
Wir begannen mit zehn gemeinfreien Büchern, die jeweils mindestens 50.000 Tokens enthielten, und verketteten zufällig kurze Ausschnitte (unter 250 Tokens) zu Heuhaufen verschiedener Längen, nämlich 128, 256, 512, 1024, 2048, 4096 und 8192 Tokens. Dann betteten wir eine Nadel in jeden Heuhaufen ein:

Als konkretes Beispiel nehmen wir die Nadel "Tatsächlich lebt Yuki neben der Semperoper" und platzieren sie in einem 128-Token Heuhaufen an Position 50:

Bei Verwendung von jina-embeddings-v3 zum Einbetten der Texte beträgt der Ähnlichkeitswert zwischen dem Nadeltext und dem Heuhaufentext:
Question-Haystack similarity = 0.2391
Wir normalisieren dann den Wert, indem wir diese Zahl durch den Ähnlichkeitswert der Frage und der Standard-Nadel teilen (keine Heuhaufen-Erstellung, nur direkter Vergleich):
Question-Needle similarity = 0.3598
Normalized Query-Haystack similarity = 0.2391 / 0.3598 = 0.6644
Diese Normalisierung ist notwendig, da nicht alle Modelle die gleichen Ähnlichkeitswerte zwischen zwei Texten produzieren, und jina-embeddings-v3 neigt dazu, die Ähnlichkeit zwischen zwei Texten zu unterschätzen.
Für jede Nadel (einschließlich aller Standard- und invertierten) generierten wir zehn Heuhaufen pro Kontextlänge, wobei wir eine Nadel pro Heuhaufen an verschiedenen Positionen einbetteten. Für eine bestimmte Nadel und Kontextlänge würden die Heuhaufen etwa so aussehen:

Als Kontrolle generierten wir auch einen Heuhaufen für jede Testbedingung ohne Nadel. Insgesamt sind das 3.234 Heuhaufen. Wir kodierten jeden Heuhaufen mit jina-embeddings-v3 (unter Verwendung der Standard-Text-Matching LoRA), dann kürzten wir für jeden Heuhaufen (falls die Gesamttoken 8.192 überschritten, das Limit fürjina-embeddings-v3) und kodierte dann die entsprechende Frage.
tagEvaluierungsmetriken
Unser Evaluierungsrahmen verwendet verschiedene Metriken, um die Leistung von Embedding-Modellen über verschiedene Kontextlängen hinweg zu bewerten:
tagPrimäre Metriken
Normalisierter Ähnlichkeitswert
Die Kernmetrik ist ein normalisierter Ähnlichkeitswert, der sowohl die semantische Ähnlichkeit zwischen der Frage und dem gesamten Kontext (Frage-Haystack-Ähnlichkeit) als auch die Baseline-Ähnlichkeit zwischen der Frage und ihrer entsprechenden Standard-Needle (Frage-Needle-Ähnlichkeit) berücksichtigt. Diese Normalisierung stellt sicher, dass die Leistung des Modells relativ zu einem aussagekräftigen Referenzpunkt und nicht nur zu absoluten Ähnlichkeitswerten bewertet wird. Der Normalisierungsprozess beinhaltet die Berechnung des direkten Cosinus-Ähnlichkeitswertes zwischen Fragen und ihren entsprechenden Needles (unsere Baseline) und die Division der Frage-Haystack-Ähnlichkeit durch diesen Baseline-Wert:
Vergleichsverhältnis zum Zufallswert
Bei jedem Embedding-Modell sind Cosinus-Ähnlichkeitswerte zwischen verschiedenen Query-Dokument-Paaren nur direkt vergleichbar, wenn die Query gleich bleibt. Daher messen wir neben den normalisierten Ähnlichkeitswerten auch, wie oft die Frage dem gesamten Haystack ähnlicher ist als einer zufälligen Passage gleicher Länge ohne Needle.
tagSekundäre Metriken
Separationsanalyse
Diese Metrik bewertet, wie gut das Modell zwischen relevantem und irrelevantem Inhalt unterscheidet. Sie umfasst die mittlere Separation, die den Unterschied zwischen positiven Beispielen (Passagen mit der Antwort) und negativen Beispielen (Passagen ohne Antwort) darstellt, und den AUC-Wert (Area Under the Curve), der die Unterscheidungsfähigkeit basierend auf der Fläche unter der ROC-Kurve (Receiver Operating Characteristic) misst.
Positionseffekte
Wir analysieren, wie die Needle-Platzierung die Leistung durch den Korrelationskoeffizienten zwischen Position und Ähnlichkeitswert, die Regressionssteigung, die die Leistungsänderung über Positionen zeigt, und die positionsbasierte Leistungsanalyse beeinflusst.
tagErgebnisse
tagVerschlechterung des Ähnlichkeitswertes und der Korrektheit
Unsere Ergebnisse zeigen deutlich, dass die Leistung mit zunehmender Kontextlänge abnimmt, wobei der mittlere Ähnlichkeitswert von 0,37 bei 128 Token auf 0,10 bei 8K Token sinkt, einem nicht-linearen Trend folgend mit einem starken Rückgang zwischen 128 und 1K Token.

In der folgenden Abbildung zeigen wir, dass das Umkehren der Needle kaum Einfluss auf den normalisierten Ähnlichkeitswert hat. Sowohl die Standard-Needle (z.B. "Tatsächlich wohnt Yuki in der Nähe der Semperoper") als auch die umgekehrte Needle (z.B. "Die Semperoper liegt neben dem Ort, wo Yuki wohnt") zeigen fast identische Leistung:

Die verschiedenen semantischen Verbindungen im Datensatz zeigen unterschiedliche Leistungen, wobei Standort-Wahrzeichen-Paare die stärksten Ergebnisse beibehalten, während Ernährungs- und medizinische Zustandsverbindungen schneller abnehmen:

Der Vergleich der Ergebnisse mit dem Zufall bestätigt unsere Erkenntnisse, indem er zeigt, dass je größer der Haystack ist, desto mehr nähern sich die Ergebnisse der Zufälligkeit an, d.h. wir wählen fast genauso wahrscheinlich eine zufällige Passage ohne Needle (richtige Antwort) wie den Haystack für eine bestimmte Frage:

Auch hier sehen wir unterschiedliche Leistungen basierend auf verschiedenen semantischen Verbindungen, wobei einige (wie Ernährungseinschränkungen) selbst bei relativ kurzen Kontexten deutlich unter den Zufallswert fallen, während andere (wie Standorte und Wahrzeichen) unabhängig von der Kontextlänge eine viel bessere Leistung zeigen:

Das Umkehren der Needle hat wenig Einfluss auf die Leistung. In der folgenden Grafik zeigen wir das Vergleichsverhältnis der Bevorzugung des korrekten Haystacks gegenüber dem Zufall, aufgeteilt danach, ob die platzierte Needle die Antwort in Standardreihenfolge oder umgekehrter Reihenfolge enthielt:

Da wir sehen können, dass die Ergebnisse für Needles in Standard- und umgekehrter Reihenfolge dem gleichen Trend folgen, werden wir die getrennte Analyse bezüglich dieses Kriteriums nicht fortsetzen.
tagKönnen wir positive von negativen Ergebnissen trennen?
Eine unserer wichtigsten Erkenntnisse stammt aus der Analyse, wie gut Embedding-Modelle relevante von irrelevanten Inhalten über verschiedene Kontextlängen hinweg unterscheiden können. Diese "Separationsanalyse" zeigt, dass die Korrektheit des Retrievals zwischen einer Kontextlänge von 128 und 1000 Token rapide abnimmt und dann weiter sinkt, wenn auch langsamer:

Bei kurzen Kontexten (128 Token) zeigt das Modell eine starke Separation mit einer mittleren Differenz von 0,1 und klarer Unterscheidung, wobei es einen AUC-Wert von 0,81 erreicht (was bedeutet, dass das Modell in 81% der Fälle eine relevante Passage höher einstuft als eine irrelevante). Dies zeigt, dass das Modell in kürzeren Kontexten zuverlässig zwischen Passagen unterscheiden kann, die die Antwort enthalten, und solchen, die sie nicht enthalten.
Diese Verschlechterung nimmt jedoch mit zunehmender Kontextlänge rapide zu. Bei 1.000 Token sinkt die Trennung um 60% auf 0,040 und die AUC fällt auf 0,66, was einen deutlichen Leistungsabfall signalisiert. Bei 8.000 Token gibt es nur noch minimale Trennung (0,001) und eine nahezu zufällige Unterscheidung mit einer AUC von nur 0,50. Dieses Muster offenbart eine entscheidende Erkenntnis: Selbst wenn Modelle in längeren Kontexten vernünftige Ähnlichkeitswerte berechnen können, können sie diese Werte kaum nutzen, um relevante von irrelevanter Information zu unterscheiden. Bei 8.000 Token entspricht die Fähigkeit des Modells, relevante Inhalte zu unterscheiden, im Wesentlichen dem Zufall.
Die Geschwindigkeit dieser Verschlechterung mit wachsendem Kontext ist auffällig. Die reinen Ähnlichkeitswerte fallen von 128 auf 8.000 Token um etwa 75%, aber die Trennungsmetriken nehmen im gleichen Zeitraum um fast 99% ab. Noch besorgniserregender ist, dass die Effektstärke einen noch steileren Rückgang zeigt und um 98,6% fällt. Dies deutet darauf hin, dass die Probleme von Embedding-Modellen mit langen Kontexten über reduzierte Ähnlichkeitswerte hinausgehen - ihre grundlegende Fähigkeit, relevante Informationen zu identifizieren, bricht weitaus schwerer zusammen als bisher angenommen.
tagWie beeinflusst die Position der Nadel die Kernmetriken?
Während die Kernleistungsmetriken normalerweise am besten sind, wenn sich die Nadel am Anfang des Heuhaufens befindet, korreliert die Leistungsverschlechterung nicht immer mit der Platzierung in der Mitte des Kontexts:

Wir sehen auch, dass die Leistung am besten ist, wenn sich die Nadel am Anfang eines gegebenen Kontexts befindet, und in kurzen Kontexten sehen wir einen kleinen Leistungsanstieg, wenn die Nadel gegen Ende platziert wird. In allen Kontexten sehen wir jedoch einen Leistungsabfall, wenn sich die Nadel in mittleren Positionen befindet:

tagWelchen Effekt hat Query Expansion auf die Ergebnisse?
Wir haben kürzlich einen Blogbeitrag über Query Expansion veröffentlicht, eine Technik, die in Suchsystemen verwendet wird, um die Suchleistung durch Hinzufügen relevanter Begriffe zu Abfragen zu verbessern.

Im Beitrag verwendeten wir ein LLM zur Generierung von Erweiterungsbegriffen, die dann zu Query Embeddings für eine verbesserte Retrieval-Leistung hinzugefügt wurden. Die Ergebnisse zeigten signifikante Verbesserungen. Jetzt wollen wir untersuchen, wie (oder ob) die Technik die Ergebnisse für die Nadel-im-Heuhaufen-Suche verbessert. Zum Beispiel, gegeben eine Abfrage:
Which character has been to Dresden?
Wir verwenden ein LLM (Gemini 2.0), um sie zu erweitern und 100 zusätzliche Begriffe hinzuzufügen, die so aussehen:
Which character has been to Dresden? Character: fictional character literary character protagonist antagonist figure persona role dramatis personae\\n\\nDresden: Dresden Germany; bombing of Dresden World War II historical fiction Kurt Vonnegut Slaughterhouse-Five city in Saxony Elbe River cultural landmark\\n\\nHas been to: visited traveled to journeyed to presence in appears in features in set in takes place in location setting
tagWie sehr hilft Query Expansion beim Matching der Nadel zum Heuhaufen?
Für unser Experiment generierten wir drei Sets von erweiterten Abfragebegriffen (wie im ursprünglichen Beitrag beschrieben) - 100, 150 und 250 Begriffe. Dann führten wir die gleichen Experimente wie zuvor durch, jeweils dreimal mit jedem Set erweiterter Abfragebegriffe.
Die Ergebnisse mit allen Erweiterungssets zeigten eine deutliche Verschlechterung mit zunehmender Kontextlänge, mit einem ähnlichen Effekt wie ohne Query Expansion (Abbildungen 4 & 7):

Im Vergleich zu nicht erweiterten Abfragen zeigten alle Query-Expansion-Bedingungen das gleiche Muster der Leistungsverschlechterung mit wachsendem Kontext. Der Verschlechterungstrend ist auch weiterhin nicht linear mit einem starken Rückgang zwischen 128 und 1K Token:

Die Untersuchung des Vergleichsverhältnisses zeigt jedoch, dass Query Expansion klare Vorteile hat: Das Modell wählt mit deutlich höherer Wahrscheinlichkeit den Heuhaufen mit der Nadel gegenüber dem ohne. Im Gegensatz dazu sank ohne Query Expansion die Wahrscheinlichkeit, die richtige Passage auszuwählen, so stark, dass sie bei einer Heuhaufengröße von 8K Token fast der zufälligen Auswahl einer Passage entsprach.
tagWie erklären wir die Nadel-Matching-Ergebnisse mit Query Expansion?
Diese Ergebnisse stimmen mit den Erkenntnissen sowohl aus dem NoLiMa-Paper als auch der Query-Expansion-Forschung überein und können wie folgt erklärt werden:
- Qualität vs. Quantität Trade-off: Die bessere Leistung der 100-Term-Erweiterung im Vergleich zu 150 und 250 Begriffen deutet darauf hin, dass es einen optimalen Punkt gibt, an dem zusätzliche Begriffe mehr Rauschen als Signal hinzufügen. Die 250-Term-Erweiterung führt wahrscheinlich Begriffe mit schwächeren semantischen Beziehungen zur ursprünglichen Abfrage ein, die bei längeren Kontexten kontraproduktiv werden.
- Kontextlänge bleibt die primäre Herausforderung: Trotz der Vorteile der Query Expansion verschlechtert sich die Leistung mit zunehmender Kontextlänge weiterhin deutlich. Dies deutet darauf hin, dass auch mit Erweiterung die grundlegende architektonische Einschränkung von aufmerksamkeitsbasierten Modellen in langen Kontexten bestehen bleibt.
- Praktische Schwellenidentifikation: Das Vergleichsverhältnis, das über 0,5 bleibt, zeigt, dass die Erweiterung auch bei 8K Token eine überzufällige Leistung beibehält und einen praktischen Weg bietet, das effektive Kontextfenster für Embedding-Modelle zu erweitern. Der Vergleich mit dem Zufall zeigt, dass selbst bei langen Kontextdokumenten die Erweiterung der Abfrage es wahrscheinlicher macht, die richtige Antwort (d.h. die Nadel) zu finden als eine falsche. Dies ist eine Verbesserung im Vergleich zu nicht erweiterten Abfragen, bei denen sich die Chance, die richtige Antwort zu finden, mit zunehmender Kontextlänge dem Zufall nähert.
tagDiagnose: Welche Rolle spielt lexikalisches Matching bei Embeddings?
In den obigen Experimenten haben wir die Effektivität von Embedding-Modellen bei semantischen "Ein-Schritt"-Inferenzen in Passagen mit langem Kontext gemessen, indem wir alle Möglichkeiten des wörtlichen Matchings ausgeschlossen haben. Wir stellten fest, dass selbst mit Query Expansion die Fähigkeit des Embedding-Modells, relevante Passagen zu finden, mit wachsender Kontextlänge nachlässt. Dieser Effekt ist signifikant, und die Erkenntnis ist bemerkenswert, da wir normalerweise erwarten würden, dass ein Embedding-Modell die relevanten Inferenzen ohne zusätzliche Hilfe machen kann. Wenn wir wörtliche Übereinstimmungen durch Ein-Schritt-Variationen ersetzen (z.B. "Dresden" → "Semperoper"), ersetzen wir lediglich ein Konzept durch ein nahegelegenes.
Packen wir den Stier bei den Hörnern und stellen die Frage direkt: Spielt wörtliches Matching wirklich eine signifikant große Rolle beim semantischen Matching, oder überwiegt der Effekt der Kontextlänge? Um diese Frage zu beantworten, haben wir unsere Tests mit Nadeln wiederholt, die wörtliche Übereinstimmungen enthalten, z.B.
- Frage: "Which character has been to Dresden?"
- Nadel (Standard): "Actually, Yuki lives in Dresden."
- Nadel (invertiert): "Dresden is where Yuki lives."
Beachten Sie, dass anstelle einer einschrittigen Variation des Schlussfolgerns, dass die Semperoper in Dresden steht und daher eine Figur, die daneben wohnt, diejenige sein müsste, die Dresden besucht hat, diese Needles direkt den Namen der Figur angeben, die in Dresden lebt.
Nachdem wir alle 22 Frage-Needle-Paare auf diese Weise umformuliert hatten, führten wir unsere Experimente mit allen einbezogenen Kontextlängen und Needle-Platzierungen erneut durch, wobei wir dasselbe Embedding-Modell jina-embeddings-v3 verwendeten.



Die Ergebnisse sind bemerkenswert. Selbst bei wörtlichen Übereinstimmungen im Kontext verschlechtert sich die Fähigkeit des Modells, die richtige Antwort von einer zufälligen zu unterscheiden, mit zunehmender Kontextlänge rapide, wenn auch mit einem leichten Vorteil gegenüber dem völligen Fehlen einer wörtlichen Übereinstimmung.
Dies beweist letztendlich, dass die Fähigkeit eines Embedding-Modells, eine Nadel im Heuhaufen zu finden, viel stärker von der Größe des Heuhaufens (und der Platzierung der Nadel darin) beeinflusst wird als von der semantischen Formulierung der Nadel.
tagFazit
Unsere Erkenntnisse mit Embedding-Modellen stimmen mit dem NoLiMA-Paper über LLMs überein: Die Kontextgröße ist hochgradig bestimmend für korrektes Matching und Retrieval. Wir zeigen, dass dies selbst dann gilt, wenn es eine exakte buchstabengetreue Wortübereinstimmung gibt.
Das Problem liegt nicht in der Fähigkeit eines Embeddings, semantisches Matching durchzuführen. Embedding-Modelle wie jina-embeddings-v3 handhaben kurze Kontexte recht gut, aber ihre Effektivität nimmt mit zunehmender Kontextlänge ab. Query-Expansion kann diesen Effekt bis zu einem gewissen Grad reduzieren, aber die Retrieval-Qualität verschlechtert sich dennoch bei längeren Kontexten. Darüber hinaus stellt die Query-Expansion zusätzliche Probleme dar, da es von entscheidender Bedeutung ist, Erweiterungsbegriffe zu identifizieren, die das Retrieval verbessern, ohne semantisches Rauschen hinzuzufügen. Wir untersuchen und suchen nach Möglichkeiten, das Nadel-im-Heuhaufen-Retrieval direkt anzugehen und die zukünftige Leistung von jina-embeddings-v4 zu verbessern.