Langkontext-Embedding-Modelle sind jenseits von 4K Tokens blind

Im Februar 2025 veröffentlichte ein Team von KI-Forschern das NoLiMA Paper, das einen neuartigen Benchmark zur Bewertung der Fähigkeit von Large Language Models einführt, lange Kontexte zu verarbeiten.

NoLiMa: Long-Context Evaluation Beyond Literal Matching

Recent large language models (LLMs) support long contexts ranging from 128K to 1M tokens. A popular method for evaluating these capabilities is the needle-in-a-haystack (NIAH) test, which involves retrieving a "needle" (relevant information) from a "haystack" (long irrelevant context). Extensions of this approach include increasing distractors, fact chaining, and in-context reasoning. However, in these benchmarks, models can exploit existing literal matches between the needle and haystack to simplify the task. To address this, we introduce NoLiMa, a benchmark extending NIAH with a carefully designed needle set, where questions and needles have minimal lexical overlap, requiring models to infer latent associations to locate the needle within the haystack. We evaluate 12 popular LLMs that claim to support contexts of at least 128K tokens. While they perform well in short contexts (<1K), performance degrades significantly as context length increases. At 32K, for instance, 10 models drop below 50% of their strong short-length baselines. Even GPT-4o, one of the top-performing exceptions, experiences a reduction from an almost-perfect baseline of 99.3% to 69.7%. Our analysis suggests these declines stem from the increased difficulty the attention mechanism faces in longer contexts when literal matches are absent, making it harder to retrieve relevant information.

arXiv.orgAli Modarressi

Dieses Paper führt eine bedeutende Änderung am traditionellen Needle-in-a-Haystack (NIAH) Benchmark ein, indem es wörtliche Übereinstimmungen zwischen Fragen und der Nadel (relevante Information) im Heuhaufen (irrelevanter Text) entfernt.

Zum Beispiel könnte beim traditionellen NIAH bei der Frage "In welchem Jahr besuchte John Paris?" die Nadel direkt "John besuchte Paris 2019" enthalten. Bei NOLIMA könnte die Frage lauten "Welche Person war in Frankreich?" während die Nadel enthält "Tatsächlich lebt Yuki neben der Semperoper" - was erfordert, dass das Modell weiß, dass die Semperoper in Dresden, Deutschland ist, nicht in Frankreich.

Es zeigt eine kritische Einschränkung aktueller LLMs auf: Sie verlassen sich stark auf oberflächliches Pattern Matching, und ihre Fähigkeit zu tiefgehendem assoziativem Denken verschlechtert sich rapide mit zunehmender Kontextlänge.

Basierend auf diesen Erkenntnissen möchten wir untersuchen, ob ähnliche Leistungsmuster bei Embedding-Modellen auftreten, speziell bei jina-embeddings-v3. Da die Effektivität von RAG-Systemen kritisch von der Qualität der Retrieval-Modelle abhängt, wollen wir NoLiMAs Forschung durch kontrollierte Experimente erweitern, die zwei Kernfragen adressieren:

Wie gehen Embedding-Modelle mit Needle-in-a-Haystack-Retrieval bei verschiedenen Kontextlängen um, wenn sie gezwungen sind, semantische Sprünge jenseits wörtlicher Keyword-Matches zu machen?
Kann strategische Query-Augmentation mit semantisch ähnlichem Content diese Leistungslücke verringern?

Der starke Kontrast bei LLMs — robust bei lexikalischen Matches aber anfällig bei semantischen Variationen — deutet darauf hin, dass Embedding-basierte Retrieval-Systeme ähnliche Herausforderungen haben könnten, wenn sie über oberflächliches Term Matching hinausgehen, was möglicherweise fundamentale Einschränkungen aktueller Semantic Search Technologien aufzeigt.

tagKonstruktion von Nadeln und Heuhaufen

tagKonstruktion der Nadeln

Traditionelle Needle-in-a-Haystack Tests verwenden Nadeln, die die Formulierung der gesuchten Frage widerspiegeln. Zum Beispiel:

Frage: "Welche Person war in Dresden?"
Nadel: "Yuki lebt in Dresden."

Aber wie bei NoLiMA wollen wir semantisches Verständnis statt bloßes Keyword Matching testen, also erstellen wir Ein-Hop-Variationen (mit Wörtern, die speziell nicht in den Dokumenten vorkommen) mit zwei verschiedenen Wortanordnungen:

Frage: "Welche Person war in Dresden?"
Nadel (Standard): "Tatsächlich lebt Yuki neben der Semperoper."
Nadel (invertiert): "Die Semperoper ist neben dem Ort, wo Yuki lebt."

💡

Die Semperoper befindet sich in Dresden und liefert den Kontext für diese Ein-Hop-Nadel.

Der Methodik des Papers folgend generieren wir diese Nadel-Fragen-Gruppen (bestehend aus einer Frage, einer Ein-Hop-Nadel und einer invertierten Ein-Hop-Nadel) über mehrere Kategorien hinweg, wie die Beispiele unten zeigen:

Category	Question	Original needle (for reference)	One-hop needle	Inverted one-hop needle
Dietary restrictions	Which character cannot eat fish-based meals?	Alice cannot eat fish-based meals.	Then, Alice mentioned being vegan for years.	Being vegan was important to Alice for years.
Medical conditions	Which character cannot drink milk?	Bob can't drink milk.	Bob explained he was lactose intolerant.	Being lactose intolerant affected Bob daily.
Language proficiency	Which character speaks French?	Charlie speaks French.	Actually, Charlie studied at the Sorbonne.	At the Sorbonne, Charlie completed his degree.
Professional background	Which character is a musician?	Diane is a musician.	In 2013, Diane conducted at the Sydney Opera House.	The Sydney Opera House performance was conducted by Diane.

💡

Die obigen Namen dienen nur als Referenz. In den tatsächlichen Nadeln werden sie zufällig aus einer Liste kulturell diverser Namen ausgewählt.

Beachten Sie, dass die ursprünglichen Nadeln (wörtliche Keyword-Matches) nur als Referenz angegeben sind und nicht in unseren Experimenten verwendet werden.

tagKonstruktion der Heuhaufen

Wir begannen mit zehn gemeinfreien Büchern, die jeweils mindestens 50.000 Tokens enthielten, und verketteten zufällig kurze Ausschnitte (unter 250 Tokens) zu Heuhaufen verschiedener Längen, nämlich 128, 256, 512, 1024, 2048, 4096 und 8192 Tokens. Dann betteten wir eine Nadel in jeden Heuhaufen ein:

Abbildung 1: Heuhaufen-Konstruktion aus kurzen Buchausschnitten und einer einzelnen Nadel pro Heuhaufen.

Als konkretes Beispiel nehmen wir die Nadel "Tatsächlich lebt Yuki neben der Semperoper" und platzieren sie in einem 128-Token Heuhaufen an Position 50:

Abbildung 2: Ein Beispiel für eine Nadel im Heuhaufen.

Bei Verwendung von jina-embeddings-v3 zum Einbetten der Texte beträgt der Ähnlichkeitswert zwischen dem Nadeltext und dem Heuhaufentext:

Question-Haystack similarity = 0.2391

Wir normalisieren dann den Wert, indem wir diese Zahl durch den Ähnlichkeitswert der Frage und der Standard-Nadel teilen (keine Heuhaufen-Erstellung, nur direkter Vergleich):

Question-Needle similarity = 0.3598
Normalized Query-Haystack similarity = 0.2391 / 0.3598 = 0.6644

Diese Normalisierung ist notwendig, da nicht alle Modelle die gleichen Ähnlichkeitswerte zwischen zwei Texten produzieren, und jina-embeddings-v3 neigt dazu, die Ähnlichkeit zwischen zwei Texten zu unterschätzen.

Für jede Nadel (einschließlich aller Standard- und invertierten) generierten wir zehn Heuhaufen pro Kontextlänge, wobei wir eine Nadel pro Heuhaufen an verschiedenen Positionen einbetteten. Für eine bestimmte Nadel und Kontextlänge würden die Heuhaufen etwa so aussehen:

Abbildung 3: Nadeln, die in regelmäßigen Abständen in zehn Heuhaufen platziert sind.

Als Kontrolle generierten wir auch einen Heuhaufen für jede Testbedingung ohne Nadel. Insgesamt sind das 3.234 Heuhaufen. Wir kodierten jeden Heuhaufen mit jina-embeddings-v3 (unter Verwendung der Standard-Text-Matching LoRA), dann kürzten wir für jeden Heuhaufen (falls die Gesamttoken 8.192 überschritten, das Limit fürjina-embeddings-v3) und kodierte dann die entsprechende Frage.

tagEvaluierungsmetriken

Unser Evaluierungsrahmen verwendet verschiedene Metriken, um die Leistung von Embedding-Modellen über verschiedene Kontextlängen hinweg zu bewerten:

tagPrimäre Metriken

Normalisierter Ähnlichkeitswert
Die Kernmetrik ist ein normalisierter Ähnlichkeitswert, der sowohl die semantische Ähnlichkeit zwischen der Frage und dem gesamten Kontext (Frage-Haystack-Ähnlichkeit) als auch die Baseline-Ähnlichkeit zwischen der Frage und ihrer entsprechenden Standard-Needle (Frage-Needle-Ähnlichkeit) berücksichtigt. Diese Normalisierung stellt sicher, dass die Leistung des Modells relativ zu einem aussagekräftigen Referenzpunkt und nicht nur zu absoluten Ähnlichkeitswerten bewertet wird. Der Normalisierungsprozess beinhaltet die Berechnung des direkten Cosinus-Ähnlichkeitswertes zwischen Fragen und ihren entsprechenden Needles (unsere Baseline) und die Division der Frage-Haystack-Ähnlichkeit durch diesen Baseline-Wert:

$\text{Normalisierte Ähnlichkeit} = \frac{\cos{(q,h)}}{\cos{(q,n)}}$

Vergleichsverhältnis zum Zufallswert
Bei jedem Embedding-Modell sind Cosinus-Ähnlichkeitswerte zwischen verschiedenen Query-Dokument-Paaren nur direkt vergleichbar, wenn die Query gleich bleibt. Daher messen wir neben den normalisierten Ähnlichkeitswerten auch, wie oft die Frage dem gesamten Haystack ähnlicher ist als einer zufälligen Passage gleicher Länge ohne Needle.

tagSekundäre Metriken

Separationsanalyse
Diese Metrik bewertet, wie gut das Modell zwischen relevantem und irrelevantem Inhalt unterscheidet. Sie umfasst die mittlere Separation, die den Unterschied zwischen positiven Beispielen (Passagen mit der Antwort) und negativen Beispielen (Passagen ohne Antwort) darstellt, und den AUC-Wert (Area Under the Curve), der die Unterscheidungsfähigkeit basierend auf der Fläche unter der ROC-Kurve (Receiver Operating Characteristic) misst.

Positionseffekte
Wir analysieren, wie die Needle-Platzierung die Leistung durch den Korrelationskoeffizienten zwischen Position und Ähnlichkeitswert, die Regressionssteigung, die die Leistungsänderung über Positionen zeigt, und die positionsbasierte Leistungsanalyse beeinflusst.

tagErgebnisse

tagVerschlechterung des Ähnlichkeitswertes und der Korrektheit

Unsere Ergebnisse zeigen deutlich, dass die Leistung mit zunehmender Kontextlänge abnimmt, wobei der mittlere Ähnlichkeitswert von 0,37 bei 128 Token auf 0,10 bei 8K Token sinkt, einem nicht-linearen Trend folgend mit einem starken Rückgang zwischen 128 und 1K Token.

Abbildung 4: Normalisierte Leistung vs. Kontextlänge.

In der folgenden Abbildung zeigen wir, dass das Umkehren der Needle kaum Einfluss auf den normalisierten Ähnlichkeitswert hat. Sowohl die Standard-Needle (z.B. "Tatsächlich wohnt Yuki in der Nähe der Semperoper") als auch die umgekehrte Needle (z.B. "Die Semperoper liegt neben dem Ort, wo Yuki wohnt") zeigen fast identische Leistung:

Abbildung 5: Standard- vs. umgekehrte Reihenfolge Leistung.

Die verschiedenen semantischen Verbindungen im Datensatz zeigen unterschiedliche Leistungen, wobei Standort-Wahrzeichen-Paare die stärksten Ergebnisse beibehalten, während Ernährungs- und medizinische Zustandsverbindungen schneller abnehmen:

Abbildung 6: Normalisierte Gruppenleistung vs. Kontextlänge.

Der Vergleich der Ergebnisse mit dem Zufall bestätigt unsere Erkenntnisse, indem er zeigt, dass je größer der Haystack ist, desto mehr nähern sich die Ergebnisse der Zufälligkeit an, d.h. wir wählen fast genauso wahrscheinlich eine zufällige Passage ohne Needle (richtige Antwort) wie den Haystack für eine bestimmte Frage:

Abbildung 7: Modellleistung vs. Zufallschance (0,5).

Auch hier sehen wir unterschiedliche Leistungen basierend auf verschiedenen semantischen Verbindungen, wobei einige (wie Ernährungseinschränkungen) selbst bei relativ kurzen Kontexten deutlich unter den Zufallswert fallen, während andere (wie Standorte und Wahrzeichen) unabhängig von der Kontextlänge eine viel bessere Leistung zeigen:

Abbildung 8: Gruppenleistung vs. Zufallschance.

Das Umkehren der Needle hat wenig Einfluss auf die Leistung. In der folgenden Grafik zeigen wir das Vergleichsverhältnis der Bevorzugung des korrekten Haystacks gegenüber dem Zufall, aufgeteilt danach, ob die platzierte Needle die Antwort in Standardreihenfolge oder umgekehrter Reihenfolge enthielt:

Abbildung 9: Standard- vs. umgekehrte Reihenfolge - Leistung vs. Zufallschance.

Da wir sehen können, dass die Ergebnisse für Needles in Standard- und umgekehrter Reihenfolge dem gleichen Trend folgen, werden wir die getrennte Analyse bezüglich dieses Kriteriums nicht fortsetzen.

tagKönnen wir positive von negativen Ergebnissen trennen?

Eine unserer wichtigsten Erkenntnisse stammt aus der Analyse, wie gut Embedding-Modelle relevante von irrelevanten Inhalten über verschiedene Kontextlängen hinweg unterscheiden können. Diese "Separationsanalyse" zeigt, dass die Korrektheit des Retrievals zwischen einer Kontextlänge von 128 und 1000 Token rapide abnimmt und dann weiter sinkt, wenn auch langsamer:

Abbildung 10: Separationsanalyse vs. Kontextlänge.

Bei kurzen Kontexten (128 Token) zeigt das Modell eine starke Separation mit einer mittleren Differenz von 0,1 und klarer Unterscheidung, wobei es einen AUC-Wert von 0,81 erreicht (was bedeutet, dass das Modell in 81% der Fälle eine relevante Passage höher einstuft als eine irrelevante). Dies zeigt, dass das Modell in kürzeren Kontexten zuverlässig zwischen Passagen unterscheiden kann, die die Antwort enthalten, und solchen, die sie nicht enthalten.

Diese Verschlechterung nimmt jedoch mit zunehmender Kontextlänge rapide zu. Bei 1.000 Token sinkt die Trennung um 60% auf 0,040 und die AUC fällt auf 0,66, was einen deutlichen Leistungsabfall signalisiert. Bei 8.000 Token gibt es nur noch minimale Trennung (0,001) und eine nahezu zufällige Unterscheidung mit einer AUC von nur 0,50. Dieses Muster offenbart eine entscheidende Erkenntnis: Selbst wenn Modelle in längeren Kontexten vernünftige Ähnlichkeitswerte berechnen können, können sie diese Werte kaum nutzen, um relevante von irrelevanter Information zu unterscheiden. Bei 8.000 Token entspricht die Fähigkeit des Modells, relevante Inhalte zu unterscheiden, im Wesentlichen dem Zufall.

Die Geschwindigkeit dieser Verschlechterung mit wachsendem Kontext ist auffällig. Die reinen Ähnlichkeitswerte fallen von 128 auf 8.000 Token um etwa 75%, aber die Trennungsmetriken nehmen im gleichen Zeitraum um fast 99% ab. Noch besorgniserregender ist, dass die Effektstärke einen noch steileren Rückgang zeigt und um 98,6% fällt. Dies deutet darauf hin, dass die Probleme von Embedding-Modellen mit langen Kontexten über reduzierte Ähnlichkeitswerte hinausgehen - ihre grundlegende Fähigkeit, relevante Informationen zu identifizieren, bricht weitaus schwerer zusammen als bisher angenommen.

tagWie beeinflusst die Position der Nadel die Kernmetriken?

Während die Kernleistungsmetriken normalerweise am besten sind, wenn sich die Nadel am Anfang des Heuhaufens befindet, korreliert die Leistungsverschlechterung nicht immer mit der Platzierung in der Mitte des Kontexts:

Abbildung 11: Leistung nach relativer Position über Kontextlängen.

Wir sehen auch, dass die Leistung am besten ist, wenn sich die Nadel am Anfang eines gegebenen Kontexts befindet, und in kurzen Kontexten sehen wir einen kleinen Leistungsanstieg, wenn die Nadel gegen Ende platziert wird. In allen Kontexten sehen wir jedoch einen Leistungsabfall, wenn sich die Nadel in mittleren Positionen befindet:

Abbildung 12: Positionsweise Vergleichsverhältnisse.

tagWelchen Effekt hat Query Expansion auf die Ergebnisse?

Wir haben kürzlich einen Blogbeitrag über Query Expansion veröffentlicht, eine Technik, die in Suchsystemen verwendet wird, um die Suchleistung durch Hinzufügen relevanter Begriffe zu Abfragen zu verbessern.

Im Beitrag verwendeten wir ein LLM zur Generierung von Erweiterungsbegriffen, die dann zu Query Embeddings für eine verbesserte Retrieval-Leistung hinzugefügt wurden. Die Ergebnisse zeigten signifikante Verbesserungen. Jetzt wollen wir untersuchen, wie (oder ob) die Technik die Ergebnisse für die Nadel-im-Heuhaufen-Suche verbessert. Zum Beispiel, gegeben eine Abfrage:

Which character has been to Dresden?

Wir verwenden ein LLM (Gemini 2.0), um sie zu erweitern und 100 zusätzliche Begriffe hinzuzufügen, die so aussehen:

Which character has been to Dresden? Character: fictional character literary character protagonist antagonist figure persona role dramatis personae\\n\\nDresden: Dresden Germany; bombing of Dresden World War II historical fiction Kurt Vonnegut Slaughterhouse-Five city in Saxony Elbe River cultural landmark\\n\\nHas been to: visited traveled to journeyed to presence in appears in features in set in takes place in location setting

tagWie sehr hilft Query Expansion beim Matching der Nadel zum Heuhaufen?

Für unser Experiment generierten wir drei Sets von erweiterten Abfragebegriffen (wie im ursprünglichen Beitrag beschrieben) - 100, 150 und 250 Begriffe. Dann führten wir die gleichen Experimente wie zuvor durch, jeweils dreimal mit jedem Set erweiterter Abfragebegriffe.

Die Ergebnisse mit allen Erweiterungssets zeigten eine deutliche Verschlechterung mit zunehmender Kontextlänge, mit einem ähnlichen Effekt wie ohne Query Expansion (Abbildungen 4 & 7):

Abbildung 13: Kombinierte normalisierte Leistung: alle Erweiterungsgrößen.

Im Vergleich zu nicht erweiterten Abfragen zeigten alle Query-Expansion-Bedingungen das gleiche Muster der Leistungsverschlechterung mit wachsendem Kontext. Der Verschlechterungstrend ist auch weiterhin nicht linear mit einem starken Rückgang zwischen 128 und 1K Token:

Abbildung 14: Kombiniertes Vergleichsverhältnis: alle Erweiterungsgrößen.

Die Untersuchung des Vergleichsverhältnisses zeigt jedoch, dass Query Expansion klare Vorteile hat: Das Modell wählt mit deutlich höherer Wahrscheinlichkeit den Heuhaufen mit der Nadel gegenüber dem ohne. Im Gegensatz dazu sank ohne Query Expansion die Wahrscheinlichkeit, die richtige Passage auszuwählen, so stark, dass sie bei einer Heuhaufengröße von 8K Token fast der zufälligen Auswahl einer Passage entsprach.

tagWie erklären wir die Nadel-Matching-Ergebnisse mit Query Expansion?

Diese Ergebnisse stimmen mit den Erkenntnissen sowohl aus dem NoLiMa-Paper als auch der Query-Expansion-Forschung überein und können wie folgt erklärt werden:

Qualität vs. Quantität Trade-off: Die bessere Leistung der 100-Term-Erweiterung im Vergleich zu 150 und 250 Begriffen deutet darauf hin, dass es einen optimalen Punkt gibt, an dem zusätzliche Begriffe mehr Rauschen als Signal hinzufügen. Die 250-Term-Erweiterung führt wahrscheinlich Begriffe mit schwächeren semantischen Beziehungen zur ursprünglichen Abfrage ein, die bei längeren Kontexten kontraproduktiv werden.
Kontextlänge bleibt die primäre Herausforderung: Trotz der Vorteile der Query Expansion verschlechtert sich die Leistung mit zunehmender Kontextlänge weiterhin deutlich. Dies deutet darauf hin, dass auch mit Erweiterung die grundlegende architektonische Einschränkung von aufmerksamkeitsbasierten Modellen in langen Kontexten bestehen bleibt.
Praktische Schwellenidentifikation: Das Vergleichsverhältnis, das über 0,5 bleibt, zeigt, dass die Erweiterung auch bei 8K Token eine überzufällige Leistung beibehält und einen praktischen Weg bietet, das effektive Kontextfenster für Embedding-Modelle zu erweitern. Der Vergleich mit dem Zufall zeigt, dass selbst bei langen Kontextdokumenten die Erweiterung der Abfrage es wahrscheinlicher macht, die richtige Antwort (d.h. die Nadel) zu finden als eine falsche. Dies ist eine Verbesserung im Vergleich zu nicht erweiterten Abfragen, bei denen sich die Chance, die richtige Antwort zu finden, mit zunehmender Kontextlänge dem Zufall nähert.

tagDiagnose: Welche Rolle spielt lexikalisches Matching bei Embeddings?

In den obigen Experimenten haben wir die Effektivität von Embedding-Modellen bei semantischen "Ein-Schritt"-Inferenzen in Passagen mit langem Kontext gemessen, indem wir alle Möglichkeiten des wörtlichen Matchings ausgeschlossen haben. Wir stellten fest, dass selbst mit Query Expansion die Fähigkeit des Embedding-Modells, relevante Passagen zu finden, mit wachsender Kontextlänge nachlässt. Dieser Effekt ist signifikant, und die Erkenntnis ist bemerkenswert, da wir normalerweise erwarten würden, dass ein Embedding-Modell die relevanten Inferenzen ohne zusätzliche Hilfe machen kann. Wenn wir wörtliche Übereinstimmungen durch Ein-Schritt-Variationen ersetzen (z.B. "Dresden" → "Semperoper"), ersetzen wir lediglich ein Konzept durch ein nahegelegenes.

Packen wir den Stier bei den Hörnern und stellen die Frage direkt: Spielt wörtliches Matching wirklich eine signifikant große Rolle beim semantischen Matching, oder überwiegt der Effekt der Kontextlänge? Um diese Frage zu beantworten, haben wir unsere Tests mit Nadeln wiederholt, die wörtliche Übereinstimmungen enthalten, z.B.

Frage: "Which character has been to Dresden?"
Nadel (Standard): "Actually, Yuki lives in Dresden."
Nadel (invertiert): "Dresden is where Yuki lives."

Beachten Sie, dass anstelle einer einschrittigen Variation des Schlussfolgerns, dass die Semperoper in Dresden steht und daher eine Figur, die daneben wohnt, diejenige sein müsste, die Dresden besucht hat, diese Needles direkt den Namen der Figur angeben, die in Dresden lebt.

Nachdem wir alle 22 Frage-Needle-Paare auf diese Weise umformuliert hatten, führten wir unsere Experimente mit allen einbezogenen Kontextlängen und Needle-Platzierungen erneut durch, wobei wir dasselbe Embedding-Modell jina-embeddings-v3 verwendeten.

Abbildung 15: Normalisierte Leistung vs. Kontextlänge.

Abbildung 16: Modellleistung vs. Zufallschance (0,5).

Abbildung 17: Positionsabhängige Vergleichsverhältnisse

Die Ergebnisse sind bemerkenswert. Selbst bei wörtlichen Übereinstimmungen im Kontext verschlechtert sich die Fähigkeit des Modells, die richtige Antwort von einer zufälligen zu unterscheiden, mit zunehmender Kontextlänge rapide, wenn auch mit einem leichten Vorteil gegenüber dem völligen Fehlen einer wörtlichen Übereinstimmung.

Dies beweist letztendlich, dass die Fähigkeit eines Embedding-Modells, eine Nadel im Heuhaufen zu finden, viel stärker von der Größe des Heuhaufens (und der Platzierung der Nadel darin) beeinflusst wird als von der semantischen Formulierung der Nadel.

tagFazit

Unsere Erkenntnisse mit Embedding-Modellen stimmen mit dem NoLiMA-Paper über LLMs überein: Die Kontextgröße ist hochgradig bestimmend für korrektes Matching und Retrieval. Wir zeigen, dass dies selbst dann gilt, wenn es eine exakte buchstabengetreue Wortübereinstimmung gibt.

Das Problem liegt nicht in der Fähigkeit eines Embeddings, semantisches Matching durchzuführen. Embedding-Modelle wie jina-embeddings-v3 handhaben kurze Kontexte recht gut, aber ihre Effektivität nimmt mit zunehmender Kontextlänge ab. Query-Expansion kann diesen Effekt bis zu einem gewissen Grad reduzieren, aber die Retrieval-Qualität verschlechtert sich dennoch bei längeren Kontexten. Darüber hinaus stellt die Query-Expansion zusätzliche Probleme dar, da es von entscheidender Bedeutung ist, Erweiterungsbegriffe zu identifizieren, die das Retrieval verbessern, ohne semantisches Rauschen hinzuzufügen. Wir untersuchen und suchen nach Möglichkeiten, das Nadel-im-Heuhaufen-Retrieval direkt anzugehen und die zukünftige Leistung von jina-embeddings-v4 zu verbessern.