LLM-als-SERP: Suchergebnisseiten aus Large Language Models

Testen Sie die interaktive Demo und sehen Sie, wie Ihre Website in LLM SERP erscheint.

Seit RAG ist der Trend, LLMs zur Verbesserung der Suche einzusetzen. Von Perplexity bis zu DeepSearch und DeepResearch ist die Idee, Suchmaschinenergebnisse in den Generierungsprozess einzubinden, zum Standard geworden. Viele Nutzer geben auch an, dass sie Google nicht mehr so häufig wie früher nutzen und das klassische Seitendesign als lahm, überwältigend oder mühsam empfinden. Stattdessen haben sie sich an die hohe Präzision und Trefferquote von QA-artigen Ergebnissen mit einer Chat-ähnlichen Such-Benutzeroberfläche gewöhnt, was darauf hindeutet, dass diese Design-Philosophie der richtige Weg sein könnte.

Aber was wäre, wenn das LLM selbst die Suchmaschine ist?

Was wäre, wenn Sie das in LLMs eingebettete Wissen wie beim Google-Suchen erkunden könnten? Seitennummerierung, Links und alles andere – genau wie in den alten Zeiten, die Sie kennen. Wenn Sie nicht sicher sind, was ich meine, schauen Sie sich zuerst die Demo unten an.

0:00

/0:10

Die Links, Titel und Snippets werden vollständig von einem LLM generiert. Sie können https://jina.ai/llm-serp-demo besuchen und selbst einige Anfragen ausprobieren!

Bevor wir Bedenken wegen Halluzinationen äußern, erklären wir zunächst, warum diese Idee einen gewissen Wert hat: LLMs werden mit riesigen Mengen an Web-Wissen trainiert. Modelle wie DeepSeek-R1, GPT-4, Claude-3.7 und Gemini-2.0 wurden mit Billionen von Tokens aus dem öffentlichen Internet trainiert. Eine grobe Schätzung ist, dass <1% bis ~5% der hochwertigen, öffentlich zugänglichen Web-Texte zum Training führender Modelle verwendet wurden.

Wenn Sie denken, diese Zahl erscheint zu klein, betrachten Sie diesen Vergleich: Wenn wir Googles Index als Maßstab nehmen (der 100% der nutzerorientierten Daten der Welt repräsentiert), dann entspricht Bings Index etwa 30-50% von Google. Baidu deckt etwa 5-10% ab und Yandex 3-5%. Brave Search indexiert weniger als 1%. Wenn also ein LLM mit 1-5% hochwertiger öffentlicher Daten trainiert wird, entspricht dies potenziell der gleichen Datenmenge, die eine anständige kleine Suchmaschine bereitstellen kann.

Da diese Modelle diese Web-Daten effektiv "gespeichert" haben, müssen wir sie nur auf eine Weise promten, die ihr Gedächtnis "aktiviert", sodass sie wie Suchmaschinen funktionieren und Ergebnisse ähnlich einer Suchergebnisseite (SERP) generieren können.

Ja, Halluzination ist eine Herausforderung, aber mit der Verbesserung der Modellfähigkeiten bei jeder Iteration können wir vernünftigerweise erwarten, dass sich dieses Problem abschwächt. Auf X sind Menschen oft besessen davon, SVGs von Grund auf zu generieren, wenn ein neues Modell veröffentlicht wird, in der Hoffnung, dass jede Version bessere Illustrationen als die letzte produziert. Diese Suchmaschinenidee folgt einer ähnlichen Hoffnung auf schrittweise Verbesserung des LLM-Verständnisses der digitalen Welt.

Binyuan Hui (einer der Kernentwickler hinter den Qwen-Modellen) zeigt die Fähigkeit von `qwen-2.5-max`, ein Schwein-SVG in einem Durchgang zu zeichnen.

Wissensstichtage stellen eine weitere Einschränkung dar. Suchmaschinen sollten Echtzeit-Informationen liefern, aber da LLM-Gewichte nach dem Training eingefroren sind, können sie keine genauen Informationen über ihren Stichtag hinaus liefern. Im Allgemeinen gilt: Je näher eine Anfrage an diesem Stichtag liegt, desto wahrscheinlicher werden Halluzinationen. Da ältere Informationen wahrscheinlich häufiger zitiert und umformuliert wurden, was möglicherweise ihre Gewichtung in den Trainingsdaten erhöht. (Dies setzt voraus, dass Informationen einheitlich gewichtet sind; aktuelle Nachrichten können unabhängig von der Aktualität unverhältnismäßig viel Aufmerksamkeit erhalten.) Diese Einschränkung definiert jedoch genau, wo dieser Ansatz am nützlichsten sein könnte – für Informationen, die gut innerhalb des Wissenszeitraums des Modells liegen.

tagWo kann LLM-as-SERP nützlich sein?

Bei DeepSearch/RAG oder anderen Search-Grounding-Systemen besteht eine zentrale Herausforderung darin, zu bestimmen, ob eine Frage externe Informationen benötigt oder aus dem Wissen des Modells beantwortet werden kann. Aktuelle Systeme verwenden typischerweise Prompt-basiertes Routing mit Anweisungen wie:

- For greetings, casual conversation, or general knowledge questions, answer directly without references.
- For all other questions, provide a verified answer with external knowledge. Each reference must include exactQuote and url.

Dieser Ansatz scheitert in beide Richtungen – manchmal löst er unnötige Suchen aus, andere Male übersieht er kritische Informationsbedürfnisse. Besonders bei neueren Reasoning-Modellen ist oft erst während der Generierung klar, ob externe Daten benötigt werden.

Was wäre, wenn wir einfach die Suche trotzdem durchführen würden? Wir könnten einen Aufruf an eine echte Such-API und einen weiteren an ein LLM-as-Search-System machen. Dies eliminiert die vorgelagerte Routing-Entscheidung und verlagert sie nach hinten, wo wir tatsächliche Ergebnisse zum Vergleich haben – aktuelle Daten aus der echten Suche, Wissen innerhalb des Trainings-Stichtags des Modells und möglicherweise einige falsche Informationen.

Der finale Schlussfolgerungsschritt kann dann Unstimmigkeiten identifizieren und Quellen nach Aktualität, Zuverlässigkeit und Übereinstimmung zwischen den Ergebnissen gewichten - was wir nicht explizit programmieren müssen, da dies bereits eine Stärke von LLMs ist. Man kann auch jede URL in den Suchergebnissen besuchen (z.B. mit Jina Reader), um die Quellen weiter zu validieren. In praktischen Implementierungen ist dieser Verifizierungsschritt ohnehin immer notwendig; man sollte sich nie ausschließlich auf Auszüge von Suchmaschinen verlassen, egal ob es sich um echte oder künstliche Suchmaschinen handelt.

tagFazit

Durch die Verwendung von LLM-as-SERP verwandeln wir die binäre Frage "liegt dies innerhalb des Modellwissens oder nicht?" in einen robusteren Prozess der Evidenzgewichtung.

Wir stellen einen Playground sowie einen von uns gehosteten API-Endpunkt zur Verfügung, mit dem Sie experimentieren können. Sie können dies auch gerne in Ihre eigenen DeepSearch/DeepResearch-Implementierungen integrieren, um Verbesserungen aus erster Hand zu sehen.

Die API ahmt einen vollständigen SERP-Endpunkt nach, bei dem Sie die Anzahl der Ergebnisse, Paginierung, Land, Sprache etc. definieren können. Die Implementierung finden Sie auf GitHub. Wir sind gespannt auf Ihr Feedback zu diesem interessanten Ansatz.