LLM-as-SERP：大規模言語モデルが生成する検索結果ページ

インタラクティブなデモを試して、あなたのサイトが LLM SERP でどのように表示されるかを確認してください。

RAG 以来、LLM を使用して検索を改善する傾向が続いています。Perplexity から DeepSearch、DeepResearch まで、検索エンジンの結果を生成プロセスに組み込むというアイデアは事実上の標準となりました。多くのユーザーは、Google の従来のページネーションデザインが退屈で、圧倒的すぎる、または面倒だと感じ、以前ほど使用しなくなったと主張しています。代わりに、チャットのような検索 UI による QA スタイルの結果の高い精度とリコールに慣れ親しむようになり、このデザイン哲学が今後の方向性となる可能性を示唆しています。

しかし、LLM 自体が検索エンジンだったらどうでしょうか？

LLM に組み込まれた知識を Google 検索のように探索できたらどうでしょうか？ページネーション、リンク、そのすべてが - かつてのあなたが慣れ親しんでいた方法のように。私の言いたいことがわからない場合は、まず以下のデモをご覧ください。

0:00

/0:10

リンク、タイトル、スニペットはすべて LLM によって生成されています。https://jina.ai/llm-serp-demoにアクセスして、いくつかのクエリを試してみてください！

幻覚についての懸念を提起する前に、まずこのアイデアにある程度の価値がある理由を説明しましょう：LLM は膨大なウェブ知識のリポジトリで訓練されています。DeepSeek-R1、GPT-4、Claude-3.7、Gemini-2.0 のようなモデルは、パブリックインターネット全体から数兆のトークンで訓練されています。大まかな推定では、高品質で公開されているウェブテキストの <1% から約 5% が主要なモデルの訓練に使用されています。

この数字が小さすぎると思うかもしれませんが、この比較を考えてみてください：Google のインデックスをベンチマーク（世界のユーザーがアクセス可能なデータの 100% を表す）とすると、Bing のインデックスは Google の約 30-50% です。Baidu は約 5-10%、Yandex は 3-5% をカバーしています。Brave Search のインデックスは 1% 未満です。したがって、LLM が高品質な公開データの 1-5% で訓練されている場合、それは小規模な検索エンジンが提供できるのと同じ量のデータに相当する可能性があります。

これらのモデルは事実上このウェブデータを「記憶」しているため、彼らの記憶を「活性化」するような方法でプロンプトを与えるだけで、検索エンジンとして機能し、検索エンジン結果ページ（SERP）に似た結果を生成することができます。

そうです、幻覚は課題ですが、モデルの能力が各イテレーションで向上するにつれて、この問題は緩和されると合理的に期待できます。X では、新しいモデルがリリースされるたびに、人々は一から SVG を生成することに執着し、各バージョンが前よりも優れたイラストを生成することを期待しています。この検索エンジンのアイデアも、LLM のデジタル世界の理解が段階的に改善されることへの同様な期待に基づいています。

Binyuan Hui （Qwen モデルの中核開発者の一人）が `qwen-2.5-max` のワンショットでの豚の SVG 描画能力を示しています。

知識のカットオフ日は別の制限です。検索エンジンはほぼリアルタイムの情報を返すべきですが、LLM の重みは訓練後に固定されるため、カットオフ日以降の正確な情報を提供できません。一般的に、クエリがこのカットオフ日に近いほど、幻覚が発生する可能性が高くなります。古い情報は引用され、言い換えられる頻度が高いため、訓練データ内での重みが潜在的に増加する可能性があるためです。（これは情報が一様に重み付けされていることを前提としています；速報ニュースは新しさに関係なく、不均衡な注目を集める可能性があります。）しかし、この制限は実際に、このアプローチが最も有用である場所を正確に定義しています—モデルの知識タイムフレーム内の情報に対してです。

tagLLM-as-SERP はどこで有用か？

DeepSearch/RAG や任意の検索グラウンディングシステムにおいて、核心的な課題は、質問が外部情報を必要とするのか、それともモデルの知識から回答できるのかを判断することです。現在のシステムは通常、以下のような指示によるプロンプトベースのルーティングを使用しています：

- For greetings, casual conversation, or general knowledge questions, answer directly without references.
- For all other questions, provide a verified answer with external knowledge. Each reference must include exactQuote and url.

このアプローチは両方向で失敗します - 不必要な検索をトリガーしたり、重要な情報ニーズを見逃したりすることがあります。特に新しい推論モデルでは、外部データが必要かどうかは生成の途中まで明らかにならないことが多いです。

単純に検索を実行するのはどうでしょうか？実際の検索 API への1回の呼び出しと、LLM-as-search システムへの呼び出しを行うことができます。これにより、事前のルーティング決定を排除し、実際の結果を比較できる下流に移動させます - 実際の検索からの最新データ、モデルのトレーニングカットオフ内の知識、そして潜在的な不正確な情報です。

最終的な推論ステップでは、結果間の不一致を特定し、情報の新しさ、信頼性、結果全体での一致度に基づいてソースの重み付けを行うことができます。これは明示的にコーディングする必要はありません—LLM が得意とする部分だからです。検索結果の各 URL を（例えば Jina Reader を使用して）訪問し、ソースをさらに検証することもできます。実際の実装では、この検証ステップは常に必要です。検索エンジンが本物か偽物かに関わらず、検索エンジンからの抜粋のみに頼るべきではありません。

tag結論

LLM-as-SERP を使用することで、「これはモデルの知識の範囲内かどうか」という二者択一の問題を、より堅牢な証拠の重み付けプロセスに変換します。

私たちはプレイグラウンドと当社がホストする API エンドポイントを提供しており、これらを試すことができます。また、あなた自身の DeepSearch/DeepResearch の実装に統合して、改善を直接確認することもできます。

この API は完全な SERP エンドポイントを模倣しており、結果の数、ページネーション、国、言語などを定義することができます。その実装は GitHub で確認できます。この興味深いアプローチについて、皆様からのフィードバックをお待ちしています。