LLM 作為 SERP：大型語言模型生成的搜尋引擎結果頁面

自從 RAG 出現以來，使用 LLM 來改進搜尋已成為一種趨勢。從 Perplexity 到 DeepSearch 和 DeepResearch，將搜尋引擎結果注入生成過程的想法已成為事實標準。許多用戶也表示他們不再像以前那樣頻繁使用 Google，認為其傳統的分頁設計乏味、令人不知所措或繁瑣。相反，他們已經習慣於聊天式搜尋介面中問答式結果的高精確度和召回率，這表明這種設計理念可能是未來的發展方向。

但如果 LLM 本身就是搜尋引擎呢？

如果你可以像使用 Google 一樣探索 LLM 中嵌入的知識呢？分頁、連結等一切 —— 就像你熟悉的過去那樣。如果你不確定我的意思，請先查看下面的示範。

0:00

/0:10

這些連結、標題和摘要完全由 LLM 生成。你可以訪問 https://jina.ai/llm-serp-demo 並自己試試一些查詢！

在提出幻覺問題的疑慮之前，讓我們先解釋為什麼這個想法有一些價值：LLM 是在龐大的網路知識庫上訓練的。像 DeepSeek-R1、GPT-4、Claude-3.7 和 Gemini-2.0 這樣的模型已經在來自公共網際網路的數万億個字元上進行了訓練。粗略估計，約 <1% 到 ~5% 的高質量、可公開訪問的網路文本已被用於訓練領先的模型。

如果你認為這個數字似乎太小，請考慮這個比較：如果我們以 Google 的索引作為基準（代表世界上 100% 的用戶可訪問數據），那麼 Bing 的索引約為 Google 的 30-50%。百度覆蓋約 5-10%，Yandex 覆蓋 3-5%。Brave Search 的索引少於 1%。因此，如果一個 LLM 在 1-5% 的高質量公共數據上訓練，它可能等同於一個不錯的小型搜尋引擎可以提供的相同數量的數據。

由於這些模型已經有效地「記住」了這些網路數據，我們只需以一種能「激活」它們記憶的方式提示它們，使其能夠像搜尋引擎一樣運作，並生成類似搜尋引擎結果頁面（SERP）的結果。

所以是的，幻覺確實是一個挑戰，但隨著每一次模型能力的改進，我們可以合理地期待這個問題得到緩解。在 X 上，每當新模型發布時，人們常常沉迷於從頭開始生成 SVG，希望每個版本都能比上一個版本產生更好的插圖。這個搜尋引擎的想法也遵循類似的期望，即 LLM 對數位世界的理解能夠逐步改進。

Binyuan Hui （Qwen 模型的核心開發者之一）展示 `qwen-2.5-max` 一次性繪製豬的 SVG 的能力。

知識截止日期是另一個限制。搜尋引擎應該返回近乎即時的信息，但由於 LLM 的權重在訓練後被凍結，它們無法提供超出其截止日期的準確信息。一般來說，查詢越接近這個截止日期，出現幻覺的可能性就越大。由於較舊的信息可能被引用和改述的次數更多，可能在訓練數據中增加了其權重。（這假設信息是均勻加權的；重大新聞可能會不顧時效性而受到不成比例的關注。）然而，這個限制實際上恰恰定義了這種方法最有用的地方——對於在模型知識時間範圍內的信息。

tagLLM-as-SERP 在哪些方面可以發揮作用？

在 DeepSearch/RAG 或任何搜尋基礎系統中，一個核心挑戰是確定一個問題是需要外部信息還是可以從模型的知識中回答。目前的系統通常使用基於提示的路由，其指令如：

- For greetings, casual conversation, or general knowledge questions, answer directly without references.
- For all other questions, provide a verified answer with external knowledge. Each reference must include exactQuote and url.

這種方法在兩個方向都會失敗 —— 有時會觸發不必要的搜尋，有時又會錯過關鍵的信息需求。特別是對於較新的推理模型，通常直到生成過程中期才能明顯看出是否需要外部數據。

如果我們直接進行搜尋呢？我們可以同時調用一個真實的搜尋 API 和一個 LLM-as-search 系統。這樣就無需預先做出路由決定，而是將其移至下游，在那裡我們有實際的結果可以比較 —— 來自真實搜尋的最新數據、模型訓練截止日期內的知識，以及可能存在的一些錯誤信息。

最後的推理步驟可以識別不一致之處，並根據時效性、可靠性以及結果間的共識來權衡各個來源。這些我們不需要特別編寫代碼，因為這本來就是 LLM 擅長的。我們還可以訪問搜索結果中的每個 URL（例如使用 Jina Reader）來進一步驗證來源。在實際應用中，這個驗證步驟總是必要的；無論是真實還是虛擬的搜索引擎，你都不應該完全依賴搜索引擎的摘錄。

tag結論

通過使用 LLM-as-SERP，我們將「這是否在模型的知識範圍內？」這個二元問題轉化為更穩健的證據權衡過程。

我們提供了一個演示平台以及我們託管的 API 端點供你實驗。你也可以將其整合到你自己的 DeepSearch/DeepResearch 實現中，親身體驗其改進效果。

這個 API 模擬了完整的 SERP 端點，你可以定義結果數量、分頁、國家、語言等。你可以在 GitHub 上找到它的實現。我們很期待聽到你對這個有趣方法的反饋。