LLM como SERP: Páginas de resultados de motores de búsqueda desde modelos de lenguaje grandes

Prueba la demo interactiva y observa cómo aparece tu sitio en LLM SERP.

Desde RAG, la tendencia ha sido usar LLMs para mejorar la búsqueda. Desde Perplexity hasta DeepSearch y DeepResearch, la idea de inyectar resultados del motor de búsqueda en el proceso de generación se ha convertido en algo estándar. Muchos usuarios también afirman que ya no usan Google tan a menudo como antes, encontrando su diseño clásico de paginación aburrido, abrumador o tedioso. En cambio, se han acostumbrado a la alta precisión y recuperación de resultados estilo pregunta-respuesta desde una interfaz de búsqueda tipo chat, sugiriendo que esta filosofía de diseño podría ser el camino a seguir.

Pero ¿y si el propio LLM fuera el motor de búsqueda?

¿Qué pasaría si pudieras explorar el conocimiento integrado en los LLMs como si estuvieras usando Google? Paginación, enlaces y todo - justo como en los viejos tiempos con los que estás familiarizado. Si no estás seguro de a qué me refiero, revisa primero la demo a continuación.

0:00

/0:10

Los enlaces, títulos y fragmentos son completamente generados por un LLM. Puedes visitar https://jina.ai/llm-serp-demo y probar algunas consultas tú mismo!

Antes de plantear preocupaciones sobre las alucinaciones, expliquemos primero por qué esta idea tiene algo de mérito: los LLMs están entrenados en vastos repositorios de conocimiento web. Modelos como DeepSeek-R1, GPT-4, Claude-3.7 y Gemini-2.0 han sido entrenados con billones de tokens de todo el internet público. Una estimación aproximada es que entre <1% y ~5% del texto web de alta calidad y accesible públicamente se ha utilizado para entrenar los modelos principales.

Si piensas que este número parece demasiado pequeño, considera esta comparación: si usamos el índice de Google como referencia (representando el 100% de los datos accesibles por usuarios en el mundo), entonces el índice de Bing es aproximadamente 30-50% del de Google. Baidu cubre alrededor del 5-10%, y Yandex cubre 3-5%. Brave Search indexa menos del 1%. Así que si un LLM está entrenado en 1-5% de datos públicos de alta calidad, potencialmente iguala la misma cantidad de datos que un motor de búsqueda pequeño decente puede proporcionar.

Dado que estos modelos han "recordado" efectivamente estos datos web, simplemente necesitamos darles prompts de una manera que "active" su memoria, permitiéndoles funcionar como motores de búsqueda y generar resultados similares a una página de resultados de motor de búsqueda (SERP).

Así que sí, la alucinación es un desafío, pero a medida que las capacidades del modelo mejoran con cada iteración, podemos esperar razonablemente que este problema se alivie. En X, la gente está a menudo obsesionada con generar SVGs desde cero cada vez que se lanza un nuevo modelo, esperando que cada versión produzca mejores ilustraciones que la anterior. Esta idea del motor de búsqueda sigue una esperanza similar de mejora incremental en la comprensión del mundo digital por parte del LLM.

Binyuan Hui (uno de los desarrolladores principales detrás de los modelos Qwen) mostrando la capacidad de `qwen-2.5-max` para dibujar un cerdo SVG en una sola toma.

Las fechas de corte del conocimiento presentan otra limitación. Los motores de búsqueda deberían devolver información casi en tiempo real, pero dado que los pesos del LLM están congelados después del entrenamiento, no pueden proporcionar información precisa más allá de su fecha de corte. Generalmente, cuanto más cerca está una consulta de esta fecha de corte, más probable es que ocurran alucinaciones. Ya que la información más antigua probablemente ha sido citada y reformulada con más frecuencia, potencialmente aumentando sus pesos en los datos de entrenamiento. (Esto asume que la información está ponderada uniformemente; las noticias de última hora pueden recibir una atención desproporcionada independientemente de su antigüedad.) Sin embargo, esta limitación en realidad define precisamente dónde este enfoque podría ser más útil—para información bien dentro del marco temporal de conocimiento del modelo.

tag¿Dónde puede ser útil LLM-as-SERP?

En DeepSearch/RAG o cualquier sistema de búsqueda fundamentada, un desafío central es determinar si una pregunta necesita información externa o puede ser respondida desde el conocimiento del modelo. Los sistemas actuales típicamente usan enrutamiento basado en prompts con instrucciones como:

- For greetings, casual conversation, or general knowledge questions, answer directly without references.
- For all other questions, provide a verified answer with external knowledge. Each reference must include exactQuote and url.

Este enfoque falla en ambas direcciones - a veces activando búsquedas innecesarias, otras veces perdiendo necesidades críticas de información. Especialmente con los nuevos modelos de razonamiento, a menudo no es obvio hasta la mitad de la generación si se necesitan datos externos.

¿Qué tal si simplemente ejecutáramos la búsqueda de todos modos? Podríamos hacer una llamada a una API de búsqueda real y otra a un sistema LLM-como-búsqueda. Esto elimina la decisión de enrutamiento inicial y la mueve hacia abajo donde tenemos resultados reales para comparar - datos recientes de búsqueda real, conocimiento dentro del corte de entrenamiento del modelo, y potencialmente alguna información incorrecta.

El paso final de razonamiento puede entonces identificar inconsistencias y ponderar las fuentes basándose en su actualidad, fiabilidad y consenso entre los resultados, lo cual no tenemos que codificar explícitamente, ya que esto es en lo que los LLMs ya destacan. También se puede visitar cada URL en los resultados de búsqueda (por ejemplo, con Jina Reader) para validar aún más las fuentes. En implementaciones prácticas, este paso de verificación siempre es necesario de todas formas; nunca deberías confiar únicamente en extractos de motores de búsqueda, sean motores de búsqueda reales o falsos.

tagConclusión

Al usar LLM-as-SERP, transformamos la pregunta binaria de "¿está esto dentro del conocimiento del modelo o no?" en un proceso más robusto de ponderación de evidencia.

Proporcionamos un playground así como un endpoint de API alojado por nosotros con el que puedes experimentar. También siéntete libre de integrarlo en tus propias implementaciones de DeepSearch/DeepResearch para ver cualquier mejora de primera mano.

La API imita un endpoint SERP completo donde puedes definir el número de resultados, paginación, país, idioma, etc. Puedes encontrar su implementación en GitHub. Estamos ansiosos por escuchar tus comentarios sobre este interesante enfoque.