AIR-Bench: Mejores Métricas para una Mejor Base de Búsqueda

Una noche, un policía encuentra a un hombre ebrio gateando sobre sus manos y rodillas bajo una farola. El hombre ebrio le dice al oficial que está buscando su billetera. Cuando el oficial le pregunta si está seguro de que este es el lugar donde se le cayó la billetera, el hombre responde que probablemente se le cayó al otro lado de la calle. Entonces, ¿por qué está buscando aquí?, pregunta el oficial desconcertado. Porque aquí hay mejor luz, explica el hombre ebrio.

David H. Friedman, Why Scientific Studies Are So Often Wrong: The Streetlight Effect, Revista Discover, Dic. 2010

Los benchmarks son un componente fundamental de las prácticas modernas de machine learning y lo han sido durante algún tiempo, pero tienen un problema muy serio: No podemos determinar si nuestros benchmarks miden algo útil.

Este es un gran problema, y este artículo presentará parte de una solución: El AIR-Bench. Este proyecto conjunto con la Beijing Academy of Artificial Intelligence es un enfoque novedoso para las métricas de IA diseñado para mejorar la calidad y utilidad de nuestros benchmarks.

北京智源人工智能研究院

智源研究院是人工智能领域的新型研发机构，汇集国际顶尖人工智能学者，聚焦核心技术与原始创新，旨在推动人工智能领域发展政策、学术思想、理论基础、顶尖人才与产业生态的五大源头创新。

tagEl Efecto Farola

La investigación científica y operativa pone mucho énfasis en las mediciones, pero las mediciones no son algo simple. En un estudio de salud, podrías querer saber si algún medicamento o tratamiento hizo que los receptores estuvieran más sanos, vivieran más tiempo o mejoraran su condición de alguna manera. Pero la salud y la mejora en la calidad de vida son cosas difíciles de medir directamente, y puede llevar décadas averiguar si un tratamiento extendió la vida de alguien.

Así que los investigadores usan indicadores indirectos. En un estudio de salud, esto podría ser algo como la fuerza física, la reducción del dolor, la disminución de la presión arterial u otra variable que puedas medir fácilmente. Uno de los problemas con la investigación en salud es que el indicador indirecto puede no ser realmente indicativo del mejor resultado de salud que quieres que tenga un medicamento o tratamiento.

Una medición es un indicador indirecto de algo útil que te importa. Puede que no seas capaz de medir esa cosa, así que mides otra cosa, algo que sí puedes medir, que tienes razones para creer que se correlaciona con la cosa útil que realmente te importa.

El enfoque en la medición fue un desarrollo importante de la investigación operativa del siglo XX y ha tenido algunos efectos profundos y positivos. La Gestión de Calidad Total, un conjunto de doctrinas a las que se atribuye el ascenso de Japón al dominio económico en la década de 1980, trata casi completamente sobre la medición constante de variables indirectas y la optimización de prácticas sobre esa base.

Pero un enfoque en la medición plantea algunos problemas conocidos y grandes:

Una medición puede dejar de ser un buen indicador indirecto cuando tomas decisiones basadas en ella.
A menudo hay formas de inflar una medida que no mejoran nada, lo que lleva a la posibilidad de hacer trampa o creer que estás progresando al hacer cosas que no están ayudando.

Algunas personas creen que la mayoría de la investigación médica puede estar simplemente equivocada en parte debido a este problema. La desconexión entre las cosas que puedes medir y los objetivos reales es una de las razones citadas para la calamidad de la guerra de Estados Unidos en Vietnam.

Esto a veces se llama el "Efecto Farola", por las historias, como la del principio de esta página, del borracho que busca algo no donde lo perdió, sino donde hay mejor luz. Una medida indirecta es como buscar donde hay luz porque no hay luz sobre la cosa que queremos ver.

En literatura más técnica, el "Efecto Farola" típicamente está vinculado a la Ley de Goodhart, atribuida a las críticas del economista británico Charles Goodhart al gobierno de Thatcher, que había puesto mucho énfasis en medidas indirectas de prosperidad. La Ley de Goodhart tiene varias formulaciones, pero la siguiente es la más citada:

[C]ada medida que se convierte en un objetivo se convierte en una mala medida[…]

Keith Hoskins, 1996 The 'awful idea of accountability': inscribing people into the measurement of objects.

En IA, un ejemplo famoso de esto es la métrica BLEU utilizada en la investigación de traducción automática. Desarrollada en 2001 en IBM, BLEU es una forma de automatizar la evaluación de sistemas de traducción automática, y fue un factor fundamental en el auge de la traducción automática de los años 00. Una vez que fue fácil dar una puntuación a tu sistema, podías trabajar en mejorarlo. Y las puntuaciones BLEU mejoraron consistentemente. Para 2010, era casi imposible que un artículo de investigación sobre traducción automática fuera aceptado en una revista o conferencia si no superaba la puntuación BLEU del estado del arte, sin importar cuán innovador fuera el artículo ni cuán bien pudiera manejar algún problema específico que otros sistemas estaban manejando pobremente.

La forma más fácil de entrar en una conferencia era encontrar alguna forma menor de ajustar los parámetros de tu modelo, obtener una puntuación BLEU fraccionalmente más alta que la de Google Translate, y luego enviar. Estos resultados eran esencialmente inútiles. Solo conseguir algunos textos nuevos para traducir mostraría que raramente eran mejores y frecuentemente peores que el estado del arte.

En lugar de usar BLEU para evaluar el progreso en traducción automática, obtener una mejor puntuación BLEU se convirtió en el objetivo. Tan pronto como eso sucedió, dejó de ser una forma útil de evaluar el progreso.

tag¿Son buenos indicadores nuestros benchmarks de IA?

El benchmark más utilizado para modelos de embedding es el conjunto de pruebas MTEB, que consiste en 56 pruebas específicas. Estas se promedian por categoría y en conjunto para producir una colección de puntuaciones específicas por clase. Al momento de escribir esto, la parte superior de la tabla de clasificación MTEB se ve así:

El modelo de embedding mejor clasificado tiene una puntuación promedio general de 68.28, el siguiente más alto es 67.56. Es muy difícil, mirando esta tabla, saber si esa es una gran diferencia o no. Si es una pequeña diferencia, entonces otros factores pueden ser más importantes que cuál modelo tiene la puntuación más alta:

Tamaño del modelo: Los modelos tienen diferentes tamaños, lo que refleja diferentes demandas de recursos computacionales. Los modelos pequeños se ejecutan más rápido, en menos memoria y requieren hardware menos costoso. Vemos, en esta lista de los 10 mejores, modelos que van desde 434 millones de parámetros hasta más de 46 mil millones — ¡una diferencia de 100 veces!
Tamaño del embedding: Las dimensiones de embedding varían. Una dimensionalidad más pequeña hace que los vectores de embedding usen menos memoria y almacenamiento y hace que las comparaciones de vectores (el uso principal de embeddings) sean mucho más rápidas. En esta lista, vemos dimensiones de embedding desde 768 hasta 4096 — solo una diferencia de cinco veces pero aún significativa cuando se construyen aplicaciones comerciales.
Tamaño de la ventana de contexto de entrada: Las ventanas de contexto varían tanto en tamaño como en calidad, desde 2048 tokens hasta 32768. Además, diferentes modelos utilizan diferentes enfoques para la codificación posicional y la gestión de entrada, lo que puede crear sesgos a favor de partes específicas de la entrada.

En resumen, el promedio general es una forma muy incompleta de determinar qué modelo de embedding es mejor.

Incluso si miramos las puntuaciones específicas por tarea, como las de abajo para recuperación, enfrentamos los mismos problemas una y otra vez. No importa cuál sea la puntuación de un modelo en este conjunto de pruebas, no hay manera de saber qué modelos funcionarán mejor para tu caso de uso particular y único.

Pero los problemas con este tipo de benchmarks no terminan ahí.

La principal idea de la Ley de Goodhart es que una métrica siempre puede ser manipulada, a menudo sin intención. Por ejemplo, los benchmarks MTEB consisten en datos de fuentes públicas que probablemente estén en tus datos de entrenamiento. A menos que trabajes específicamente para intentar eliminar los datos de benchmarking de tu entrenamiento, tus puntuaciones en los benchmarks serán estadísticamente poco sólidas.

No existe una solución simple y completa. Un benchmark es un proxy y nunca podemos estar seguros de que refleje lo que queremos saber pero no podemos medir directamente.

Sin embargo, vemos tres problemas principales con los benchmarks de IA que podemos mitigar:

Los benchmarks son fijos por naturaleza: Las mismas tareas, usando los mismos textos.
Los benchmarks son genéricos: No son muy informativos sobre escenarios reales.
Los benchmarks son inflexibles: No pueden responder a casos de uso diversos.

La IA crea problemas como este, pero a veces también crea soluciones. Creemos que podemos usar modelos de IA para abordar estos problemas, al menos en lo que afecta a los benchmarks de IA.

tagUsando IA para hacer Benchmark de IA: AIR-Bench

AIR-Bench es de código abierto y está disponible bajo la Licencia MIT. Puedes ver o descargar el código desde su repositorio en GitHub.

tag¿Qué hace?

AIR-Bench aporta algunas características importantes al benchmarking de IA:

Especialización para Aplicaciones de Recuperación y RAG
Este benchmark está orientado hacia aplicaciones realistas de recuperación de información y pipelines de generación aumentada por recuperación.
Flexibilidad de Dominio y Lenguaje
AIR hace mucho más fácil crear benchmarks a partir de datos específicos de un dominio o para otro idioma, o incluso a partir de datos específicos de tu propia tarea.
Generación Automatizada de Datos
AIR-Bench genera datos de prueba y el conjunto de datos recibe actualizaciones regulares, reduciendo el riesgo de fuga de datos.

tagTabla de Clasificación de AIR-Bench en HuggingFace

⚠️

Explora la beta pública de la Tabla de Clasificación de AIR-Bench en el Espacio de AIR-Bench en HuggingFace.

Estamos operando una tabla de clasificación, similar a la de MTEB, para la versión actual de las tareas generadas por AIR-Bench. Regeneraremos regularmente los benchmarks, añadiremos nuevos y ampliaremos la cobertura a más modelos de IA.

tag¿Cómo funciona?

La idea central del enfoque AIR es que podemos usar modelos de lenguaje grandes (LLMs) para generar nuevos textos y nuevas tareas que no pueden estar en ningún conjunto de entrenamiento.

AIR-Bench aprovecha las capacidades creativas de los LLMs pidiéndoles que simulen un escenario. El usuario elige una colección de documentos — una real que puede ser parte de los datos de entrenamiento de algunos modelos — y luego imagina un usuario con un rol definido y una situación en la que necesitaría usar ese corpus de documentos.

Three instructional icons on a black background: "Select a Collection of Documents" with examples on Wikipedia articles about

Luego, el usuario selecciona un documento del corpus y lo pasa, junto con el perfil del usuario y la descripción de la situación, al LLM. Se le indica al LLM que cree consultas que sean apropiadas para ese usuario y situación y que deberían encontrar ese documento.

Flow chart outlining steps from selecting documents and profiles to generating queries with a language model.

El pipeline de AIR-Bench luego indica al LLM con el documento y la consulta y crea documentos sintéticos que son similares al proporcionado pero que no deberían coincidir con la consulta.

Diagram illustrating the LLM's process to generate negative documents using queries, user data, and situational info.

Ahora tenemos:

Una colección de consultas
Un documento real coincidente para cada consulta
Una pequeña colección de documentos sintéticos que se espera que no coincidan

AIR-Bench combina los documentos sintéticos con la colección de documentos reales y luego usa uno o más modelos de embedding y reranking para verificar que las consultas deberían poder recuperar los documentos coincidentes. También usa el LLM para verificar que cada consulta es relevante para los documentos que debería recuperar.

Para más detalles sobre este proceso de generación y control de calidad centrado en IA, lee la documentación de Generación de Datos en el repositorio de AIR-Bench en GitHub.

AIR-Bench/docs/data_generation.md at main · AIR-Bench/AIR-Bench

AIR-Bench: Automated Heterogeneous Information Retrieval Benchmark - AIR-Bench/AIR-Bench

El resultado es un conjunto de pares de consulta-coincidencia de alta calidad y un conjunto de datos semi-sintético para ejecutarlos. Incluso si la colección original de documentos reales forma parte de su entrenamiento, los documentos sintéticos añadidos y las propias consultas son datos nuevos y nunca antes vistos que no podría haber aprendido previamente. ### Benchmarks Específicos de Dominio y Pruebas Basadas en la Realidad La síntesis de consultas y documentos evita que los datos de referencia se filtren en el entrenamiento, pero también ayuda considerablemente a abordar el problema de los benchmarks genéricos. Al proporcionar a los LLMs datos seleccionados, un perfil de usuario y un escenario, AIR-Bench facilita enormemente la construcción de benchmarks para casos de uso particulares. Además, al construir consultas para un tipo específico de usuario y escenario de uso, AIR-Bench puede producir consultas de prueba más cercanas al uso del mundo real que los benchmarks tradicionales. La creatividad e imaginación limitadas de un LLM pueden no coincidir completamente con un escenario del mundo real, pero es una mejor coincidencia que un conjunto de datos de prueba estático hecho con datos disponibles para los investigadores. Como subproducto de esta flexibilidad, AIR-Bench admite todos los idiomas que soporta GPT-4. Además, AIR-Bench se enfoca específicamente en la recuperación de información realista basada en IA, la aplicación más extendida de los modelos de embeddings. No proporciona puntuaciones para otros tipos de tareas como clustering o clasificación. ## La Distribución AIR-Bench AIR-Bench está disponible para descargar, usar y modificar a través de su repositorio de GitHub. AIR-Bench admite dos tipos de benchmarks: - Una tarea de recuperación de información basada en evaluar la correcta recuperación de documentos relevantes para consultas específicas. - Una tarea de "documento largo" que imita la parte de recuperación de información de un pipeline de generación aumentada por recuperación. También hemos pre-generado un conjunto de benchmarks, en inglés y chino, junto con los scripts para generarlos como ejemplos en vivo de cómo usar AIR-Bench. Estos utilizan conjuntos de datos fácilmente disponibles. Por ejemplo, para una selección de 6.738.498 páginas de Wikipedia en inglés, hemos generado 1.727 consultas que coinciden con 4.260 documentos y 7.882 documentos sintéticos adicionales no coincidentes pero similares. Ofrecemos benchmarks convencionales de recuperación de información para ocho conjuntos de datos en inglés y seis en chino. Para las tareas de "documento largo", proporcionamos quince benchmarks, todos en inglés. Para ver la lista completa y más detalles, visita la página de Tareas Disponibles en el repositorio de AIR-Bench en GitHub. ## Participa El AIR-Benchmark ha sido diseñado para ser una herramienta para la comunidad de Search Foundations, de modo que los usuarios comprometidos puedan crear benchmarks más adecuados a sus necesidades. Cuando tus pruebas son informativas sobre tus casos de uso, también nos informan a nosotros, para que podamos construir productos que satisfagan mejor tus necesidades.