AIR-Bench: лучшие метрики для улучшенного поиска по базам знаний

Поздно ночью полицейский находит пьяного человека, ползающего на четвереньках под уличным фонарем. Пьяный говорит офицеру, что ищет свой кошелек. Когда офицер спрашивает, уверен ли он, что потерял кошелек именно здесь, мужчина отвечает, что, вероятнее всего, он уронил его на другой стороне улицы. "Тогда почему вы ищете здесь?" - озадаченно спрашивает офицер. "Потому что здесь светлее", - объясняет пьяный.

Дэвид Х. Фридман, Почему научные исследования так часто ошибочны: Эффект уличного фонаря, журнал Discover, декабрь 2010

Бенчмарки уже давно являются ключевым компонентом современных практик машинного обучения, но у них есть очень серьезная проблема: мы не можем определить, измеряют ли наши бенчмарки что-то действительно полезное.

Это большая проблема, и эта статья представит часть решения: AIR-Bench. Этот совместный проект с Пекинской академией искусственного интеллекта представляет собой новый подход к метрикам ИИ, призванный улучшить качество и полезность наших бенчмарков.

北京智源人工智能研究院

智源研究院是人工智能领域的新型研发机构，汇集国际顶尖人工智能学者，聚焦核心技术与原始创新，旨在推动人工智能领域发展政策、学术思想、理论基础、顶尖人才与产业生态的五大源头创新。

tagЭффект уличного фонаря

Научные и операционные исследования уделяют большое внимание измерениям, но измерения – это не простая вещь. В медицинском исследовании вы можете хотеть узнать, сделало ли лекарство или лечение пациентов более здоровыми, увеличило ли продолжительность их жизни или улучшило их состояние каким-либо образом. Но здоровье и улучшение качества жизни трудно измерить напрямую, и может потребоваться десятилетия, чтобы выяснить, продлило ли лечение чью-то жизнь.

Поэтому исследователи используют прокси-показатели. В медицинском исследовании это может быть что-то вроде физической силы, уменьшения боли, снижения кровяного давления или какая-либо другая переменная, которую можно легко измерить. Одна из проблем медицинских исследований заключается в том, что прокси-показатель может на самом деле не указывать на тот лучший результат для здоровья, которого вы хотите достичь с помощью лекарства или лечения.

Измерение – это прокси для чего-то полезного, что имеет для вас значение. Возможно, вы не можете измерить эту вещь, поэтому вы измеряете что-то другое, что-то, что вы можете измерить, и у вас есть основания полагать, что это коррелирует с полезной вещью, которая вас действительно интересует.

Фокус на измерениях был важным достижением исследований операций 20-го века и имел некоторые глубокие и положительные эффекты. Total Quality Management, набор доктрин, которому приписывают подъем Японии к экономическому доминированию в 1980-х годах, почти полностью посвящен постоянному измерению прокси-переменных и оптимизации практик на этой основе.

Но фокус на измерениях создает некоторые известные, большие проблемы:

Измерение может перестать быть хорошим прокси, когда вы принимаете решения на его основе.
Часто существуют способы искусственно увеличить показатель, которые не улучшают ничего, что приводит к возможности обмана или веры в то, что вы делаете прогресс, делая вещи, которые не помогают.

Некоторые люди считают, что большинство медицинских исследований может быть просто ошибочным отчасти из-за этой проблемы. Разрыв между тем, что можно измерить, и реальными целями является одной из причин, упоминаемых для объяснения катастрофы американской войны во Вьетнаме.

Это иногда называют "Эффектом уличного фонаря", по историям, подобным той, что в начале этой страницы, о пьяном, который ищет что-то не там, где потерял, а там, где светлее. Прокси-измерение подобно поиску там, где есть свет, потому что нет света там, где находится то, что мы хотим увидеть.

В более технической литературе "Эффект уличного фонаря" обычно связывают с Законом Гудхарта, названным в честь критики британского экономиста Чарльза Гудхарта правительства Тэтчер, которое уделяло большое внимание прокси-показателям процветания. Закон Гудхарта имеет несколько формулировок, но наиболее часто цитируется следующая:

[К]аждый показатель, который становится целью, становится плохим показателем[…]

Кит Хоскинс, 1996 "Ужасная идея подотчетности": вписывание людей в измерение объектов.00s

В ИИ известным примером этого является метрика BLEU, используемая в исследованиях машинного перевода. Разработанная в 2001 году в IBM, BLEU – это способ автоматизировать оценку систем машинного перевода, и она была ключевым фактором в буме машинного перевода 2000-х годов. Как только стало легко присваивать вашей системе оценку, вы могли работать над ее улучшением. И оценки BLEU постоянно улучшались. К 2010 году стало практически невозможно опубликовать исследовательскую статью по машинному переводу в журнале или на конференции, если она не превосходила лучший показатель BLEU, независимо от того, насколько инновационной была статья или насколько хорошо она могла справляться с какой-то конкретной проблемой, с которой другие системы справлялись плохо.

Самым простым способом попасть на конференцию было найти какой-нибудь незначительный способ поиграть с параметрами вашей модели, получить оценку BLEU немного выше, чем у Google Translate, и затем подать заявку. Эти результаты были по сути бесполезны. Достаточно было просто взять какие-то новые тексты для перевода, чтобы увидеть, что они редко были лучше и часто хуже, чем передовые системы.

Вместо использования BLEU для оценки прогресса в машинном переводе, получение лучшей оценки BLEU стало целью. Как только это произошло, она перестала быть полезным способом оценки прогресса.

tagЯвляются ли наши AI-бенчмарки хорошими прокси?

Наиболее широко используемым бенчмарком для моделей embeddings является тестовый набор MTEB, который состоит из 56 конкретных тестов. Они усредняются по категориям и в целом для получения набора оценок по классам. На момент написания верхняя часть рейтинга MTEB выглядит так:

Модель embeddings, занимающая первое место, имеет общий средний балл 68.28, следующая за ней – 67.56. Глядя на эту таблицу, очень трудно понять, является ли эта разница большой или нет. Если разница небольшая, то другие факторы могут быть более важными, чем то, какая модель имеет наивысший балл:

Размер модели: Модели имеют разные размеры, отражающие различные требования к вычислительным ресурсам. Маленькие модели работают быстрее, используют меньше памяти и требуют менее дорогого оборудования. В этом топ-10 мы видим модели с размерами от 434 миллионов параметров до более чем 46 миллиардов – разница в 100 раз!
Размер embeddings: Размерности embeddings варьируются. Меньшая размерность означает, что векторы embeddings используют меньше памяти и хранилища, а сравнение векторов (основное использование embeddings) происходит намного быстрее. В этом списке мы видим размерности embeddings от 768 до 4096 – всего пятикратная разница, но все же значительная при создании коммерческих приложений.
Размер окна контекстного ввода: Контекстные окна различаются как по размеру, так и по качеству, от 2048 токенов до 32768. Кроме того, разные модели используют разные подходы к позиционному кодированию и управлению входными данными, что может создавать предвзятость в пользу определенных частей входных данных.

Короче говоря, общее среднее значение – это очень неполный способ определить, какая модель embeddings лучше.

Даже если мы посмотрим на оценки по конкретным задачам, например, приведенные ниже для поиска, мы сталкиваемся с теми же проблемами снова и снова. Независимо от того, какую оценку модель получает на этом наборе тестов, нет способа узнать, какие модели будут работать лучше всего для вашего конкретного уникального случая использования.

Но это не конец проблем с подобными бенчмарками.

Основная идея закона Гудхарта заключается в том, что любую метрику можно обойти, часто даже непреднамеренно. Например, бенчмарки MTEB состоят из данных из публичных источников, которые, вероятно, уже есть в ваших обучающих данных. Если вы специально не работаете над удалением данных бенчмарка из обучающей выборки, ваши результаты тестирования будут статистически некорректными.

Простого и всеобъемлющего решения не существует. Бенчмарк — это прокси-показатель, и мы никогда не можем быть уверены, что он отражает то, что мы хотим знать, но не можем измерить напрямую.

Но мы видим три основные проблемы с AI-бенчмарками, которые можно смягчить:

Бенчмарки статичны по своей природе: одни и те же задачи, использующие одни и те же тексты.
Бенчмарки универсальны: они малоинформативны для реальных сценариев.
Бенчмарки негибкие: они не могут адаптироваться к разнообразным сценариям использования.

AI создает такие проблемы, но иногда также создает и решения. Мы считаем, что можем использовать AI-модели для решения этих проблем, по крайней мере в том, что касается AI-бенчмарков.

tagИспользование AI для тестирования AI: AIR-Bench

AIR-Bench является открытым исходным кодом и доступен под лицензией MIT. Вы можете просмотреть или загрузить код из его репозитория на GitHub.

tagЧто он делает?

AIR-Bench привносит важные функции в тестирование AI:

Специализация для приложений поиска и RAG
Этот бенчмарк ориентирован на реалистичные приложения информационного поиска и конвейеры генерации с дополнением из retrieved данных.
Гибкость в отношении домена и языка
AIR значительно упрощает создание бенчмарков из данных определенной предметной области или для другого языка, или даже из ваших собственных данных для конкретных задач.
Автоматическая генерация данных
AIR-Bench генерирует тестовые данные, и набор данных регулярно обновляется, снижая риск утечки данных.

tagТаблица лидеров AIR-Bench на HuggingFace

⚠️

Изучите публичную бета-версию таблицы лидеров AIR-Bench в пространстве AIR-Bench на HuggingFace.

Мы ведем таблицу лидеров, аналогичную таблице MTEB, для текущего релиза задач, сгенерированных AIR-Bench. Мы будем регулярно обновлять бенчмарки, добавлять новые и расширять охват для большего количества AI-моделей.

tagКак это работает?

Основная идея подхода AIR заключается в том, что мы можем использовать большие языковые модели (LLM) для генерации новых текстов и новых задач, которых не может быть ни в одном обучающем наборе.

AIR-Bench использует творческие способности LLM, прося их разыграть сценарий. Пользователь выбирает коллекцию документов — реальную, которая может быть частью обучающих данных некоторых моделей — и затем представляет пользователя с определенной ролью и ситуацию, в которой ему потребуется использовать этот корпус документов.

Three instructional icons on a black background: "Select a Collection of Documents" with examples on Wikipedia articles about

Затем пользователь выбирает документ из корпуса и передает его вместе с профилем пользователя и описанием ситуации в LLM. LLM получает запрос на создание поисковых запросов, которые подходят для этого пользователя и ситуации и должны найти этот документ.

Flow chart outlining steps from selecting documents and profiles to generating queries with a language model.

Затем конвейер AIR-Bench отправляет в LLM документ и запрос и создает синтетические документы, которые похожи на предоставленный, но которые не должны соответствовать запросу.

Diagram illustrating the LLM's process to generate negative documents using queries, user data, and situational info.

Теперь у нас есть:

Коллекция запросов
Соответствующий реальный документ для каждого запроса
Небольшая коллекция ожидаемых несоответствующих синтетических документов

AIR-Bench объединяет синтетические документы с коллекцией реальных документов, а затем использует одну или несколько моделей эмбеддингов и ранжирования для проверки того, что запросы должны быть способны извлечь соответствующие документы. Он также использует LLM для проверки того, что каждый запрос релевантен документам, которые он должен извлечь.

Для получения более подробной информации об этом AI-центричном процессе генерации и контроля качества, прочитайте документацию по генерации данных в репозитории AIR-Bench на GitHub.

AIR-Bench/docs/data_generation.md at main · AIR-Bench/AIR-Bench

AIR-Bench: Automated Heterogeneous Information Retrieval Benchmark - AIR-Bench/AIR-Bench

В результате получается набор высококачественных пар запрос-соответствие и полусинтетический набор данных для их тестирования. Даже если исходная реальная коллекция документов является частью обучающей выборки, добавленные синтетические документы и сами запросы являются новыми, ранее не встречавшимися данными, которые модель не могла изучить ранее. ### Предметно-ориентированные тесты и тестирование на основе реальных данных Синтезирование запросов и документов предотвращает утечку тестовых данных в обучающую выборку, а также во многом решает проблему обобщенных тестов. Предоставляя LLM выбранные данные, профиль пользователя и сценарий, AIR-Bench значительно упрощает создание тестов для конкретных случаев использования. Более того, создавая запросы для определенного типа пользователей и сценариев использования, AIR-Bench может генерировать тестовые запросы, которые ближе к реальному использованию, чем традиционные тесты. Хотя ограниченная креативность и воображение LLM могут не полностью соответствовать реальному сценарию, это все же лучше, чем статический тестовый набор данных, составленный из доступных исследователям данных. Как дополнительное преимущество этой гибкости, AIR-Bench поддерживает все языки, которые поддерживает GPT-4. Кроме того, AIR-Bench фокусируется именно на реалистичном информационном поиске на основе ИИ, что является наиболее распространенным применением моделей встраивания. Он не предоставляет оценки для других типов задач, таких как кластеризация или классификация. ## Дистрибутив AIR-Bench AIR-Bench доступен для скачивания, использования и модификации через его GitHub репозиторий. AIR-Bench поддерживает два типа тестов: - Задача информационного поиска, основанная на оценке правильного извлечения документов, релевантных конкретным запросам. - Задача "длинного документа", которая имитирует часть информационного поиска в конвейере генерации с дополнительным извлечением. Мы также предварительно сгенерировали набор тестов на английском и китайском языках, вместе со скриптами для их генерации в качестве живых примеров использования AIR-Bench. Они используют наборы легкодоступных данных. Например, для выборки из 6 738 498 страниц английской Википедии, мы сгенерировали 1 727 запросов, соответствующих 4 260 документам и дополнительно 7 882 синтетических несоответствующих, но похожих документа. Мы предлагаем традиционные тесты информационного поиска для восьми англоязычных наборов данных и шести на китайском языке. Для задач с "длинными документами" мы предоставляем пятнадцать тестов, все на английском языке. Чтобы увидеть полный список и больше подробностей, посетите страницу доступных задач в репозитории AIR-Bench на GitHub. ## Присоединяйтесь AIR-Benchmark был разработан как инструмент для сообщества Search Foundations, чтобы заинтересованные пользователи могли создавать тесты, лучше соответствующие их потребностям. Когда ваши тесты информативны для ваших случаев использования, они также информируют нас, позволяя создавать продукты, которые лучше соответствуют вашим потребностям.