Что мы узнали на SIGIR 2025

SIGIR (Special Interest Group on Information Retrieval) — это первоклассная конференция по информационному поиску, объединяющая исследователей, разработчиков, экспертов отрасли и преподавателей со всего мира для обмена новейшими новаторскими исследованиями. Компания Jina AI принимала участие в конференции этого года в Падуе в июле, представляя свою работу по позднему чанкингу на семинаре Robust IR.

На конференции этого года были представлены удивительные исследования, особенно в области методов переранжирования, моделей разреженного поиска и использования больших языковых моделей (LLM) в информационном поиске. Основные моменты включают в себя основные доклады Стивена Робертсона об истории и развитии алгоритма ранжирования BM25 и Ирины Гуревич о перспективах будущего искусственного интеллекта в научных исследованиях. Эксперты и восторженные аспиранты, присутствовавшие на конференции, вызвали множество оживленных дискуссий. Конференция проходила в Конгресс-центре Падуи, расположенном в самом центре города. Сама Падуя — место, богатое историей и культурой, и нам очень понравилось там проводить время.

tagПоздний чанкинг на Robust IR

Семинар Robust IR — это новое мероприятие на SIGIR, которое проводилось впервые в этом году. Он был посвящен тому, насколько хорошо системы информационного поиска работают в сложных и исключительных ситуациях, и тому, как мы можем повысить их надежность. Семинар представлял собой смесь приглашенных докладов и устных презентаций принятых работ, а также панельную дискуссию.

Мы представили нашу работу по позднему чанкингу на постерной сессии семинара. Было много проницательных вопросов и комментариев, немало от людей, которые уже прочитали наш препринт.

Поздний чанкинг: Контекстные вложения чанков с использованием моделей вложений с длинным контекстом

Многие варианты использования требуют извлечения небольших фрагментов текста, и системы поиска на основе плотных векторов часто работают лучше с более короткими текстовыми сегментами, поскольку семантика с меньшей вероятностью будет чрезмерно сжата в 向量模型 (embeddings). Следовательно, практикующие специалисты часто разбивают текстовые документы на более мелкие чанки и кодируют их отдельно. Однако вложения чанков, созданные таким образом, могут потерять контекстную информацию из окружающих чанков, что приводит к неоптимальным представлениям. В этой статье мы представляем новый метод, называемый поздним чанкингом, который использует модели вложений с длинным контекстом для предварительного встраивания всех 词元 (tokens) длинного текста, с чанкингом, применяемым после модели-трансформера и непосредственно перед средним объединением, — отсюда и термин «поздний» в его названии. Полученные вложения чанков захватывают полную контекстную информацию, что приводит к превосходным результатам в различных задачах поиска. Метод достаточно общий, чтобы его можно было применять к широкому спектру моделей вложений с длинным контекстом, и работает без дополнительного обучения. Чтобы еще больше повысить эффективность позднего чанкинга, мы предлагаем специальный подход к точной настройке для моделей вложений.

arXiv.orgMichael Günther

Постер позднего чанкинга на Robust-IR@SIGIR 2025

tagИнтересные исследования

Мы нашли много интересных исследований, представленных на SIGIR, но работа, представленная ниже, выделялась для нас.

tagCLIP-AdaM: Адаптация многовидового CLIP для поиска трехмерных объектов в открытом наборе

Эта статья была посвящена поиску трехмерных изображений, в частности, поиску трехмерных объектов в открытом наборе, который представляет собой задачу извлечения трехмерных объектов для ранее невидимых категорий объектов, без обучения для них. В их подходе используются визуализированные виды трехмерных моделей с разных углов для распознавания объектов с помощью моделей CLIP, обученных на плоских изображениях. Один интересный вывод статьи заключается в том, что модели CLIP хорошо работают при усреднении 向量模型 (embeddings), сгенерированных с разных видов объекта.

Кроме того, в статье предлагается новый метод обучения для поиска трехмерных объектов, который учится взвешивать различные виды, а также адаптивные слои, которые настраивают модель для конкретных задач, предотвращая переобучение категориям данных обучения и улучшая производительность zero-shot для новых категорий.

tagОптимизация составных систем поиска

Большинство существующих систем ранжирования, которые объединяют несколько моделей ранжирования для получения результатов, основаны на каскадах ранжирования. Это означает, что одна модель ранжирования выполняется за другой, каждая сохраняет только результаты с наилучшим результатом от предыдущей.

В этой статье предлагается другой подход, который она называет составными системами поиска: структура для объединения различных 重排器 (rerankers) для максимального повышения точности ранжирования и вычислительной эффективности. Авторы предлагают понимать это как обобщение каскадного подхода, который выполняет несколько 重排器 (rerankers) на разных подмножествах результатов с предыдущих этапов ранжирования.

На рисунке ниже показано, как можно объединять различные 重排器 (rerankers).

Рисунок 3: Схемы многоступенчатого процесса переранжирования с исходной подписью.

В их примере, ranker первой ступени выдает начальное ранжирование. Затем вторая ступень использует два 重排器 (rerankers) с различными подходами к ранжированию:

Точечная модель ранжирования, которая выдает оценку релевантности для документов с первого ranker на основе запроса.
Парная модель ранжирования, которая сравнивает два документа и запрос и выдает оценочную вероятность того, что один из двух более релевантен запросу, чем другой.

Каждая модель имеет политику отбора, которая применяется к результатам предыдущего этапа ранжирования, например, берется только топ-n. Существует также функция окончательного упорядочивания, которая выдает конечный результат. И политика отбора, и функция упорядочивания имеют параметры, устанавливаемые при обучении, что обеспечивает целостную оптимизацию, которая дает лучшие и более надежные результаты.

tagRE-AdaptIR: Улучшение поиска информации с помощью обратного инжиниринга адаптации

Было проведено много исследований по использованию методов линейной алгебры для оптимизации весов векторных моделей. Например, метод "супа моделей" повышает точность и надежность модели, усредняя веса моделей, полученных в результате тонкой настройки одной и той же базовой модели с различными гиперпараметрами.

Исследование, представленное в этой статье, предлагает связанную идею: можем ли мы использовать вектор разностей между весами точно настроенной векторной модели и ее не настроенной базовой модели для переноса обучения от одной модели к другой? Если мы точно настроим другую копию базовой модели на предсказание следующего токена для специфичного для домена текста, а затем добавим разницу весов из обученной векторной модели, получим ли мы лучшую векторную модель для целевого домена?

Рисунок 5: Пояснительный рисунок, дающий общее представление о том, что предлагает RE-AdaptIR.

Это дает важные преимущества для обучения моделей для новых доменов. Это позволяет использовать большое количество обычных текстовых данных для обучения предсказанию следующего токена, а затем получать улучшенные векторные представления в результате.

tagБенчмаркинг методов оценки релевантности на основе больших языковых моделей (LLM)

В этой статье оцениваются стратегии подсказок для использования LLM в качестве судей релевантности, включая их использование для бинарных (да/нет) суждений, градуированных оценок (т.е. шкалы 0-4), парных сравнений документов на релевантность и "методов, основанных на ключевых моментах", которые определяют, содержит ли документ конкретную информацию.

Авторы приходят к выводу, на основе тестирования с GPT-4o и Llama 3, что результаты больше соответствуют человеческим суждениям, когда у LLM меньше вариантов выбора. Бинарные суждения и парные сравнения работают лучше всего, и с очень сильными моделями искусственного интеллекта они достаточно хороши для масштабного автоматизированного использования. Хороший дизайн подсказок является критическим фактором.

Методы, основанные на ключевых моментах, обеспечивают интерпретируемость для человека, но менее надежны.

tagРанжировщики, судьи и помощники: к пониманию взаимодействия LLM в оценке поиска информации

В этой статье рассматриваются вопросы использования LLM в трех различных ролях: ранжирование результатов, оценка релевантности и оценка результатов, а также вспомогательные функции, такие как суммирование результатов и расширение запросов.

В ней рассматриваются последствия использования LLM во всем цикле информации, как показано на рисунке ниже, взятом из статьи.

Рисунок 6: Иллюстрация использования LLM в современном IR

В статье делается вывод о том, что существуют значительные проблемы в использовании суждений на основе LLM при оценке систем поиска информации, которые сами полагаются на LLM. Взаимодействие различных компонентов на основе LLM определенно может привести к предвзятым и неточным результатам.

tagРазметка полезности на основе LLM для оценки IR

В этой статье проводится различие между релевантностью и полезностью в результатах поиска. Релевантность, в их определении, заключается в том, относится ли тема извлеченного документа к теме запроса; полезность - это то, насколько документ отвечает на запрос, то есть, если он выполняет намерение пользователя.

Основное внимание уделяется тому, могут ли LLM распознавать и ранжировать полезность и соответствуют ли их суждения человеческим. Они приходят к выводу, что существует значительное соответствие между человеческими оценками полезности и LLM. Однако доступные LLM испытывают трудности в случаях, когда релевантность и полезность не согласованы, т.е. релевантные, но не полезные документы. Авторы обнаружили, что предоставление LLM большего количества контекстной информации, а не только текстовых запросов, значительно улучшает результаты.

tagОценка релевантности на основе LLM по-прежнему не может заменить оценку релевантности человеком

В статье обсуждается использование LLM для автоматической оценки релевантности при поиске информации, что значительно упростит обучение моделей поиска, поскольку данных, ранжированных людьми, никогда не бывает достаточно. Хотя некоторые недавние исследования утверждают, что LLM могут полностью заменить человеческих оценщиков, в этой статье определяются ключевые ограничения, которые не позволяют LLM заменить суждения людей.

Недостаточность доказательств и ограниченная обобщаемость текущих исследований: В текущих исследованиях недостаточно убедительных доказательств того, что LLM могут полностью заменить суждения людей о релевантности, особенно в различных наборах данных и реальных сценариях. Там, где существуют положительные результаты, спорно, действительно ли они применимы к широким областям.
Уязвимость к манипуляциям: Автоматизированными метриками, включая те, которые основаны на LLM, можно легко манипулировать. Очень легко улучшить оценки, не улучшая реальную производительность.
Предвзятость к самопредпочтению: LLM, как правило, отдают предпочтение результатам, аналогичным их собственным данным обучения, внося предвзятость, которая ставит под угрозу объективность оценок релевантности.
Риски переобучения: Использование оценок на основе LLM может привести к тому, что системы поиска будут оптимизированы для особенностей конкретных LLM, что снизит производительность в реальном использовании.

tagЗаключение

Быстрый рост больших языковых моделей значительно преобразовал поиск информации, заменив устоявшиеся методы, такие как BM25, и открыв новые возможности. Исследования, представленные на SIGIR, подчеркивают эту трансформацию.

Однако языковые модели не превращают поиск информации в решенную проблему. На конференции был представлен широкий спектр инновационных идей, направленных на более тесную адаптацию IR-систем к меняющимся потребностям пользователей. Мы действительно наслаждались общением со студентами PhD и экспертами, обменом идеями и поделились своим видением будущего поиска в Jina AI. Мы рады продолжать расширять границы возможного в этой области.