Mitigate the Gap: Improving Cross-Modal Alignment in CLIP
jina-clip-v2: Многоязычные мультимодальные векторные представления (Embeddings) для текста и изображений
ReaderLM-V2: Малая языковая модель (SLM) для преобразования HTML в Markdown и JSON
TIPS: Предварительное обучение текста и изображений с учетом пространственной осведомленности
Cut Cross-Entropy: Эффективное вычисление потерь с точки зрения памяти для больших словарей
FlexPrefill: Разреженное внимание с учетом контекста для длинных последовательностей
Эффективное сжатие векторных представлений (Embeddings) после обучения посредством контроля температуры
Внимание в больших языковых моделях (LLM) обеспечивает эффективные 重排器 (Reranker) с нулевым выстрелом
Установление связей и моделирование корреляций в парных данных для прямой оптимизации предпочтений
TAID: Временно-адаптивная интерполированная дистилляция для эффективной передачи знаний
SVD-LLM: Усечение-ориентированное сингулярное разложение для сжатия больших языковых моделей
Видеть то, что тебе говорят: Поглотитель визуального внимания в больших мультимодальных моделях
К семантической эквивалентности токенизации в мультимодальных LLM
Hymba: Гибридная архитектура голов для небольших языковых моделей
Событие
май 25, 2025
Что мы узнали на ICLR2025
Мы собрали несколько наиболее интересных статей на ICLR 2025, посвященных TIPS, FlexPrefill, Zero-Shot Rerankers, SVD-LLM, Hymba и т. д.
Jina AI • 21 минуты чтения
ICLR 2025 — одна из крупнейших и самых влиятельных конференций по машинному обучению в мире, наряду с NeurIPS и ICML, являющаяся тремя главными площадками для высокоэффективных исследований в области ИИ. Этот год ознаменовал собой историческую веху, поскольку ICLR впервые прошла в Азии, в сингапурском выставочном центре EXPO с 24 по 28 апреля. Время было выбрано как нельзя лучше — всего через несколько месяцев после "момента DeepSeek" в конце января 2025 года, который потряс Силиконовую долину и продемонстрировал быстрое развитие исследований в области ИИ в Китае. В сочетании с новым китайско-сингапурским соглашением о 30-дневном взаимном безвизовом режиме, вступившим в силу в феврале 2024 года, мы стали свидетелями беспрецедентного роста числа участников конференции из Китая.
В этом году наша команда с воодушевлением отправилась в Сингапур, где Седиге Эслами, Андреас Кукунас, Ван Фэн и генеральный директор Хан Сяо представили три исследовательские работы, демонстрирующие наши последние исследования по jina-clip-v2 и ReaderLM-v2 для улучшения поиска. В то время как остальной мир ИИ, похоже, погряз в гонке вооружений за все более крупные модели, мы решили пойти против нормы, доказав, что меньшие, более умные модели могут быть намного эффективнее, если правильно спроектировать.
Итак, берите кофе, устраивайтесь поудобнее, и давайте рассмотрим некоторые интересные исследования ICLR, начиная с нашего собственного взгляда на то, почему малый размер может быть мощным.
tagMitigate the Gap: Improving Cross-Modal Alignment in CLIP
Модели CLIP превосходно справляются с задачами обработки изображений и текста, но страдают от "модального разрыва" ("modality gap") — векторные представления (embeddings) изображений и текста кластеризуются в отдельных регионах, что ограничивает производительность. Эта работа, проведенная нашей стажеркой Седиге Эслами во время ее работы над докторской диссертацией в Институте Хассо Платтнера, решает эту фундаментальную проблему.
Мы обнаружили, что простой перенос векторов разрушает структуру векторных представлений (embedding). Вместо этого, AlignCLIP использует общие параметры энкодера с семантически регулируемыми целями разделения. Этот двойной подход успешно уменьшает модальный разрыв, повышая производительность в задачах zero-shot и fine-tuning.
Основные выводы:
Модальный разрыв является критическим узким местом в производительности CLIP
Совместное использование параметров + семантическое разделение эффективно устраняют модальные различия
Подход обеспечивает ощутимые улучшения при оценке downstream
tagjina-clip-v2: Многоязычные мультимодальные векторные представления (Embeddings) для текста и изображений
Это статья, лежащая в основе jina-clip-v2, многоязычной мультимодальной модели векторных представлений (embedding), которая поддерживает задачи, связанные только с текстом, и кросс-модальные задачи, используя многозадачный, многоэтапный подход контрастного обучения. Модель сочетает в себе текстовый энкодер (Jina XLM-RoBERTa, 561M параметров) и визуальный энкодер (EVA02-L14, 304M параметров), что в сумме составляет 865M параметров. Мы обучаем на многоязычных текстах из 29 неанглийских языков и визуально насыщенных документах, используя Matryoshka Representation Learning для гибкого определения размерности векторных представлений (embedding).
Основные выводы:
Смешивание данных изображения-текста и текста-текста в отдельных пакетах с общими параметрами температуры работает хуже, чем раздельное обучение, из-за асимметрии информации о модальности.
Обучение кросс-модальному выравниванию по своей сути ставит под угрозу качество векторных представлений (embedding) только текста, демонстрируя фундаментальный компромисс.
Сокращение размерности векторных представлений (embedding) с 1024 до 256 измерений приводит к потере производительности менее чем на 1%, что свидетельствует о значительной неэффективности высокоразмерных представлений.
tagReaderLM-V2: Малая языковая модель (SLM) для преобразования HTML в Markdown и JSON
Это статья о ReaderLM-v2, компактной языковой модели с 1,5 миллиардами параметров, разработанной для эффективного извлечения веб-контента. Модель обрабатывает документы размером до 512 тысяч 词元 (Tokens), преобразуя грязный HTML в чистые форматы Markdown или JSON. Наш подход сочетает в себе трехэтапный конвейер синтеза данных (DRAFT-REFINE-CRITIQUE), который генерирует высококачественные обучающие данные посредством итеративной доработки, с унифицированной структурой обучения, сочетающей непрерывное предварительное обучение, контролируемую тонкую настройку, прямую оптимизацию предпочтений и итеративную настройку самовоспроизведения. ReaderLM-v2 превосходит GPT-4o и другие более крупные модели на 15-20% по эталонным тестам, особенно преуспевая в работе с документами, превышающими 100 тысяч 词元 (Tokens), при этом сохраняя значительно более низкие вычислительные требования.
Основные выводы:
Модель с 1,5 миллиардами параметров превосходит GPT-4o и модели с 32 миллиардами параметров на 15-20% при извлечении HTML, доказывая, что специфическая для задач тонкая настройка превосходит необработанный масштаб для экспертных знаний в предметной области.
Модель генерирует свои собственные обучающие данные на этапе 4 "самовоспроизведение", создавая наборы данных лучше, чем курируемые человеком, и постоянно улучшая производительность посредством рекурсивной обратной связи.
Модель страдала от катастрофического повторения 词元 (Tokens) во время обучения, но добавление контрастивных потерь для стимулирования дискриминативных представлений полностью устранило эту проблему дегенерации.
tagTIPS: Предварительное обучение текста и изображений с учетом пространственной осведомленности
Модели видения и языка, обученные с использованием контрастного обучения, превосходно справляются с глобальным выравниванием изображений и текста, но терпят неудачу в задачах плотного пространственного понимания. TIPS сочетает в себе контрастное обучение с моделированием замаскированных изображений и использует синтетически сгенерированные подписи, кодирующие пространственные отношения, создавая 向量模型 (Embeddings), подходящие как для плотного, так и для глобального понимания без тонкой настройки для конкретной задачи. Подход демонстрирует, как пространственная осведомленность может быть включена в 向量模型 (embedding models) для лучшего понимания документов и приложений мультимодального поиска.
Основные выводы:
Синтетические подписи с пространственными описаниями предоставляют более богатые сигналы обучения, чем шумные веб-подписи, для обучения пространственно-осведомленным представлениям
Сочетание контрастного обучения изображений и текста с самоконтролируемыми целями устраняет разрыв между глобальным и плотным пониманием
Производительность "из коробки" в различных задачах устраняет необходимость в специализированной тонкой настройке для различных приложений компьютерного зрения
tagCut Cross-Entropy: Эффективное вычисление потерь с точки зрения памяти для больших словарей
Вычисление перекрестной энтропии доминирует в использовании памяти в языковых моделях с большим словарем, требуя материализации матриц логитов, пропорциональных batch_size × vocabulary_size. CCE переформулирует вычисление, чтобы вычислять только необходимые компоненты "на лету" с использованием пользовательских ядер CUDA, уменьшая потребление памяти с гигабайт до мегабайт, сохраняя при этом идентичную динамику обучения. Это позволяет обучать 向量模型 (embedding) и 重排器 (reranking) с большими словарями на ограниченном оборудовании, что особенно полезно для многоязычных и специфических для предметной области приложений.
Основные выводы:
Вычисление потерь перекрестной энтропии может потреблять 90% памяти при обучении моделей с большим словарем, становясь основным узким местом
Вычисление log-sum-exp терминов "на лету" устраняет необходимость материализации полных матриц логитов без математических приближений
Реализация пользовательского ядра обеспечивает значительное снижение объема памяти при сохранении точных свойств сходимости
tagFlexPrefill: Разреженное внимание с учетом контекста для длинных последовательностей
Логический вывод трансформера длинной последовательности страдает от квадратичной сложности внимания. FlexPrefill динамически определяет разреженные шаблоны внимания для каждой головы, используя дивергенцию Дженсена-Шеннона, и адаптивно распределяет вычислительный бюджет на основе кумулятивных оценок внимания, достигая значительного ускорения с минимальной потерей точности для различных типов контента. Этот метод обеспечивает эффективную обработку длинных документов для систем поиска и извлечения, позволяя небольшим языковым моделям (SLM) обрабатывать расширенные контексты для лучшего понимания документов.
Выводы:
Динамические разреженные шаблоны внимания, адаптированные к типу контента, превосходят стратегии фиксированной разреженности для различных характеристик ввода.
Адаптивное распределение бюджета для каждой головы на основе накопления оценок внимания оптимизирует распределение вычислений в режиме реального времени.
Учет контекста достигает 13,7-кратного ускорения с потерей точности 0,1%, не требуя переобучения модели.
tagЭффективное сжатие векторных представлений (Embeddings) после обучения посредством контроля температуры
Масштабирование температуры в контрастивном обучении значительно влияет на внутреннюю размерность изученных векторных представлений (Embeddings), при этом более низкие температуры производят более сжимаемые представления. В статье демонстрируется, что методы агрегации температуры могут уменьшить размерность векторного представления (Embedding) на порядок, сохраняя при этом производительность поиска, выявляя компромисс между эффективностью кластеризации и точностью поиска. Это обеспечивает эффективное развертывание систем плотного поиска, где ограничения памяти имеют решающее значение для производственных приложений.
Выводы:
Более низкие значения температуры в контрастивной тренировке производят векторные представления (Embeddings) с более низкой внутренней размерностью, которые более эффективно сжимаются.
Методы агрегации температуры достигают 10-кратного коэффициента сжатия с минимальным ухудшением качества в задачах поиска.
Систематический контроль температуры во время обучения предоставляет прямой механизм для оптимизации компромисса между сжатием и производительностью.
tagВнимание в больших языковых моделях (LLM) обеспечивает эффективные 重排器 (Reranker) с нулевым выстрелом
Внутриконтекстное 重排 (Reranking) (ICR) использует изменения в структуре внимания в LLM для выполнения 重排 (Reranking) документов без генерации текста, снижая вычислительную сложность с O(N log N) до O(1). Этот метод агрегирует веса внимания по слоям и головам для вычисления оценок релевантности, с калибровкой запросов без контента для смягчения смещений LLM. Этот подход позволяет эффективно 重排 (Reranking) с моделями с открытым весом, устраняя необходимость в специализированной тонкой настройке или дорогостоящих процессах генерации.
Выводы:
Структуры внимания в LLM содержат достаточно сигналов для эффективного 重排 (Reranking) документов без необходимости генерации текста.
Калибровка запросов без контента успешно смягчает внутренние смещения в механизмах оценки на основе внимания.
ICR достигает превосходной производительности и эффективности по сравнению с генеративными методами, особенно в сложных задачах поиска с несколькими переходами.
tagУстановление связей и моделирование корреляций в парных данных для прямой оптимизации предпочтений
Традиционный DPO страдает от слабой корреляции между выбранными и отклоненными ответами в парах предпочтений, что ограничивает эффективность согласования модели. BMC решает эту проблему путем синтеза псевдо-предпочтительных ответов, которые интерполируются между выигрышными и проигрышными ответами, а затем применяет моделирование корреляции на уровне 词元 (Tokens) с использованием уверенности модели политики. Двухфазный подход сначала преодолевает пары предпочтений посредством целенаправленных модификаций, а затем моделирует детализированные корреляции во время обучения для улучшения качества сигнала обучения.
Основные выводы:
Слабая корреляция между выбранными и отклоненными ответами в данных о предпочтениях значительно ограничивает эффективность DPO для согласования модели
Синтез псевдо-предпочтительных ответов в качестве интерполяций между парами предпочтений обеспечивает более богатые сигналы обучения для оптимизации
Моделирование корреляции на уровне 词元 (Tokens) с использованием уверенности политики динамически взвешивает сигналы обучения для захвата нюансированных вариаций в данных о предпочтениях
tagTAID: Временно-адаптивная интерполированная дистилляция для эффективной передачи знаний
Дистилляция знаний сталкивается с проблемами из-за разрывов в возможностях, усреднения режимов и коллапса режимов при передаче знаний между большими и маленькими моделями. TAID представляет динамического промежуточного учителя, который интерполирует распределения студента и учителя, постепенно адаптируя целевое распределение на основе прогресса обучения. Этот подход предотвращает коллапс режимов посредством теоретических гарантий и достигает превосходной производительности для моделей различных размеров, позволяя разрабатывать компактные, но способные языковые модели.
Основные выводы:
Динамические промежуточные учителя, которые адаптируются во время обучения, обеспечивают более плавные траектории обучения по сравнению с дистилляцией фиксированного учителя
TAID предотвращает коллапс режимов посредством адаптивной интерполяции, одновременно балансируя передачу знаний при различных разрывах в возможностях
Метод позволяет обучать современные компактные модели, не требуя специализированных архитектур или обширной настройки гиперпараметров
tagSVD-LLM: Усечение-ориентированное сингулярное разложение для сжатия больших языковых моделей
Существующие методы сжатия на основе SVD не учитывают входные активации во время приближения и не имеют тонкой настройки после усечения. SVD-LLM включает в себя усечение-ориентированное отбеливание данных, которое учитывает распределения активаций, и применяет тонкую настройку на основе LoRA после сжатия. Метод устанавливает теоретические связи между сингулярными числами и потерями сжатия, обеспечивая более принципиальные решения по сжатию, которые превосходят структурированную обрезку и подходы к квантованию.
Основные выводы:
Усечение-ориентированное отбеливание данных, которое учитывает входные активации, значительно повышает эффективность сжатия SVD по сравнению с методами, не зависящими от активации
Тонкая настройка LoRA после сжатия компенсирует ухудшение точности, сохраняя при этом преимущества факторизации низкого ранга
Теоретический анализ, связывающий сингулярные числа с потерями сжатия, обеспечивает принципиальные решения по усечению, которые превосходят эвристические подходы
tagВидеть то, что тебе говорят: Поглотитель визуального внимания в больших мультимодальных моделях
Большие мультимодальные модели демонстрируют феномен, называемый "визуальным поглотителем внимания", когда они последовательно выделяют высокие веса внимания определенным визуальным токенам, которые не имеют отношения к соответствующим текстовым токенам. Эти нерелевантные визуальные токены возникают из-за массивной активации в определенных измерениях скрытого состояния, аналогично поглотителям внимания в языковых моделях. Метод Visual Attention Redistribution (VAR) определяет ориентированные на изображение головки внимания и перераспределяет бюджет внимания от токенов-поглотителей к значимому визуальному контенту, улучшая производительность в задачах обработки языка и изображений без необходимости дополнительного обучения.
Основные выводы:
Визуальные токены-поглотители можно идентифицировать по экстремальным значениям активации в фиксированных измерениях, унаследованных от базовых языковых моделей
Удаление визуальных токенов-поглотителей не влияет на производительность модели, несмотря на получение высоких весов внимания, что указывает на нерациональное использование вычислительных ресурсов
VAR перераспределяет внимание от токенов-поглотителей к значимому визуальному контенту, улучшая производительность в общих задачах обработки языка и изображений, снижая галлюцинации и улучшая задачи, ориентированные на зрение
tagК семантической эквивалентности токенизации в мультимодальных LLM
Традиционные методы визуальной токенизации в мультимодальных LLM фрагментируют визуальный ввод с использованием фиксированных патчей, нарушая семантическую целостность и приводя к плохому выравниванию языка и изображений. SeTok (Semantic-Equivalent Vision Tokenizer) решает эту проблему с помощью динамической кластеризации, которая группирует визуальные признаки в согласованные семантические единицы, при этом количество токенов адаптируется к сложности изображения. Система использует двойные цели обучения: контрастное обучение для семантического выравнивания с языком и реконструктивное обучение для сохранения деталей на уровне пикселей для реконструкции изображения.
Основные выводы:
Токенизация с фиксированным патчем нарушает визуальную семантическую целостность, фрагментируя объекты по произвольным границам патчей
Алгоритмы динамической кластеризации могут адаптивно определять оптимальное количество токенов на основе семантической сложности изображения, а не фиксированных структур сетки
Обучение с двойной целью уравновешивает семантическое выравнивание с языком, сохраняя при этом достаточную визуальную детализацию для задач реконструкции
tagHymba: Гибридная архитектура голов для небольших языковых моделей
Hymba представляет гибридную архитектуру голов, которая объединяет механизмы внимания трансформера с моделями пространства состояний (SSM) параллельно внутри каждого слоя, обеспечивая одновременное припоминание с высоким разрешением и эффективное обобщение контекста. Архитектура включает в себя обучаемые мета-токены, кросс-слойное совместное использование ключей-значений и частичное скользящее окно внимания для достижения компактных размеров кеша. Hymba-1.5B превосходит все модели до 2B и превосходит Llama-3.2-3B, обеспечивая при этом уменьшение кеша в 11,67 раза и улучшение пропускной способности в 3,49 раза.
Основные выводы:
Параллельная гибридная архитектура голов превосходит последовательное стекирование компонентов внимания и SSM, позволяя одновременно обрабатывать дополнительные механизмы
Обучаемые мета-токены действуют как сжатые мировые знания и облегчают бремя «принудительного внимания» механизмов внимания softmax
Оптимизации кросс-слойного совместного использования ключей-значений и скользящего окна внимания позволяют значительно уменьшить размер кеша без ущерба для производительности