Новости
Модели
Продукты
keyboard_arrow_down
Читатель
Читайте URL-адреса и ищите информацию в Интернете для получения более подходящей подготовки для получения степени магистра права.
Вложения
Мультимодальные многоязычные вложения мирового класса.
Реранкер
Нейронный ретривер мирового класса для максимального повышения релевантности поиска.
Глубокий поиск
Ищите, читайте и рассуждайте, пока не найдете лучший ответ.
Более
keyboard_arrow_down
Классификатор
Классификация изображений и текста по нулевому и небольшому количеству кадров.
Сегментатор
Разрежьте длинный текст на куски и выполните токенизацию.

API-документы
Автоматическая генерация кода для вашего второго пилота IDE или LLM
open_in_new


Компания
keyboard_arrow_down
О нас
Связаться с отделом продаж
Стажерская программа
Присоединяйтесь к нам
open_in_new
Скачать логотип
open_in_new
Условия использования


Авторизоваться
login
Mitigate the Gap: Improving Cross-Modal Alignment in CLIP
jina-clip-v2: Многоязычные мультимодальные векторные представления (Embeddings) для текста и изображений
ReaderLM-V2: Малая языковая модель (SLM) для преобразования HTML в Markdown и JSON
TIPS: Предварительное обучение текста и изображений с учетом пространственной осведомленности
Cut Cross-Entropy: Эффективное вычисление потерь с точки зрения памяти для больших словарей
FlexPrefill: Разреженное внимание с учетом контекста для длинных последовательностей
Эффективное сжатие векторных представлений (Embeddings) после обучения посредством контроля температуры
Внимание в больших языковых моделях (LLM) обеспечивает эффективные 重排器 (Reranker) с нулевым выстрелом
Установление связей и моделирование корреляций в парных данных для прямой оптимизации предпочтений
TAID: Временно-адаптивная интерполированная дистилляция для эффективной передачи знаний
SVD-LLM: Усечение-ориентированное сингулярное разложение для сжатия больших языковых моделей
Видеть то, что тебе говорят: Поглотитель визуального внимания в больших мультимодальных моделях
К семантической эквивалентности токенизации в мультимодальных LLM
Hymba: Гибридная архитектура голов для небольших языковых моделей
Событие
май 25, 2025

Что мы узнали на ICLR2025

Мы собрали несколько наиболее интересных статей на ICLR 2025, посвященных TIPS, FlexPrefill, Zero-Shot Rerankers, SVD-LLM, Hymba и т. д.
Jina AI
Jina AI • 21 минуты чтения

ICLR 2025 — одна из крупнейших и самых влиятельных конференций по машинному обучению в мире, наряду с NeurIPS и ICML, являющаяся тремя главными площадками для высокоэффективных исследований в области ИИ. Этот год ознаменовал собой историческую веху, поскольку ICLR впервые прошла в Азии, в сингапурском выставочном центре EXPO с 24 по 28 апреля. Время было выбрано как нельзя лучше — всего через несколько месяцев после "момента DeepSeek" в конце января 2025 года, который потряс Силиконовую долину и продемонстрировал быстрое развитие исследований в области ИИ в Китае. В сочетании с новым китайско-сингапурским соглашением о 30-дневном взаимном безвизовом режиме, вступившим в силу в феврале 2024 года, мы стали свидетелями беспрецедентного роста числа участников конференции из Китая.

В этом году наша команда с воодушевлением отправилась в Сингапур, где Седиге Эслами, Андреас Кукунас, Ван Фэн и генеральный директор Хан Сяо представили три исследовательские работы, демонстрирующие наши последние исследования по jina-clip-v2 и ReaderLM-v2 для улучшения поиска. В то время как остальной мир ИИ, похоже, погряз в гонке вооружений за все более крупные модели, мы решили пойти против нормы, доказав, что меньшие, более умные модели могут быть намного эффективнее, если правильно спроектировать.

Итак, берите кофе, устраивайтесь поудобнее, и давайте рассмотрим некоторые интересные исследования ICLR, начиная с нашего собственного взгляда на то, почему малый размер может быть мощным.

tagMitigate the Gap: Improving Cross-Modal Alignment in CLIP

Mitigate the Gap: Investigating Approaches for Improving Cross-Modal Alignment in CLIP
Contrastive Language--Image Pre-training (CLIP) has manifested remarkable improvements in zero-shot classification and cross-modal vision-language tasks. Yet, from a geometrical point of view, the CLIP embedding space has been found to have a pronounced modality gap. This gap renders the embedding space overly sparse and disconnected, with different modalities being densely distributed in distinct subregions of the hypersphere. In this work, we aim at answering three main questions: 1. Does sharing the parameter space between the multi-modal encoders reduce the modality gap? 2. Can the gap be mitigated by pushing apart the uni-modal embeddings via intra-modality separation? 3. How do these gap reduction approaches affect the downstream performance? We design AlignCLIP, in order to answer these questions and through extensive experiments, we show that AlignCLIP achieves noticeable enhancements in the cross-modal alignment of the embeddings, and thereby, reduces the modality gap, while improving the performance across several zero-shot and fine-tuning downstream evaluations.
arXiv.orgSedigheh Eslami

Модели CLIP превосходно справляются с задачами обработки изображений и текста, но страдают от "модального разрыва" ("modality gap") — векторные представления (embeddings) изображений и текста кластеризуются в отдельных регионах, что ограничивает производительность. Эта работа, проведенная нашей стажеркой Седиге Эслами во время ее работы над докторской диссертацией в Институте Хассо Платтнера, решает эту фундаментальную проблему.

Мы обнаружили, что простой перенос векторов разрушает структуру векторных представлений (embedding). Вместо этого, AlignCLIP использует общие параметры энкодера с семантически регулируемыми целями разделения. Этот двойной подход успешно уменьшает модальный разрыв, повышая производительность в задачах zero-shot и fine-tuning.

Основные выводы:

  • Модальный разрыв является критическим узким местом в производительности CLIP
  • Совместное использование параметров + семантическое разделение эффективно устраняют модальные различия
  • Подход обеспечивает ощутимые улучшения при оценке downstream

tagjina-clip-v2: Многоязычные мультимодальные векторные представления (Embeddings) для текста и изображений

jina-clip-v2: Multilingual Multimodal Embeddings for Text and Images
Contrastive Language-Image Pretraining (CLIP) has been widely used for crossmodal information retrieval and multimodal understanding tasks. However, CLIP models are mainly optimized for crossmodal vision-language tasks and underperform in single-mode text tasks. Moreover, these models are often trained on English datasets and therefore lack multilingual understanding. Additionally, from a visual understanding perspective, previous CLIP-based models exhibit insufficient understanding of visually rich documents. In this work, we propose jina-clip-v2, a contrastive vision-language model trained on text pairs, triplets and image-text pairs via a multi-task and multi-stage contrastive learning paradigm in order to support both text-only and crossmodal tasks. We employ a multilingual text encoder and expand the training dataset to include multilingual texts from 29 non-English languages, including Hindi, Chinese, German, French, and others, as well as images of visually rich documents. We evaluate the model’s performance and show that jina-clip-v2 achieves notable improvements over state-of-the-art CLIP-based models in zero-shot text-only retrieval, semantic textual similarity, and crossmodal retrieval tasks in both English and multilingual settings. jina-clip-v2 also provides for flexibility in embedding dimensionality, enabling users to select the granularity of the representations. jina-clip-v2 is publicly available at https://huggingface.co/jinaai/jina-clip-v2.
arXiv.orgAndreas Koukounas

Это статья, лежащая в основе jina-clip-v2, многоязычной мультимодальной модели векторных представлений (embedding), которая поддерживает задачи, связанные только с текстом, и кросс-модальные задачи, используя многозадачный, многоэтапный подход контрастного обучения. Модель сочетает в себе текстовый энкодер (Jina XLM-RoBERTa, 561M параметров) и визуальный энкодер (EVA02-L14, 304M параметров), что в сумме составляет 865M параметров. Мы обучаем на многоязычных текстах из 29 неанглийских языков и визуально насыщенных документах, используя Matryoshka Representation Learning для гибкого определения размерности векторных представлений (embedding).

Основные выводы:

  • Смешивание данных изображения-текста и текста-текста в отдельных пакетах с общими параметрами температуры работает хуже, чем раздельное обучение, из-за асимметрии информации о модальности.
  • Обучение кросс-модальному выравниванию по своей сути ставит под угрозу качество векторных представлений (embedding) только текста, демонстрируя фундаментальный компромисс.
  • Сокращение размерности векторных представлений (embedding) с 1024 до 256 измерений приводит к потере производительности менее чем на 1%, что свидетельствует о значительной неэффективности высокоразмерных представлений.

tagReaderLM-V2: Малая языковая модель (SLM) для преобразования HTML в Markdown и JSON

ReaderLM-v2: Small Language Model for HTML to Markdown and JSON
We present ReaderLM-v2, a compact 1.5 billion parameter language model designed for efficient web content extraction. Our model processes documents up to 512K tokens, transforming messy HTML into clean Markdown or JSON formats with high accuracy -- making it an ideal tool for grounding large language models. The model’s effectiveness results from two key innovations: (1) a three-stage data synthesis pipeline that generates high quality, diverse training data by iteratively drafting, refining, and critiquing web content extraction; and (2) a unified training framework combining continuous pre-training with multi-objective optimization. Intensive evaluation demonstrates that ReaderLM-v2 outperforms GPT-4o-2024-08-06 and other larger models by 15-20\% on carefully curated benchmarks, particularly excelling at documents exceeding 100K tokens, while maintaining significantly lower computational requirements.
arXiv.orgFeng Wang

Это статья о ReaderLM-v2, компактной языковой модели с 1,5 миллиардами параметров, разработанной для эффективного извлечения веб-контента. Модель обрабатывает документы размером до 512 тысяч 词元 (Tokens), преобразуя грязный HTML в чистые форматы Markdown или JSON. Наш подход сочетает в себе трехэтапный конвейер синтеза данных (DRAFT-REFINE-CRITIQUE), который генерирует высококачественные обучающие данные посредством итеративной доработки, с унифицированной структурой обучения, сочетающей непрерывное предварительное обучение, контролируемую тонкую настройку, прямую оптимизацию предпочтений и итеративную настройку самовоспроизведения. ReaderLM-v2 превосходит GPT-4o и другие более крупные модели на 15-20% по эталонным тестам, особенно преуспевая в работе с документами, превышающими 100 тысяч 词元 (Tokens), при этом сохраняя значительно более низкие вычислительные требования.

Основные выводы:

  • Модель с 1,5 миллиардами параметров превосходит GPT-4o и модели с 32 миллиардами параметров на 15-20% при извлечении HTML, доказывая, что специфическая для задач тонкая настройка превосходит необработанный масштаб для экспертных знаний в предметной области.
  • Модель генерирует свои собственные обучающие данные на этапе 4 "самовоспроизведение", создавая наборы данных лучше, чем курируемые человеком, и постоянно улучшая производительность посредством рекурсивной обратной связи.
  • Модель страдала от катастрофического повторения 词元 (Tokens) во время обучения, но добавление контрастивных потерь для стимулирования дискриминативных представлений полностью устранило эту проблему дегенерации.

tagTIPS: Предварительное обучение текста и изображений с учетом пространственной осведомленности

TIPS: Предварительное обучение текста и изображений с учетом пространственной осведомленности
В то время как обучение представлению изображений и текста стало очень популярным в последние годы, существующим моделям, как правило, не хватает пространственной осведомленности, и они имеют ограниченную прямую применимость для задач плотного понимания. По этой причине самообучение только на изображениях по-прежнему является основным методом для многих задач плотного видения (например, оценка глубины, семантическая сегментация), несмотря на отсутствие явных контрольных сигналов. В этой статье мы устраняем этот разрыв между обучением изображений и текста и самообучением, предлагая новую универсальную модель изображений и текста, которая может быть эффективно использована "из коробки" для задач плотного и глобального видения. Наш метод, который мы называем предварительным обучением текста и изображений с пространственной осведомленностью (TIPS), использует два простых и эффективных подхода. Во-первых, в отношении текстового контроля: мы показываем, что замена шумных веб-подписей к изображениям синтетически сгенерированными текстовыми описаниями значительно повышает производительность плотного понимания из-за гораздо более богатого сигнала для обучения пространственно осведомленным представлениям. Мы предлагаем адаптированный метод обучения, который сочетает в себе шумные и синтетические подписи, что приводит к улучшениям как в задачах плотного, так и в задачах глобального понимания. Во-вторых, в отношении техники обучения: мы предлагаем объединить контрастное обучение изображений и текста с самообучающимся моделированием замаскированных изображений, чтобы стимулировать пространственную согласованность, открывая существенные улучшения для последующих приложений. Основываясь на этих двух идеях, мы масштабируем нашу модель с использованием архитектуры transformer, обученной на курируемом наборе общедоступных изображений. Наши эксперименты проводятся на 8 задачах, включающих в общей сложности 16 наборов данных, демонстрируя высокую производительность "из коробки" как в задачах плотного, так и в задачах глобального понимания для нескольких задач только с изображениями и изображениями и текстом. Код и модели выпущены по адресу https://github.com/google-deepmind/tips.
arXiv.orgKevis-Kokitsi Maninis

Модели видения и языка, обученные с использованием контрастного обучения, превосходно справляются с глобальным выравниванием изображений и текста, но терпят неудачу в задачах плотного пространственного понимания. TIPS сочетает в себе контрастное обучение с моделированием замаскированных изображений и использует синтетически сгенерированные подписи, кодирующие пространственные отношения, создавая 向量模型 (Embeddings), подходящие как для плотного, так и для глобального понимания без тонкой настройки для конкретной задачи. Подход демонстрирует, как пространственная осведомленность может быть включена в 向量模型 (embedding models) для лучшего понимания документов и приложений мультимодального поиска.

Основные выводы:

  • Синтетические подписи с пространственными описаниями предоставляют более богатые сигналы обучения, чем шумные веб-подписи, для обучения пространственно-осведомленным представлениям
  • Сочетание контрастного обучения изображений и текста с самоконтролируемыми целями устраняет разрыв между глобальным и плотным пониманием
  • Производительность "из коробки" в различных задачах устраняет необходимость в специализированной тонкой настройке для различных приложений компьютерного зрения

tagCut Cross-Entropy: Эффективное вычисление потерь с точки зрения памяти для больших словарей

Сократите свои потери в языковых моделях с большим словарем
По мере того как языковые модели становятся все больше, увеличиваются и их словари. Это сместило объем памяти 大模型 (LLM) во время обучения непропорционально в один слой: перекрестную энтропию при вычислении потерь. Перекрестная энтропия создает матрицу логитов с записями для каждой пары входных 词元 (Tokens) и словарных элементов и для небольших моделей потребляет на порядок больше памяти, чем остальная часть 大模型 (LLM) вместе взятая. Мы предлагаем Cut Cross-Entropy (CCE), метод, который вычисляет потери перекрестной энтропии без материализации логитов для всех 词元 (Tokens) в глобальной памяти. Вместо этого CCE вычисляет логит только для правильного 词元 (Token) и оценивает log-sum-exp по всем логитам "на лету". Мы реализуем пользовательское ядро, которое выполняет матричные умножения и уменьшение log-sum-exp по словарю во флэш-памяти, делая потребление глобальной памяти для вычисления перекрестной энтропии незначительным. Это имеет драматический эффект. Взяв в качестве примера модель Gemma 2 (2B), CCE снижает объем памяти, занимаемой вычислением потерь, с 24 ГБ до 1 МБ, а общее потребление памяти классификатора во время обучения - с 28 ГБ до 1 ГБ. Чтобы повысить пропускную способность CCE, мы используем присущую softmax разреженность и предлагаем пропускать элементы вычисления градиента, которые вносят незначительный (т.е. ниже численной точности) вклад в градиент. Эксперименты показывают, что значительное сокращение потребления памяти достигается без ущерба для скорости обучения или сходимости.
arXiv.orgErik Wijmans

Вычисление перекрестной энтропии доминирует в использовании памяти в языковых моделях с большим словарем, требуя материализации матриц логитов, пропорциональных batch_size × vocabulary_size. CCE переформулирует вычисление, чтобы вычислять только необходимые компоненты "на лету" с использованием пользовательских ядер CUDA, уменьшая потребление памяти с гигабайт до мегабайт, сохраняя при этом идентичную динамику обучения. Это позволяет обучать 向量模型 (embedding) и 重排器 (reranking) с большими словарями на ограниченном оборудовании, что особенно полезно для многоязычных и специфических для предметной области приложений.

Основные выводы:

  • Вычисление потерь перекрестной энтропии может потреблять 90% памяти при обучении моделей с большим словарем, становясь основным узким местом
  • Вычисление log-sum-exp терминов "на лету" устраняет необходимость материализации полных матриц логитов без математических приближений
  • Реализация пользовательского ядра обеспечивает значительное снижение объема памяти при сохранении точных свойств сходимости

tagFlexPrefill: Разреженное внимание с учетом контекста для длинных последовательностей

FlexPrefill: Механизм разреженного внимания с учетом контекста для эффективного вывода длинных последовательностей
Большие языковые модели (LLM) сталкиваются с вычислительными трудностями во время логического вывода длинных последовательностей, особенно на этапе предварительного заполнения внимания, где сложность растет квадратично с длиной запроса (Prompt). Предыдущие усилия по смягчению этих проблем опирались на фиксированные разреженные шаблоны внимания или выявление разреженных шаблонов внимания на основе ограниченных случаев. Однако этим методам не хватало гибкости для эффективной адаптации к различным требованиям ввода. В этой статье мы представляем FlexPrefill, гибкий механизм разреженного предварительного заполнения, который динамически регулирует разреженные шаблоны внимания и вычислительный бюджет в режиме реального времени, чтобы соответствовать конкретным требованиям каждого ввода и каждой головы внимания. Гибкость нашего метода демонстрируется двумя ключевыми нововведениями: 1) Определение разреженного шаблона с учетом запроса: измеряя дивергенцию Дженсена-Шеннона, этот компонент адаптивно переключается между разнообразными шаблонами внимания, специфичными для запроса, и предопределенными шаблонами внимания. 2) Выбор индекса на основе кумулятивного внимания: этот компонент динамически выбирает индексы «запрос-ключ» для вычисления на основе различных шаблонов внимания, гарантируя, что сумма оценок внимания соответствует предопределенному порогу. FlexPrefill адаптивно оптимизирует разреженный шаблон и коэффициент разреженности каждой головы внимания на основе запроса, повышая эффективность задач логического вывода длинных последовательностей. Экспериментальные результаты показывают значительные улучшения как в скорости, так и в точности по сравнению с предыдущими методами, предоставляя более гибкое и эффективное решение для логического вывода LLM.
arXiv.orgXunhao Lai

Логический вывод трансформера длинной последовательности страдает от квадратичной сложности внимания. FlexPrefill динамически определяет разреженные шаблоны внимания для каждой головы, используя дивергенцию Дженсена-Шеннона, и адаптивно распределяет вычислительный бюджет на основе кумулятивных оценок внимания, достигая значительного ускорения с минимальной потерей точности для различных типов контента. Этот метод обеспечивает эффективную обработку длинных документов для систем поиска и извлечения, позволяя небольшим языковым моделям (SLM) обрабатывать расширенные контексты для лучшего понимания документов.

Выводы:

  • Динамические разреженные шаблоны внимания, адаптированные к типу контента, превосходят стратегии фиксированной разреженности для различных характеристик ввода.
  • Адаптивное распределение бюджета для каждой головы на основе накопления оценок внимания оптимизирует распределение вычислений в режиме реального времени.
  • Учет контекста достигает 13,7-кратного ускорения с потерей точности 0,1%, не требуя переобучения модели.

tagЭффективное сжатие векторных представлений (Embeddings) после обучения посредством контроля температуры

Effective post-training embedding compression via temperature...
Fixed-size learned representations (dense representations, or embeddings) are widely used in many machine learning applications across language, vision or speech modalities. This paper investigates…
OpenReview.netGeorgiana Dinu

Масштабирование температуры в контрастивном обучении значительно влияет на внутреннюю размерность изученных векторных представлений (Embeddings), при этом более низкие температуры производят более сжимаемые представления. В статье демонстрируется, что методы агрегации температуры могут уменьшить размерность векторного представления (Embedding) на порядок, сохраняя при этом производительность поиска, выявляя компромисс между эффективностью кластеризации и точностью поиска. Это обеспечивает эффективное развертывание систем плотного поиска, где ограничения памяти имеют решающее значение для производственных приложений.

Выводы:

  • Более низкие значения температуры в контрастивной тренировке производят векторные представления (Embeddings) с более низкой внутренней размерностью, которые более эффективно сжимаются.
  • Методы агрегации температуры достигают 10-кратного коэффициента сжатия с минимальным ухудшением качества в задачах поиска.
  • Систематический контроль температуры во время обучения предоставляет прямой механизм для оптимизации компромисса между сжатием и производительностью.

tagВнимание в больших языковых моделях (LLM) обеспечивает эффективные 重排器 (Reranker) с нулевым выстрелом

Attention in Large Language Models Yields Efficient Zero-Shot Re-Rankers
Information retrieval (IR) systems have played a vital role in modern digital life and have cemented their continued usefulness in this new era of generative AI via retrieval-augmented generation. With strong language processing capabilities and remarkable versatility, large language models (LLMs) have become popular choices for zero-shot re-ranking in IR systems. So far, LLM-based re-ranking methods rely on strong generative capabilities, which restricts their use to either specialized or powerful proprietary models. Given these restrictions, we ask: is autoregressive generation necessary and optimal for LLMs to perform re-ranking? We hypothesize that there are abundant signals relevant to re-ranking within LLMs that might not be used to their full potential via generation. To more directly leverage such signals, we propose in-context re-ranking (ICR), a novel method that leverages the change in attention pattern caused by the search query for accurate and efficient re-ranking. To mitigate the intrinsic biases in LLMs, we propose a calibration method using a content-free query. Due to the absence of generation, ICR only requires two (O(1)O(1)O(1)) forward passes to re-rank NNN documents, making it substantially more efficient than generative re-ranking methods that require at least O(N)O(N)O(N) forward passes. Our novel design also enables ICR to be applied to any LLM without specialized training while guaranteeing a well-formed ranking. Extensive experiments with two popular open-weight LLMs on standard single-hop and multi-hop information retrieval benchmarks show that ICR outperforms RankGPT while cutting the latency by more than 60% in practice. Through detailed analyses, we show that ICR’s performance is specially strong on tasks that require more complex re-ranking signals. Our findings call for further exploration on novel ways of utilizing open-weight LLMs beyond text generation.
arXiv.orgShijie Chen

Внутриконтекстное 重排 (Reranking) (ICR) использует изменения в структуре внимания в LLM для выполнения 重排 (Reranking) документов без генерации текста, снижая вычислительную сложность с O(N log N) до O(1). Этот метод агрегирует веса внимания по слоям и головам для вычисления оценок релевантности, с калибровкой запросов без контента для смягчения смещений LLM. Этот подход позволяет эффективно 重排 (Reranking) с моделями с открытым весом, устраняя необходимость в специализированной тонкой настройке или дорогостоящих процессах генерации.

Выводы:

  • Структуры внимания в LLM содержат достаточно сигналов для эффективного 重排 (Reranking) документов без необходимости генерации текста.
  • Калибровка запросов без контента успешно смягчает внутренние смещения в механизмах оценки на основе внимания.
  • ICR достигает превосходной производительности и эффективности по сравнению с генеративными методами, особенно в сложных задачах поиска с несколькими переходами.

tagУстановление связей и моделирование корреляций в парных данных для прямой оптимизации предпочтений

Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization
Прямая оптимизация предпочтений (DPO), широко используемый алгоритм оптимизации офлайн-предпочтений, направлена на согласование больших языковых моделей (LLM) с желаемым поведением человека с использованием парных данных о предпочтениях. Однако генерация выигрышного и проигрышного ответов в парных данных обычно изолирована, что приводит к слабой корреляции между ними, а также к субоптимальной производительности согласования. Для решения этой проблемы мы предлагаем эффективную структуру для преодоления и моделирования корреляций в парных данных, под названием BMC. Во-первых, мы повышаем согласованность и информативность парных сигналов предпочтений посредством целенаправленных модификаций, синтезируя псевдо-выигрышный ответ путем улучшения проигрышного ответа с выигрышным ответом в качестве эталона. Во-вторых, мы определили, что одного DPO недостаточно для моделирования этих корреляций и захвата нюансированных вариаций. Поэтому мы предлагаем изучать корреляции на уровне 词元 (Tokens) путем динамического использования уверенности модели политики во время обучения. Всесторонние эксперименты по задачам QA, математике и следованию инструкциям демонстрируют эффективность нашего подхода, значительно превосходя конкурентные базовые показатели, включая DPO. Кроме того, наш углубленный количественный анализ выявляет причины превосходной производительности нашего метода по сравнению с DPO и демонстрирует его универсальность по отношению к другим вариантам DPO. Мы публикуем наш репозиторий по адресу https://github.com/YJiangcm/BMC.
arXiv.orgYuxin Jiang

Традиционный DPO страдает от слабой корреляции между выбранными и отклоненными ответами в парах предпочтений, что ограничивает эффективность согласования модели. BMC решает эту проблему путем синтеза псевдо-предпочтительных ответов, которые интерполируются между выигрышными и проигрышными ответами, а затем применяет моделирование корреляции на уровне 词元 (Tokens) с использованием уверенности модели политики. Двухфазный подход сначала преодолевает пары предпочтений посредством целенаправленных модификаций, а затем моделирует детализированные корреляции во время обучения для улучшения качества сигнала обучения.

Основные выводы:

  • Слабая корреляция между выбранными и отклоненными ответами в данных о предпочтениях значительно ограничивает эффективность DPO для согласования модели
  • Синтез псевдо-предпочтительных ответов в качестве интерполяций между парами предпочтений обеспечивает более богатые сигналы обучения для оптимизации
  • Моделирование корреляции на уровне 词元 (Tokens) с использованием уверенности политики динамически взвешивает сигналы обучения для захвата нюансированных вариаций в данных о предпочтениях

tagTAID: Временно-адаптивная интерполированная дистилляция для эффективной передачи знаний

TAID: Временно-адаптивная интерполированная дистилляция для эффективной передачи знаний в языковых моделях
Каузальные языковые модели продемонстрировали замечательные возможности, но их размер создает значительные проблемы для развертывания в средах с ограниченными ресурсами. Дистилляция знаний, широко используемый метод передачи знаний от большой обучающей модели к маленькой студенческой модели, представляет собой перспективный подход к сжатию модели. Значительная оставшаяся проблема заключается в основных различиях между обучающей и студенческой моделями, а именно в существенном разрыве в возможностях, усреднении режимов и коллапсе режимов, которые создают барьеры во время дистилляции. Для решения этих проблем мы представляем Временно-адаптивную интерполированную дистилляцию (TAID)\textit{Временно-адаптивную интерполированную дистилляцию (TAID)}Временно-адаптивную интерполированную дистилляцию (TAID), новый подход к дистилляции знаний, который динамически интерполирует распределения студента и учителя через адаптивное промежуточное распределение, постепенно переходя от начального распределения студента к распределению учителя. Мы предоставляем теоретический анализ, демонстрирующий способность TAID предотвращать коллапс режимов, и эмпирически показываем его эффективность в решении проблемы разрыва в возможностях при одновременной балансировке усреднения режимов и коллапса режимов. Наши всесторонние эксперименты демонстрируют превосходную производительность TAID для моделей различных размеров и архитектур как в настройке инструкций, так и в сценариях предварительного обучения. Кроме того, мы демонстрируем практическое влияние TAID, разрабатывая две современные компактные базовые модели: TAID-LLM-1.5B\texttt{TAID-LLM-1.5B}TAID-LLM-1.5B для языковых задач и TAID-VLM-2B\texttt{TAID-VLM-2B}TAID-VLM-2B для задач обработки визуальной информации. Эти результаты демонстрируют эффективность TAID в создании высокопроизводительных и эффективных моделей, продвигая разработку более доступных технологий искусственного интеллекта.
arXiv.orgMakoto Shing

Дистилляция знаний сталкивается с проблемами из-за разрывов в возможностях, усреднения режимов и коллапса режимов при передаче знаний между большими и маленькими моделями. TAID представляет динамического промежуточного учителя, который интерполирует распределения студента и учителя, постепенно адаптируя целевое распределение на основе прогресса обучения. Этот подход предотвращает коллапс режимов посредством теоретических гарантий и достигает превосходной производительности для моделей различных размеров, позволяя разрабатывать компактные, но способные языковые модели.

Основные выводы:

  • Динамические промежуточные учителя, которые адаптируются во время обучения, обеспечивают более плавные траектории обучения по сравнению с дистилляцией фиксированного учителя
  • TAID предотвращает коллапс режимов посредством адаптивной интерполяции, одновременно балансируя передачу знаний при различных разрывах в возможностях
  • Метод позволяет обучать современные компактные модели, не требуя специализированных архитектур или обширной настройки гиперпараметров

tagSVD-LLM: Усечение-ориентированное сингулярное разложение для сжатия больших языковых моделей

SVD-LLM: Усечение-ориентированное сингулярное разложение для сжатия больших языковых моделей
Развитие больших языковых моделей (LLM) сдерживается их значительными размерами, что требует методов сжатия LLM для практического развертывания. Сингулярное разложение (SVD) предлагает многообещающее решение для сжатия LLM. Однако современные методы сжатия LLM на основе SVD имеют два ключевых ограничения: усечение меньших сингулярных чисел может привести к более высоким потерям сжатия, а также отсутствие обновления сжатых весов после усечения SVD. В этой работе мы предлагаем SVD-LLM, метод сжатия LLM после обучения на основе SVD, который решает ограничения существующих методов. SVD-LLM включает в себя технику усечения-ориентированного отбеливания данных, чтобы обеспечить прямое сопоставление между сингулярными числами и потерями сжатия. Кроме того, SVD-LLM использует обновление параметров с последовательным приближением низкого ранга, чтобы компенсировать ухудшение точности после сжатия SVD. Мы оцениваем SVD-LLM на 10 наборах данных и семи моделях из трех различных семейств LLM в трех различных масштабах. Наши результаты демонстрируют превосходство SVD-LLM над современными методами, особенно при высоких коэффициентах сжатия модели. Наш код доступен по адресу https://github.com/AIoT-MLSys-Lab/SVD-LLM
arXiv.orgXin Wang

Существующие методы сжатия на основе SVD не учитывают входные активации во время приближения и не имеют тонкой настройки после усечения. SVD-LLM включает в себя усечение-ориентированное отбеливание данных, которое учитывает распределения активаций, и применяет тонкую настройку на основе LoRA после сжатия. Метод устанавливает теоретические связи между сингулярными числами и потерями сжатия, обеспечивая более принципиальные решения по сжатию, которые превосходят структурированную обрезку и подходы к квантованию.

Основные выводы:

  • Усечение-ориентированное отбеливание данных, которое учитывает входные активации, значительно повышает эффективность сжатия SVD по сравнению с методами, не зависящими от активации
  • Тонкая настройка LoRA после сжатия компенсирует ухудшение точности, сохраняя при этом преимущества факторизации низкого ранга
  • Теоретический анализ, связывающий сингулярные числа с потерями сжатия, обеспечивает принципиальные решения по усечению, которые превосходят эвристические подходы

tagВидеть то, что тебе говорят: Поглотитель визуального внимания в больших мультимодальных моделях

Видеть то, что тебе говорят: Поглотитель визуального внимания в больших мультимодальных моделях
Большие мультимодальные модели (LMM) "видят" изображения, используя механизм внимания между текстом и визуальными токенами в декодере-трансформере. В идеале, эти модели должны фокусироваться на ключевой визуальной информации, относящейся к текстовому токену. Однако недавние исследования показывают, что LMM обладают необычайной тенденцией последовательно выделять высокие веса внимания определенным визуальным токенам, даже когда эти токены не имеют отношения к соответствующему тексту. В этом исследовании мы изучаем свойство, лежащее в основе появления этих нерелевантных визуальных токенов, и изучаем их характеристики. Наши результаты показывают, что такое поведение возникает из-за массивной активации определенных измерений скрытого состояния, что напоминает поглотитель внимания, обнаруженный в языковых моделях. Следовательно, мы называем это явление визуальным поглотителем внимания. В частности, наш анализ показывает, что удаление нерелевантных визуальных токенов-поглотителей не влияет на производительность модели, несмотря на получение высоких весов внимания. Следовательно, мы перерабатываем внимание к этим токенам как избыточные ресурсы, перераспределяя бюджет внимания для усиления фокуса на изображении. Для достижения этой цели мы представляем Visual Attention Redistribution (VAR), метод, который перераспределяет внимание в ориентированных на изображение головах, которые мы определяем как изначально ориентированные на визуальную информацию. VAR можно легко применять в различных LMM для повышения производительности в широком спектре задач, включая общие задачи обработки языка и изображений, задачи визуальных галлюцинаций и задачи, ориентированные на зрение, и все это без необходимости дополнительного обучения, моделей или этапов вывода. Экспериментальные результаты показывают, что VAR позволяет LMM более эффективно обрабатывать визуальную информацию, корректируя свои внутренние механизмы внимания, предлагая новое направление для улучшения мультимодальных возможностей LMM.
arXiv.orgSeil Kang

Большие мультимодальные модели демонстрируют феномен, называемый "визуальным поглотителем внимания", когда они последовательно выделяют высокие веса внимания определенным визуальным токенам, которые не имеют отношения к соответствующим текстовым токенам. Эти нерелевантные визуальные токены возникают из-за массивной активации в определенных измерениях скрытого состояния, аналогично поглотителям внимания в языковых моделях. Метод Visual Attention Redistribution (VAR) определяет ориентированные на изображение головки внимания и перераспределяет бюджет внимания от токенов-поглотителей к значимому визуальному контенту, улучшая производительность в задачах обработки языка и изображений без необходимости дополнительного обучения.

Основные выводы:

  • Визуальные токены-поглотители можно идентифицировать по экстремальным значениям активации в фиксированных измерениях, унаследованных от базовых языковых моделей
  • Удаление визуальных токенов-поглотителей не влияет на производительность модели, несмотря на получение высоких весов внимания, что указывает на нерациональное использование вычислительных ресурсов
  • VAR перераспределяет внимание от токенов-поглотителей к значимому визуальному контенту, улучшая производительность в общих задачах обработки языка и изображений, снижая галлюцинации и улучшая задачи, ориентированные на зрение

tagК семантической эквивалентности токенизации в мультимодальных LLM

К семантической эквивалентности токенизации в мультимодальных LLM
Мультимодальные большие языковые модели (MLLM) продемонстрировали исключительные возможности в обработке задач обработки языка и изображений. Одним из важнейших аспектов MLLM является визуальная токенизация, которая включает в себя эффективное преобразование входных визуальных сигналов в представления признаков, которые наиболее полезны для LLM. Однако существующие визуальные токенизаторы, необходимые для семантического выравнивания между зрением и языком, остаются проблематичными. Существующие методы агрессивно фрагментируют визуальный ввод, нарушая визуальную семантическую целостность. Чтобы решить эту проблему, в этой статье предлагается новый динамический Semantic-Equivalent Vision Tokenizer (SeTok), который группирует визуальные признаки в семантические единицы с помощью динамического алгоритма кластеризации, гибко определяя количество токенов на основе сложности изображения. Полученные визуальные токены эффективно сохраняют семантическую целостность и захватывают как низкочастотные, так и высокочастотные визуальные признаки. Предлагаемая MLLM (Setokim), оснащенная SeTok, значительно демонстрирует превосходную производительность в различных задачах, о чем свидетельствуют наши экспериментальные результаты. Страница проекта находится по адресу https://chocowu.github.io/SeTok-web/.
arXiv.orgShengqiong Wu

Традиционные методы визуальной токенизации в мультимодальных LLM фрагментируют визуальный ввод с использованием фиксированных патчей, нарушая семантическую целостность и приводя к плохому выравниванию языка и изображений. SeTok (Semantic-Equivalent Vision Tokenizer) решает эту проблему с помощью динамической кластеризации, которая группирует визуальные признаки в согласованные семантические единицы, при этом количество токенов адаптируется к сложности изображения. Система использует двойные цели обучения: контрастное обучение для семантического выравнивания с языком и реконструктивное обучение для сохранения деталей на уровне пикселей для реконструкции изображения.

Основные выводы:

  • Токенизация с фиксированным патчем нарушает визуальную семантическую целостность, фрагментируя объекты по произвольным границам патчей
  • Алгоритмы динамической кластеризации могут адаптивно определять оптимальное количество токенов на основе семантической сложности изображения, а не фиксированных структур сетки
  • Обучение с двойной целью уравновешивает семантическое выравнивание с языком, сохраняя при этом достаточную визуальную детализацию для задач реконструкции

tagHymba: Гибридная архитектура голов для небольших языковых моделей

Hymba: Гибридная архитектура голов для небольших языковых моделей
Мы предлагаем Hymba, семейство небольших языковых моделей, характеризующихся гибридной параллельной архитектурой голов, которая объединяет механизмы внимания трансформера с моделями пространства состояний (SSM) для повышения эффективности. Головки внимания обеспечивают высокое разрешение припоминания, в то время как головки SSM обеспечивают эффективное обобщение контекста. Кроме того, мы представляем обучаемые мета-токены, которые добавляются к подсказкам, храня критическую информацию и облегчая бремя «принудительного внимания», связанное с механизмами внимания. Эта модель дополнительно оптимизирована за счет включения кросс-слойного совместного использования ключей-значений (KV) и частичного скользящего окна внимания, что приводит к компактному размеру кеша. В ходе разработки мы провели контролируемое исследование, сравнивающее различные архитектуры в идентичных условиях, и наблюдали значительные преимущества предложенной нами архитектуры. Примечательно, что Hymba достигает самых современных результатов для небольших LM: Наша модель Hymba-1.5B-Base превосходит все общедоступные модели до 2B по производительности и даже превосходит Llama-3.2-3B со средней точностью на 1,32% выше, уменьшением размера кеша в 11,67 раза и пропускной способностью в 3,49 раза.
arXiv.orgXin Dong

Hymba представляет гибридную архитектуру голов, которая объединяет механизмы внимания трансформера с моделями пространства состояний (SSM) параллельно внутри каждого слоя, обеспечивая одновременное припоминание с высоким разрешением и эффективное обобщение контекста. Архитектура включает в себя обучаемые мета-токены, кросс-слойное совместное использование ключей-значений и частичное скользящее окно внимания для достижения компактных размеров кеша. Hymba-1.5B превосходит все модели до 2B и превосходит Llama-3.2-3B, обеспечивая при этом уменьшение кеша в 11,67 раза и улучшение пропускной способности в 3,49 раза.

Основные выводы:

  • Параллельная гибридная архитектура голов превосходит последовательное стекирование компонентов внимания и SSM, позволяя одновременно обрабатывать дополнительные механизмы
  • Обучаемые мета-токены действуют как сжатые мировые знания и облегчают бремя «принудительного внимания» механизмов внимания softmax
  • Оптимизации кросс-слойного совместного использования ключей-значений и скользящего окна внимания позволяют значительно уменьшить размер кеша без ущерба для производительности
Категории:
Событие
rss_feed
Офисы
location_on
Саннивейл, Калифорния
710 Lakeway Dr, Ste 200, Саннивейл, Калифорния 94085, США
location_on
Берлин, Германия (штаб-квартира)
Prinzessinnenstraße 19-20, 10969 Берлин, Германия
location_on
Пекин, Китай
Уровень 5, здание 6, ул. Хайдянь Вест, д. 48, Пекин, Китай
location_on
Шэньчжэнь, Китай
402, этаж 4, здание Fu'an Technology, Шэньчжэнь, Китай
Поиск Фонда
Читатель
Вложения
Реранкер
Глубокий поиск
Классификатор
Сегментатор
API-документация
Получить API-ключ Jina
Ограничение скорости
Статус API
Компания
О нас
Связаться с отделом продаж
отдел новостей
Стажерская программа
Присоединяйтесь к нам
open_in_new
Скачать логотип
open_in_new
Условия
Безопасность
Условия использования
Конфиденциальность
Управление файлами cookie
email
Jina AI © 2020-2025.