我们在 ICLR2025 上学到了什么

ICLR 2025是全球最大、最具影响力的机器学习会议之一，与NeurIPS和ICML并列为三大顶级AI研究场所。今年标志着一个历史性的里程碑，ICLR首次在亚洲举办，于4月24日至28日在新加坡博览中心举行。时机再好不过了——就在2025年1月下旬“DeepSeek时刻”震撼硅谷，并展示了中国迅速发展的AI研究之后几个月。再加上2024年2月生效的中新30天互免签证协议，我们目睹了参加会议的中国人数空前激增。

今年，我们的团队很高兴前往新加坡，Sedigheh Eslami、Andreas Koukounas、Wang Feng和CEO Han Xiao展示了三篇研究论文，展示了我们在jina-clip-v2和ReaderLM-v2上为实现更好搜索而进行的最新研究。当AI世界的其他地方似乎都陷入了对越来越大的模型的军备竞赛时，我们决定反其道而行之——证明当你的设计正确时，更小、更智能的模型可以发挥更大的作用。

所以，拿起你的咖啡，舒服地坐下，让我们一起探索一些我们觉得有趣的ICLR研究——首先是我们自己关于为什么小即是强大的看法。

Mitigate the Gap: Investigating Approaches for Improving Cross-Modal Alignment in CLIP

Contrastive Language--Image Pre-training (CLIP) has manifested remarkable improvements in zero-shot classification and cross-modal vision-language tasks. Yet, from a geometrical point of view, the CLIP embedding space has been found to have a pronounced modality gap. This gap renders the embedding space overly sparse and disconnected, with different modalities being densely distributed in distinct subregions of the hypersphere. In this work, we aim at answering three main questions: 1. Does sharing the parameter space between the multi-modal encoders reduce the modality gap? 2. Can the gap be mitigated by pushing apart the uni-modal embeddings via intra-modality separation? 3. How do these gap reduction approaches affect the downstream performance? We design AlignCLIP, in order to answer these questions and through extensive experiments, we show that AlignCLIP achieves noticeable enhancements in the cross-modal alignment of the embeddings, and thereby, reduces the modality gap, while improving the performance across several zero-shot and fine-tuning downstream evaluations.

arXiv.orgSedigheh Eslami

CLIP模型擅长图像-文本任务，但存在“模态差距 (modality gap)”——图像和文本的向量模型 (embeddings)聚集在不同的区域，限制了性能。这项工作由我们的实习生Sedigheh Eslami在哈索·普拉特纳研究所攻读博士学位期间领导，旨在解决这个根本问题。

我们发现简单的向量平移会破坏向量模型 (embedding)结构。相反，AlignCLIP使用共享编码器参数和语义正则化的分离目标。这种双重方法成功地缩小了模态差距 (modality gap)，同时提高了零样本和微调任务的性能。

要点：

模态差距 (modality gap)是CLIP性能的关键瓶颈
参数共享+语义分离有效地弥合了模态差异
该方法在下游评估中带来了可衡量的收益

tagjina-clip-v2：用于文本和图像的多语言多模态向量模型 (Embeddings)

jina-clip-v2: Multilingual Multimodal Embeddings for Text and Images

Contrastive Language-Image Pretraining (CLIP) has been widely used for crossmodal information retrieval and multimodal understanding tasks. However, CLIP models are mainly optimized for crossmodal vision-language tasks and underperform in single-mode text tasks. Moreover, these models are often trained on English datasets and therefore lack multilingual understanding. Additionally, from a visual understanding perspective, previous CLIP-based models exhibit insufficient understanding of visually rich documents. In this work, we propose jina-clip-v2, a contrastive vision-language model trained on text pairs, triplets and image-text pairs via a multi-task and multi-stage contrastive learning paradigm in order to support both text-only and crossmodal tasks. We employ a multilingual text encoder and expand the training dataset to include multilingual texts from 29 non-English languages, including Hindi, Chinese, German, French, and others, as well as images of visually rich documents. We evaluate the model’s performance and show that jina-clip-v2 achieves notable improvements over state-of-the-art CLIP-based models in zero-shot text-only retrieval, semantic textual similarity, and crossmodal retrieval tasks in both English and multilingual settings. jina-clip-v2 also provides for flexibility in embedding dimensionality, enabling users to select the granularity of the representations. jina-clip-v2 is publicly available at https://huggingface.co/jinaai/jina-clip-v2.

arXiv.orgAndreas Koukounas

这是jina-clip-v2背后的论文，它是一种多语言多模态向量模型 (embedding)，使用多任务、多阶段对比学习方法，支持纯文本和跨模态任务。该模型结合了一个文本编码器（Jina XLM-RoBERTa，561M参数）和一个视觉编码器（EVA02-L14，304M参数），总计865M参数。我们使用来自29种非英语语言的多语言文本和视觉丰富的文档进行训练，并采用Matryoshka Representation Learning来实现灵活的向量模型 (embedding)维度。

要点：

由于模态信息不对称，在具有共享温度参数的单个批次中混合图像-文本和文本-文本数据比单独训练的效果更差。
为跨模态对齐进行训练会固有地损害纯文本向量模型 (embedding)质量，这表明存在根本性的权衡。
将向量模型 (embedding)从1,024维减少到256维造成的性能损失不到1%，这揭示了高维表示中存在大量低效率。

tagReaderLM-V2：用于HTML到Markdown和JSON的小语言模型 (Small Language Model)

ReaderLM-v2: Small Language Model for HTML to Markdown and JSON

We present ReaderLM-v2, a compact 1.5 billion parameter language model designed for efficient web content extraction. Our model processes documents up to 512K tokens, transforming messy HTML into clean Markdown or JSON formats with high accuracy -- making it an ideal tool for grounding large language models. The model’s effectiveness results from two key innovations: (1) a three-stage data synthesis pipeline that generates high quality, diverse training data by iteratively drafting, refining, and critiquing web content extraction; and (2) a unified training framework combining continuous pre-training with multi-objective optimization. Intensive evaluation demonstrates that ReaderLM-v2 outperforms GPT-4o-2024-08-06 and other larger models by 15-20\% on carefully curated benchmarks, particularly excelling at documents exceeding 100K tokens, while maintaining significantly lower computational requirements.

arXiv.orgFeng Wang

这是ReaderLM-v2背后的论文，它是一个紧凑的15亿参数语言模型，专为高效的Web内容提取而设计。该模型处理高达512K 个词元 (Tokens) 的文档，将混乱的HTML转换为干净的Markdown或JSON格式。我们的方法结合了一个三阶段数据合成管道（DRAFT-REFINE-CRITIQUE），该管道通过迭代改进生成高质量的训练数据，并结合了一个统一的训练框架，该框架结合了连续预训练、监督微调、直接偏好优化和自博弈迭代调优。在基准测试中，ReaderLM-v2 的性能比GPT-4o和其他更大的模型高出15-20%，尤其是在超过100K 个词元 (Tokens) 的文档中表现出色，同时保持了显著降低的计算要求。

要点：

一个15亿参数的模型在HTML提取方面的性能比GPT-4o和32B模型高出15-20%，这证明了特定于任务的微调胜过原始规模的领域专业知识。
该模型在第4阶段“自博弈”中生成自己的训练数据，创建比人工策划的数据集更好的数据集，并通过递归反馈不断提高性能。
该模型在训练期间遭受了灾难性的词元 (Tokens) 重复，但是添加对比损失以鼓励判别表示完全消除了这种退化问题。

tagTIPS：具有空间感知的文本图像预训练

TIPS：具有空间感知的文本图像预训练

近年来，图像-文本表示学习变得非常流行，但是现有模型往往缺乏空间感知能力，并且对于密集理解任务的直接适用性有限。因此，尽管缺乏明确的监督信号，但自监督的仅图像预训练仍然是许多密集视觉应用（例如，深度估计，语义分割）的首选方法。在本文中，我们通过提出一种新颖的通用图像-文本模型来弥合图像-文本和自监督学习之间的差距，该模型可以有效地用于现成的密集和全局视觉任务。我们的方法称为具有空间感知的文本图像预训练 (Text-Image Pretraining with Spatial awareness, TIPS)，它利用了两个简单而有效的见解。首先，关于文本监督：我们发现，由于用于学习空间感知表示的信号更加丰富，因此用合成生成的文本描述代替嘈杂的Web图像标题可以显着提高密集理解性能。我们提出了一种结合了嘈杂和合成标题的自适应训练方法，从而在密集和全局理解任务中均获得了改进。其次，关于学习技术：我们建议将对比图像-文本学习与自监督的掩码图像建模相结合，以鼓励空间连贯性，从而为下游应用带来实质性的增强。基于这两个想法，我们使用Transformer架构扩展了我们的模型，并在精心策划的公共图像集上进行了训练。我们的实验在总共涉及16个数据集的8个任务上进行，从而证明了在多个仅图像和图像-文本任务上，密集和全局理解均具有强大的现成性能。代码和模型已在https://github.com/google-deepmind/tips上发布。

arXiv.orgKevis-Kokitsi Maninis

使用对比学习训练的视觉语言模型擅长全局图像-文本对齐，但在密集空间理解任务中却失败了。TIPS 将对比学习与掩码图像建模相结合，并使用编码空间关系的合成生成标题，从而创建适用于密集和全局理解的向量模型 (Embeddings)，而无需特定于任务的微调。该方法演示了如何将空间感知纳入向量模型 (Embedding)，以实现更好的文档理解和多模态检索应用。

要点：

具有空间描述的合成标题比嘈杂的Web标题提供更丰富的训练信号，以用于学习空间感知表示
将对比图像-文本学习与自监督目标相结合，弥合了全局理解和密集理解之间的差距
在各种任务上的现成性能消除了跨不同视觉应用进行专门微调的需要

tagCut Cross-Entropy：用于大型词汇表的内存高效损失计算

减少大型词汇表语言模型的损失

随着语言模型的不断增长，它们的词汇量也在不断增长。这已将大模型 (LLM) 在训练期间的内存占用不成比例地转移到单个层：损失计算中的交叉熵。交叉熵建立了一个logit矩阵，其中包含每对输入词元 (Tokens) 和词汇表项的条目，对于小型模型而言，它消耗的内存比大模型 (LLM) 的其余部分加起来还要多一个数量级。我们提出了Cut Cross-Entropy (CCE)，这是一种计算交叉熵损失的方法，而无需将所有词元 (Tokens) 的logits物化到全局内存中。相反，CCE仅计算正确词元 (Tokens) 的logit，并动态评估所有logits上的log-sum-exp。我们实现了一个自定义内核，该内核在闪存中对词汇表执行矩阵乘法和log-sum-exp缩减，从而使交叉熵计算的全局内存消耗可以忽略不计。这具有巨大的影响。以Gemma 2 (2B)模型为例，CCE将损失计算的内存占用从24 GB减少到1 MB，并将分类器头的总训练时间内存消耗从28 GB减少到1 GB。为了提高CCE的吞吐量，我们利用softmax的固有稀疏性，并提出跳过梯度计算中对梯度贡献可忽略不计（即，低于数值精度）的元素。实验表明，在不牺牲训练速度或收敛性的情况下，可以实现内存消耗的急剧减少。

arXiv.orgErik Wijmans

交叉熵计算在大型词汇表语言模型中占主导地位的内存使用量，需要实现与batch_size × vocabulary_size成比例的logit矩阵。CCE重新制定了计算方法，以使用自定义CUDA内核动态计算仅必要的组件，从而将内存消耗从千兆字节减少到兆字节，同时保持相同的训练动态。这使得可以在有限的硬件上训练具有更大词汇表的向量模型 (Embedding) 和重排器 (Reranker) 模型，这对于多语言和特定领域的应用程序特别有益。

要点：

对于大型词汇表模型，交叉熵损失计算可能会消耗90%的训练内存，从而成为主要的瓶颈
log-sum-exp项的动态计算消除了实现完整logit矩阵的需要，而无需进行数学近似
自定义内核实现可在保持精确收敛特性的同时显着减少内存

tagFlexPrefill：用于长序列的上下文感知稀疏注意力

FlexPrefill：用于有效长序列推理的上下文感知稀疏注意机制

大型语言模型 (LLM) 在长序列推理过程中面临计算挑战，尤其是在注意力预填充阶段，其复杂度随着提示词 (Prompt) 长度呈二次方增长。先前缓解这些挑战的努力依赖于固定的稀疏注意力模式或基于有限案例识别稀疏注意力模式。然而，这些方法缺乏灵活性，无法有效地适应不同的输入需求。在本文中，我们介绍了一种灵活的稀疏预填充机制 FlexPrefill，它可以实时动态调整稀疏注意力模式和计算预算，以满足每个输入和注意力头的特定要求。我们的方法的灵活性通过两项关键创新得到证明：1) 查询感知稀疏模式确定：通过测量 Jensen-Shannon 散度，该组件自适应地在特定于查询的不同注意力模式和预定义的注意力模式之间切换。2) 基于累积注意力的索引选择：该组件基于不同的注意力模式动态选择要计算的查询-键索引，确保注意力分数的总和满足预定义的阈值。FlexPrefill 基于提示词 (Prompt) 自适应地优化每个注意力头的稀疏模式和稀疏率，从而提高长序列推理任务的效率。实验结果表明，与先前的方法相比，在速度和准确性方面都有显着提高，为大模型 (LLM) 推理提供了更灵活、更高效的解决方案。

arXiv.orgXunhao Lai

长序列 Transformer 推理存在二次方注意力复杂性问题。FlexPrefill 使用 Jensen-Shannon 散度动态确定每个头的稀疏注意力模式，并基于累积注意力分数自适应地分配计算预算，从而在各种内容类型中实现显着加速，同时最大限度地减少准确性损失。该方法能够有效地处理搜索和检索系统的长文档，从而使较小的语言模型能够处理扩展的上下文，从而更好地理解文档。

要点：

适应内容类型的动态稀疏注意力模式优于不同输入特征的固定稀疏策略
基于注意力分数累积的每个头的自适应预算分配可实时优化计算分配
上下文感知的稀疏性实现了 13.7 倍的加速，同时准确性损失为 0.1%，而且无需模型重新训练

tag通过温度控制实现有效的训练后向量模型 (Embedding) 压缩

Effective post-training embedding compression via temperature...

Fixed-size learned representations (dense representations, or embeddings) are widely used in many machine learning applications across language, vision or speech modalities. This paper investigates…

OpenReview.netGeorgiana Dinu

对比学习中的温度缩放显着影响学习到的向量模型 (Embeddings) 的内在维度，较低的温度会产生更易压缩的表示。该论文表明，温度聚合方法可以将向量模型 (Embedding) 维度降低一个数量级，同时保持检索性能，揭示了聚类有效性和检索准确性之间的权衡。这使得能够高效部署密集检索系统，其中内存约束对于生产应用程序至关重要。

要点：

对比训练中较低的温度值会产生具有较低内在维度的向量模型 (Embeddings)，从而更有效地压缩
温度聚合技术实现了 10 倍的压缩率，同时在检索任务中的质量下降最小
在训练期间系统地控制温度为优化压缩-性能权衡提供了一种直接机制

tag大型语言模型中的注意力机制产生高效的零样本重排器 (Reranker)

Attention in Large Language Models Yields Efficient Zero-Shot Re-Rankers

Information retrieval (IR) systems have played a vital role in modern digital life and have cemented their continued usefulness in this new era of generative AI via retrieval-augmented generation. With strong language processing capabilities and remarkable versatility, large language models (LLMs) have become popular choices for zero-shot re-ranking in IR systems. So far, LLM-based re-ranking methods rely on strong generative capabilities, which restricts their use to either specialized or powerful proprietary models. Given these restrictions, we ask: is autoregressive generation necessary and optimal for LLMs to perform re-ranking? We hypothesize that there are abundant signals relevant to re-ranking within LLMs that might not be used to their full potential via generation. To more directly leverage such signals, we propose in-context re-ranking (ICR), a novel method that leverages the change in attention pattern caused by the search query for accurate and efficient re-ranking. To mitigate the intrinsic biases in LLMs, we propose a calibration method using a content-free query. Due to the absence of generation, ICR only requires two (

O(1)

) forward passes to re-rank

N

documents, making it substantially more efficient than generative re-ranking methods that require at least

O(N)

forward passes. Our novel design also enables ICR to be applied to any LLM without specialized training while guaranteeing a well-formed ranking. Extensive experiments with two popular open-weight LLMs on standard single-hop and multi-hop information retrieval benchmarks show that ICR outperforms RankGPT while cutting the latency by more than 60% in practice. Through detailed analyses, we show that ICR’s performance is specially strong on tasks that require more complex re-ranking signals. Our findings call for further exploration on novel ways of utilizing open-weight LLMs beyond text generation.

arXiv.orgShijie Chen

In-Context Re-ranking (ICR) 利用大模型 (LLM) 中的注意力模式变化来执行文档重排序，而无需文本生成，从而将计算复杂度从 O(N log N) 降低到 O(1)。该方法聚合跨层和头的注意力权重以计算相关性分数，并使用无内容查询校准来减轻大模型 (LLM) 偏差。这种方法可以使用开放权重模型实现高效的重排序，从而无需专门的微调或昂贵的生成过程。

要点：

大模型 (LLM) 中的注意力模式包含足够的信号来进行有效的文档重排序，而无需文本生成
无内容查询校准成功地减轻了基于注意力的评分机制中的内在偏差
与生成方法相比，ICR 实现了卓越的性能和效率，尤其是在复杂的多跳检索任务中

tag桥接和建模成对数据中的相关性以实现直接偏好优化

Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization

直接偏好优化 (Direct preference optimization, DPO) 是一种被广泛采用的离线偏好优化算法，旨在利用成对偏好数据使大型语言模型 (LLM) 与人类期望的行为对齐。然而，成对数据中获胜响应和失败响应的生成通常是孤立的，导致它们之间的相关性较弱，以及次优的对齐性能。为了解决这个问题，我们提出了一个有效的框架，用于桥接和建模成对数据中的相关性，命名为 BMC。首先，我们通过有针对性的修改来提高成对偏好信号的一致性和信息量，通过以获胜响应为参考改进失败响应来合成伪获胜响应。其次，我们发现仅靠 DPO 不足以对这些相关性进行建模并捕获细微的差异。因此，我们提出通过在训练期间动态利用策略模型的置信度来学习词元 (Tokens) 级别的相关性。在问答、数学和指令遵循任务上的综合实验表明了我们方法的有效性，显著超越了包括 DPO 在内的竞争基线。此外，我们深入的定量分析揭示了我们的方法优于 DPO 的原因，并展示了其对其他 DPO 变体的多功能性。我们在 https://github.com/YJiangcm/BMC 发布了我们的存储库。

arXiv.orgYuxin Jiang

传统的 DPO 受益于偏好对中选择的响应和拒绝的响应之间的弱相关性，限制了对齐效果。BMC 通过合成在获胜响应和失败响应之间进行插值的伪首选响应来解决这个问题，然后使用策略模型置信度应用词元 (Tokens) 级别的相关性建模。两阶段方法首先通过有针对性的修改来桥接偏好对，然后在训练期间对细粒度的相关性进行建模，以提高学习信号质量。

要点：

偏好数据中选择的响应和拒绝的响应之间的弱相关性显著限制了 DPO 在模型对齐方面的有效性
合成作为偏好对之间插值的伪首选响应，可为优化提供更丰富的学习信号
使用策略置信度的词元 (Tokens) 级别相关性建模动态地对训练信号进行加权，以捕获偏好数据中的细微变化

tagTAID：用于高效知识迁移的时序自适应插值蒸馏

TAID: Temporally Adaptive Interpolated Distillation for Efficient Knowledge Transfer in Language Models

因果语言模型已经展示了卓越的能力，但它们的大小对资源受限环境中的部署提出了重大挑战。知识蒸馏是一种广泛使用的技术，用于将知识从大型教师模型转移到小型学生模型，为模型压缩提供了一种有前途的方法。一个重要的剩余问题在于教师模型和学生模型之间的主要差异，即巨大的容量差距、模式平均和模式崩溃，这些构成了蒸馏过程中的障碍。为了解决这些问题，我们引入了

\textit{Temporally Adaptive Interpolated Distillation (TAID)}

，这是一种新颖的知识蒸馏方法，它通过自适应中间分布动态地插值学生和教师分布，逐渐从学生的初始分布转移到教师的分布。我们提供了一个理论分析，证明了 TAID 能够防止模式崩溃，并通过实验表明了它在解决容量差距，同时平衡模式平均和模式崩溃方面的有效性。我们的综合实验表明，TAID 在指令调整和预训练场景中的各种模型大小和架构中都表现出卓越的性能。此外，我们通过开发两个最先进的紧凑型基础模型来展示 TAID 的实际影响：用于语言任务的

\texttt{TAID-LLM-1.5B}

和用于视觉语言任务的

\texttt{TAID-VLM-2B}

。这些结果证明了 TAID 在创建高性能和高效模型方面的有效性，从而推动了更易于访问的 AI 技术的发展。

arXiv.orgMakoto Shing

当在大型模型和小型模型之间传递知识时，知识蒸馏面临着来自容量差距、模式平均和模式崩溃的挑战。TAID 引入了一个动态的中间教师，该教师在学生和教师分布之间进行插值，并根据训练进度逐步调整目标分布。这种方法通过理论保证防止了模式崩溃，并在各种模型大小上实现了卓越的性能，从而能够开发紧凑但功能强大的语言模型。

要点：

与固定的教师蒸馏相比，在训练期间进行自适应的动态中间教师提供了更平滑的学习轨迹
TAID 通过自适应插值防止模式崩溃，同时平衡了跨不同容量差距的知识转移
该方法能够训练最先进的紧凑型模型，而无需专门的架构或广泛的超参数调整

tagSVD-LLM：用于大型语言模型压缩的截断感知奇异值分解

SVD-LLM: Truncation-aware Singular Value Decomposition for Large Language Model Compression

大型语言模型 (LLM) 的进步受到其庞大尺寸的阻碍，这需要 LLM 压缩方法来进行实际部署。奇异值分解 (SVD) 为 LLM 压缩提供了一个有前途的解决方案。然而，最先进的基于 SVD 的 LLM 压缩方法有两个关键限制：截断较小的奇异值可能导致更高的压缩损失，并且在 SVD 截断后缺乏对压缩权重的更新。在这项工作中，我们提出了 SVD-LLM，一种基于 SVD 的后训练 LLM 压缩方法，该方法解决了现有方法的局限性。SVD-LLM 包含一种截断感知数据白化技术，以确保奇异值和压缩损失之间的直接映射。此外，SVD-LLM 采用具有顺序低秩逼近的参数更新，以补偿 SVD 压缩后的精度下降。我们在来自三个不同 LLM 系列的 10 个数据集和七个模型上，以三种不同的规模评估 SVD-LLM。我们的结果表明，SVD-LLM 优于最先进的方法，尤其是在高模型压缩比下。我们的代码可在 https://github.com/AIoT-MLSys-Lab/SVD-LLM 获得

arXiv.orgXin Wang

现有的基于 SVD 的压缩方法无法在近似期间考虑输入激活，并且缺乏截断后的微调。SVD-LLM 包含考虑激活分布的截断感知数据白化，并在压缩后应用基于 LoRA 的微调。该方法建立了奇异值和压缩损失之间的理论联系，从而能够做出比结构化剪枝和量化方法更有效的压缩决策。

要点：

考虑输入激活的截断感知数据白化显著提高了 SVD 压缩效率，优于与激活无关的方法
压缩后的 LoRA 微调弥补了精度下降，同时保持了低秩分解的优势
将奇异值与压缩损失联系起来的理论分析能够做出比启发式方法更有效的截断决策

tag看到你被告知的内容：大型多模态模型中的视觉注意力汇

See What You Are Told: Visual Attention Sink in Large Multimodal Models

大型多模态模型 (LMM) 通过利用 transformer 解码器中，文本和视觉词元 (Tokens) 之间的注意力机制来“看到”图像。理想情况下，这些模型应该专注于与文本词元 (Token) 相关的关键视觉信息。然而，最近的研究表明，LMM 具有一种非同寻常的趋势，即始终如一地将高注意力权重分配给特定的视觉词元 (Tokens)，即使这些词元 (Tokens) 与相应的文本无关。在这项研究中，我们调查了这些不相关的视觉词元 (Tokens) 出现背后的属性，并检查了它们的特征。我们的研究结果表明，这种行为是由于某些隐藏状态维度的巨大激活而产生的，这类似于在语言模型中发现的注意力汇 (attention sink)。因此，我们将这种现象称为视觉注意力汇 (visual attention sink)。特别是，我们的分析表明，移除不相关的视觉汇 (sink) 词元 (Tokens) 不会影响模型性能，尽管它们获得了很高的注意力权重。因此，我们将对这些词元 (Tokens) 的注意力重新利用为剩余资源，重新分配注意力预算，以增强对图像的关注。为了实现这一目标，我们引入了视觉注意力重分配 (VAR, Visual Attention Redistribution)，这是一种在以图像为中心的注意力头中重新分配注意力的方法，我们认为这些注意力头天生就专注于视觉信息。VAR 可以无缝地应用于不同的 LMM，以提高各种任务的性能，包括通用视觉语言任务、视觉幻觉任务和以视觉为中心 (vision-centric) 的任务，所有这些都无需额外的训练、模型或推理步骤。实验结果表明，VAR 使 LMM 能够通过调整其内部注意力机制更有效地处理视觉信息，从而为增强 LMM 的多模态能力提供了一个新的方向。

arXiv.orgSeil Kang

大型多模态模型表现出一种称为“视觉注意力汇 (visual attention sink)”的现象，即它们始终如一地将高注意力权重分配给与相应文本词元 (Token) 无关的特定视觉词元 (Tokens)。这些不相关的视觉词元 (Tokens) 来自于特定隐藏状态维度的大量激活，类似于语言模型中的注意力汇 (attention sinks)。视觉注意力重分配 (VAR) 方法识别以图像为中心的注意力头，并将注意力预算从汇 (sink) 词元 (Tokens) 重新分配到有意义的视觉内容，从而提高跨视觉语言任务的性能，而无需额外的训练。

要点：

视觉汇 (sink) 词元 (Tokens) 可以通过从基础语言模型继承的固定维度中的极端激活幅度来识别
移除视觉汇 (sink) 词元 (Tokens) 不会影响模型性能，尽管它们获得了很高的注意力权重，这表明浪费了计算资源
VAR 将注意力从汇 (sink) 词元 (Tokens) 重新分配到有意义的视觉内容，从而提高通用视觉语言、减少幻觉和以视觉为中心 (vision-centric) 的任务的性能

tag迈向多模态大模型 (LLM) 中词元化 (Tokenization) 的语义等价

迈向多模态大模型 (LLM) 中词元化 (Tokenization) 的语义等价

多模态大型语言模型 (MLLM) 在处理视觉语言任务方面表现出了卓越的能力。MLLM 的关键之一在于视觉词元化 (tokenization)，它涉及有效地将输入视觉信号转换为对大模型 (LLM) 最有利的特征表示。然而，现有的视觉词元器 (tokenizer) 对于视觉和语言之间的语义对齐至关重要，但仍然存在问题。现有方法会过度分割视觉输入，从而破坏视觉语义完整性。为了解决这个问题，本文提出了一种新颖的动态语义等价视觉词元器 (SeTok, Semantic-Equivalent Vision Tokenizer)，它通过动态聚类算法将视觉特征分组为语义单元，从而根据图像复杂度灵活地确定词元 (Tokens) 的数量。由此产生的视觉词元 (Tokens) 有效地保留了语义完整性，并捕获了低频和高频视觉特征。实验结果表明，配备 SeTok 的拟议 MLLM (Setokim) 在各种任务中显着表现出卓越的性能。项目页面位于 https://chocowu.github.io/SeTok-web/。

arXiv.orgShengqiong Wu

多模态大模型 (LLM) 中传统的视觉词元化 (tokenization) 方法使用固定补丁来分割视觉输入，从而破坏了语义完整性，并导致较差的视觉语言对齐。SeTok (Semantic-Equivalent Vision Tokenizer) 通过动态聚类来解决这个问题，该聚类将视觉特征分组为连贯的语义单元，其中词元 (Token) 计数适应图像复杂度。该系统使用双重训练目标：用于与语言进行语义对齐的对比损失和用于保留图像重建的像素级细节的重建损失。

主要要点：

固定补丁词元化 (tokenization) 通过跨任意补丁边界分割对象来破坏视觉语义完整性
动态聚类算法可以基于图像语义复杂度而非固定网格结构自适应地确定最佳词元 (Token) 计数
双重目标训练平衡了与语言的语义对齐，同时保留了足够的视觉细节以用于重建任务

tagHymba：小型语言模型的混合头架构

Hymba：小型语言模型的混合头架构

我们提出了 Hymba，一个小型语言模型 (SLM) 系列，它采用混合头并行架构，该架构将 transformer 注意力机制与状态空间模型 (SSM) 相结合，以提高效率。注意力头提供高分辨率召回，而 SSM 头可以实现高效的上下文总结。此外，我们引入了可学习的元词元 (meta tokens)，这些元词元 (meta tokens) 被添加到提示词 (Prompts) 中，用于存储关键信息并减轻与注意力机制相关的“强制参与”负担。该模型通过结合跨层键值 (KV) 共享和部分滑动窗口注意力进行了进一步优化，从而实现了紧凑的缓存大小。在开发过程中，我们进行了一项受控研究，比较了相同设置下的各种架构，并观察到我们提出的架构的显着优势。值得注意的是，Hymba 为小型大模型 (LM) 实现了最先进的结果：我们的 Hymba-1.5B-Base 模型在性能上超越了所有 2B 以下的公共模型，甚至优于 Llama-3.2-3B，平均准确率高出 1.32%，缓存大小减少了 11.67 倍，吞吐量提高了 3.49 倍。

arXiv.orgXin Dong

Hymba 引入了一种混合头架构，该架构在每一层中并行结合了 transformer 注意力机制与状态空间模型 (SSM)，从而能够同时实现高分辨率召回和高效的上下文总结。该架构结合了可学习的元词元 (meta tokens)、跨层键值共享和部分滑动窗口注意力，以实现紧凑的缓存大小。Hymba-1.5B 超过了所有 2B 以下的模型，并且优于 Llama-3.2-3B，同时实现了 11.67 倍的缓存减少和 3.49 倍的吞吐量提升。

要点：

并行混合头架构通过同时处理互补机制来优于注意力和 SSM 组件的顺序堆叠
可学习的元词元 (meta tokens) 充当压缩的世界知识，并减轻 softmax 注意力机制的“强制参与”负担
跨层键值共享和滑动窗口注意力优化实现了显着的缓存大小减少，而不会牺牲性能

我们在 ICLR2025 上学到了什么

tagMitigate the Gap: Improving Cross-Modal Alignment in CLIP

tagjina-clip-v2：用于文本和图像的多语言多模态向量模型 (Embeddings)

tagReaderLM-V2：用于HTML到Markdown和JSON的小语言模型 (Small Language Model)

tagTIPS：具有空间感知的文本图像预训练

tagCut Cross-Entropy：用于大型词汇表的内存高效损失计算

tagFlexPrefill：用于长序列的上下文感知稀疏注意力

tag通过温度控制实现有效的训练后 向量模型 (Embedding) 压缩

tag大型语言模型中的注意力机制产生高效的零样本 重排器 (Reranker)

tag桥接和建模成对数据中的相关性以实现直接偏好优化

tagTAID：用于高效知识迁移的时序自适应插值蒸馏

tagSVD-LLM：用于大型语言模型压缩的截断感知奇异值分解

tag看到你被告知的内容：大型多模态模型中的视觉注意力汇

tag迈向多模态大模型 (LLM) 中词元化 (Tokenization) 的语义等价

tagHymba：小型语言模型的混合头架构

tag通过温度控制实现有效的训练后向量模型 (Embedding) 压缩

tag大型语言模型中的注意力机制产生高效的零样本重排器 (Reranker)