ICLR 2025是全球最大、最具影响力的机器学习会议之一,与NeurIPS和ICML并列为三大顶级AI研究场所。今年标志着一个历史性的里程碑,ICLR首次在亚洲举办,于4月24日至28日在新加坡博览中心举行。时机再好不过了——就在2025年1月下旬“DeepSeek时刻”震撼硅谷,并展示了中国迅速发展的AI研究之后几个月。再加上2024年2月生效的中新30天互免签证协议,我们目睹了参加会议的中国人数空前激增。

今年,我们的团队很高兴前往新加坡,Sedigheh Eslami、Andreas Koukounas、Wang Feng和CEO Han Xiao展示了三篇研究论文,展示了我们在jina-clip-v2和ReaderLM-v2上为实现更好搜索而进行的最新研究。当AI世界的其他地方似乎都陷入了对越来越大的模型的军备竞赛时,我们决定反其道而行之——证明当你的设计正确时,更小、更智能的模型可以发挥更大的作用。

所以,拿起你的咖啡,舒服地坐下,让我们一起探索一些我们觉得有趣的ICLR研究——首先是我们自己关于为什么小即是强大的看法。
tagMitigate the Gap: Improving Cross-Modal Alignment in CLIP


CLIP模型擅长图像-文本任务,但存在“模态差距 (modality gap)”——图像和文本的向量模型 (embeddings)聚集在不同的区域,限制了性能。这项工作由我们的实习生Sedigheh Eslami在哈索·普拉特纳研究所攻读博士学位期间领导,旨在解决这个根本问题。
我们发现简单的向量平移会破坏向量模型 (embedding)结构。相反,AlignCLIP使用共享编码器参数和语义正则化的分离目标。这种双重方法成功地缩小了模态差距 (modality gap),同时提高了零样本和微调任务的性能。
要点:
- 模态差距 (modality gap)是CLIP性能的关键瓶颈
- 参数共享+语义分离有效地弥合了模态差异
- 该方法在下游评估中带来了可衡量的收益
tagjina-clip-v2:用于文本和图像的多语言多模态向量模型 (Embeddings)


这是jina-clip-v2背后的论文,它是一种多语言多模态向量模型 (embedding),使用多任务、多阶段对比学习方法,支持纯文本和跨模态任务。该模型结合了一个文本编码器(Jina XLM-RoBERTa,561M参数)和一个视觉编码器(EVA02-L14,304M参数),总计865M参数。我们使用来自29种非英语语言的多语言文本和视觉丰富的文档进行训练,并采用Matryoshka Representation Learning来实现灵活的向量模型 (embedding)维度。
要点:
- 由于模态信息不对称,在具有共享温度参数的单个批次中混合图像-文本和文本-文本数据比单独训练的效果更差。
- 为跨模态对齐进行训练会固有地损害纯文本向量模型 (embedding)质量,这表明存在根本性的权衡。
- 将向量模型 (embedding)从1,024维减少到256维造成的性能损失不到1%,这揭示了高维表示中存在大量低效率。
tagReaderLM-V2:用于HTML到Markdown和JSON的小语言模型 (Small Language Model)


这是ReaderLM-v2背后的论文,它是一个紧凑的15亿参数语言模型,专为高效的Web内容提取而设计。该模型处理高达512K 个词元 (Tokens) 的文档,将混乱的HTML转换为干净的Markdown或JSON格式。我们的方法结合了一个三阶段数据合成管道(DRAFT-REFINE-CRITIQUE),该管道通过迭代改进生成高质量的训练数据,并结合了一个统一的训练框架,该框架结合了连续预训练、监督微调、直接偏好优化和自博弈迭代调优。在基准测试中,ReaderLM-v2 的性能比GPT-4o和其他更大的模型高出15-20%,尤其是在超过100K 个词元 (Tokens) 的文档中表现出色,同时保持了显著降低的计算要求。
要点:
- 一个15亿参数的模型在HTML提取方面的性能比GPT-4o和32B模型高出15-20%,这证明了特定于任务的微调胜过原始规模的领域专业知识。
- 该模型在第4阶段“自博弈”中生成自己的训练数据,创建比人工策划的数据集更好的数据集,并通过递归反馈不断提高性能。
- 该模型在训练期间遭受了灾难性的词元 (Tokens) 重复,但是添加对比损失以鼓励判别表示完全消除了这种退化问题。
tagTIPS:具有空间感知的文本图像预训练


使用对比学习训练的视觉语言模型擅长全局图像-文本对齐,但在密集空间理解任务中却失败了。TIPS 将对比学习与掩码图像建模相结合,并使用编码空间关系的合成生成标题,从而创建适用于密集和全局理解的 向量模型 (Embeddings),而无需特定于任务的微调。该方法演示了如何将空间感知纳入 向量模型 (Embedding),以实现更好的文档理解和多模态检索应用。
要点:
- 具有空间描述的合成标题比嘈杂的Web标题提供更丰富的训练信号,以用于学习空间感知表示
- 将对比图像-文本学习与自监督目标相结合,弥合了全局理解和密集理解之间的差距
- 在各种任务上的现成性能消除了跨不同视觉应用进行专门微调的需要
tagCut Cross-Entropy:用于大型词汇表的内存高效损失计算


交叉熵计算在大型词汇表语言模型中占主导地位的内存使用量,需要实现与batch_size × vocabulary_size成比例的logit矩阵。CCE重新制定了计算方法,以使用自定义CUDA内核动态计算仅必要的组件,从而将内存消耗从千兆字节减少到兆字节,同时保持相同的训练动态。这使得可以在有限的硬件上训练具有更大词汇表的 向量模型 (Embedding) 和 重排器 (Reranker) 模型,这对于多语言和特定领域的应用程序特别有益。
要点:
- 对于大型词汇表模型,交叉熵损失计算可能会消耗90%的训练内存,从而成为主要的瓶颈
- log-sum-exp项的动态计算消除了实现完整logit矩阵的需要,而无需进行数学近似
- 自定义内核实现可在保持精确收敛特性的同时显着减少内存
tagFlexPrefill:用于长序列的上下文感知稀疏注意力


长序列 Transformer 推理存在二次方注意力复杂性问题。FlexPrefill 使用 Jensen-Shannon 散度动态确定每个头的稀疏注意力模式,并基于累积注意力分数自适应地分配计算预算,从而在各种内容类型中实现显着加速,同时最大限度地减少准确性损失。该方法能够有效地处理搜索和检索系统的长文档,从而使较小的语言模型能够处理扩展的上下文,从而更好地理解文档。
要点:
- 适应内容类型的动态稀疏注意力模式优于不同输入特征的固定稀疏策略
- 基于注意力分数累积的每个头的自适应预算分配可实时优化计算分配
- 上下文感知的稀疏性实现了 13.7 倍的加速,同时准确性损失为 0.1%,而且无需模型重新训练
tag通过温度控制实现有效的训练后 向量模型 (Embedding) 压缩

对比学习中的温度缩放显着影响学习到的 向量模型 (Embeddings) 的内在维度,较低的温度会产生更易压缩的表示。该论文表明,温度聚合方法可以将 向量模型 (Embedding) 维度降低一个数量级,同时保持检索性能,揭示了聚类有效性和检索准确性之间的权衡。这使得能够高效部署密集检索系统,其中内存约束对于生产应用程序至关重要。
要点:
- 对比训练中较低的温度值会产生具有较低内在维度的 向量模型 (Embeddings),从而更有效地压缩
- 温度聚合技术实现了 10 倍的压缩率,同时在检索任务中的质量下降最小
- 在训练期间系统地控制温度为优化压缩-性能权衡提供了一种直接机制
tag大型语言模型中的注意力机制产生高效的零样本 重排器 (Reranker)

In-Context Re-ranking (ICR) 利用 大模型 (LLM) 中的注意力模式变化来执行文档重排序,而无需文本生成,从而将计算复杂度从 O(N log N) 降低到 O(1)。该方法聚合跨层和头的注意力权重以计算相关性分数,并使用无内容查询校准来减轻 大模型 (LLM) 偏差。这种方法可以使用开放权重模型实现高效的重排序,从而无需专门的微调或昂贵的生成过程。
要点:
- 大模型 (LLM) 中的注意力模式包含足够的信号来进行有效的文档重排序,而无需文本生成
- 无内容查询校准成功地减轻了基于注意力的评分机制中的内在偏差
- 与生成方法相比,ICR 实现了卓越的性能和效率,尤其是在复杂的多跳检索任务中
tag桥接和建模成对数据中的相关性以实现直接偏好优化

传统的 DPO 受益于偏好对中选择的响应和拒绝的响应之间的弱相关性,限制了对齐效果。BMC 通过合成在获胜响应和失败响应之间进行插值的伪首选响应来解决这个问题,然后使用策略模型置信度应用词元 (Tokens) 级别的相关性建模。两阶段方法首先通过有针对性的修改来桥接偏好对,然后在训练期间对细粒度的相关性进行建模,以提高学习信号质量。
要点:
- 偏好数据中选择的响应和拒绝的响应之间的弱相关性显著限制了 DPO 在模型对齐方面的有效性
- 合成作为偏好对之间插值的伪首选响应,可为优化提供更丰富的学习信号
- 使用策略置信度的词元 (Tokens) 级别相关性建模动态地对训练信号进行加权,以捕获偏好数据中的细微变化
tagTAID:用于高效知识迁移的时序自适应插值蒸馏

当在大型模型和小型模型之间传递知识时,知识蒸馏面临着来自容量差距、模式平均和模式崩溃的挑战。TAID 引入了一个动态的中间教师,该教师在学生和教师分布之间进行插值,并根据训练进度逐步调整目标分布。这种方法通过理论保证防止了模式崩溃,并在各种模型大小上实现了卓越的性能,从而能够开发紧凑但功能强大的语言模型。
要点:
- 与固定的教师蒸馏相比,在训练期间进行自适应的动态中间教师提供了更平滑的学习轨迹
- TAID 通过自适应插值防止模式崩溃,同时平衡了跨不同容量差距的知识转移
- 该方法能够训练最先进的紧凑型模型,而无需专门的架构或广泛的超参数调整
tagSVD-LLM:用于大型语言模型压缩的截断感知奇异值分解

现有的基于 SVD 的压缩方法无法在近似期间考虑输入激活,并且缺乏截断后的微调。SVD-LLM 包含考虑激活分布的截断感知数据白化,并在压缩后应用基于 LoRA 的微调。该方法建立了奇异值和压缩损失之间的理论联系,从而能够做出比结构化剪枝和量化方法更有效的压缩决策。
要点:
- 考虑输入激活的截断感知数据白化显著提高了 SVD 压缩效率,优于与激活无关的方法
- 压缩后的 LoRA 微调弥补了精度下降,同时保持了低秩分解的优势
- 将奇异值与压缩损失联系起来的理论分析能够做出比启发式方法更有效的截断决策
tag看到你被告知的内容:大型多模态模型中的视觉注意力汇

大型多模态模型表现出一种称为“视觉注意力汇 (visual attention sink)”的现象,即它们始终如一地将高注意力权重分配给与相应文本词元 (Token) 无关的特定视觉词元 (Tokens)。这些不相关的视觉词元 (Tokens) 来自于特定隐藏状态维度的大量激活,类似于语言模型中的注意力汇 (attention sinks)。视觉注意力重分配 (VAR) 方法识别以图像为中心的注意力头,并将注意力预算从汇 (sink) 词元 (Tokens) 重新分配到有意义的视觉内容,从而提高跨视觉语言任务的性能,而无需额外的训练。
要点:
- 视觉汇 (sink) 词元 (Tokens) 可以通过从基础语言模型继承的固定维度中的极端激活幅度来识别
- 移除视觉汇 (sink) 词元 (Tokens) 不会影响模型性能,尽管它们获得了很高的注意力权重,这表明浪费了计算资源
- VAR 将注意力从汇 (sink) 词元 (Tokens) 重新分配到有意义的视觉内容,从而提高通用视觉语言、减少幻觉和以视觉为中心 (vision-centric) 的任务的性能
tag迈向多模态大模型 (LLM) 中词元化 (Tokenization) 的语义等价

多模态 大模型 (LLM) 中传统的视觉词元化 (tokenization) 方法使用固定补丁来分割视觉输入,从而破坏了语义完整性,并导致较差的视觉语言对齐。SeTok (Semantic-Equivalent Vision Tokenizer) 通过动态聚类来解决这个问题,该聚类将视觉特征分组为连贯的语义单元,其中词元 (Token) 计数适应图像复杂度。该系统使用双重训练目标:用于与语言进行语义对齐的对比损失和用于保留图像重建的像素级细节的重建损失。
主要要点:
- 固定补丁词元化 (tokenization) 通过跨任意补丁边界分割对象来破坏视觉语义完整性
- 动态聚类算法可以基于图像语义复杂度而非固定网格结构自适应地确定最佳词元 (Token) 计数
- 双重目标训练平衡了与语言的语义对齐,同时保留了足够的视觉细节以用于重建任务
tagHymba:小型语言模型的混合头架构

Hymba 引入了一种混合头架构,该架构在每一层中并行结合了 transformer 注意力机制与状态空间模型 (SSM),从而能够同时实现高分辨率召回和高效的上下文总结。该架构结合了可学习的元词元 (meta tokens)、跨层键值共享和部分滑动窗口注意力,以实现紧凑的缓存大小。Hymba-1.5B 超过了所有 2B 以下的模型,并且优于 Llama-3.2-3B,同时实现了 11.67 倍的缓存减少和 3.49 倍的吞吐量提升。
要点:
- 并行混合头架构通过同时处理互补机制来优于注意力和 SSM 组件的顺序堆叠
- 可学习的元词元 (meta tokens) 充当压缩的世界知识,并减轻 softmax 注意力机制的“强制参与”负担
- 跨层键值共享和滑动窗口注意力优化实现了显着的缓存大小减少,而不会牺牲性能