ICLR2025 大會心得

ICLR 2025 是世界上規模最大、最具影響力的機器學習會議之一，與 NeurIPS 和 ICML 並列為三大頂尖的 AI 研究發表場所。今年是 ICLR 首次在亞洲舉辦，於 4 月 24 日至 28 日在新加坡 EXPO 舉行，這是一個歷史性的里程碑。時機再完美不過了——就在 2025 年 1 月下旬的「DeepSeek 時刻」之後幾個月，這件事震驚了矽谷，並展示了中國快速發展的 AI 研究。再加上 2024 年 2 月生效的中國-新加坡 30 天互免簽證協議，我們見證了中國參與者在此次會議上空前激增。

今年，我們的團隊很高興能前往新加坡，Sedigheh Eslami、Andreas Koukounas、Wang Feng 和 CEO Han Xiao 將發表三篇研究論文，展示我們在 jina-clip-v2 和 ReaderLM-v2 上為改進搜尋所做的最新研究。當 AI 世界的其他地方似乎都陷入了對更大模型的軍備競賽時，我們決定反其道而行——證明當你把設計做好時，更小、更聰明的模型可以發揮更大的作用。

所以，拿起你的咖啡，舒適地坐下來，讓我們一起探索一些我們覺得有趣的 ICLR 研究——首先從我們自己關於為什麼小即是強大的觀點開始。

Mitigate the Gap: Investigating Approaches for Improving Cross-Modal Alignment in CLIP

Contrastive Language--Image Pre-training (CLIP) has manifested remarkable improvements in zero-shot classification and cross-modal vision-language tasks. Yet, from a geometrical point of view, the CLIP embedding space has been found to have a pronounced modality gap. This gap renders the embedding space overly sparse and disconnected, with different modalities being densely distributed in distinct subregions of the hypersphere. In this work, we aim at answering three main questions: 1. Does sharing the parameter space between the multi-modal encoders reduce the modality gap? 2. Can the gap be mitigated by pushing apart the uni-modal embeddings via intra-modality separation? 3. How do these gap reduction approaches affect the downstream performance? We design AlignCLIP, in order to answer these questions and through extensive experiments, we show that AlignCLIP achieves noticeable enhancements in the cross-modal alignment of the embeddings, and thereby, reduces the modality gap, while improving the performance across several zero-shot and fine-tuning downstream evaluations.

arXiv.orgSedigheh Eslami

CLIP 模型在圖像-文字任務中表現出色，但存在「模態差距 (modality gap)」——圖像和文字的向量模型 (Embeddings)聚集在不同的區域，限制了效能。這項工作由我們的實習生 Sedigheh Eslami 在哈索·普拉特納研究所攻讀博士學位期間領導，旨在解決這個根本問題。

我們發現，簡單的向量轉換會破壞向量模型 (Embedding)的結構。相反地，AlignCLIP 使用具有語義正規化分離目標的共享編碼器參數。這種雙重方法成功地減少了模態差距 (modality gap)，同時提高了零樣本和微調任務的效能。

重點：

模態差距 (Modality gap)是 CLIP 效能的關鍵瓶頸
參數共享 + 語義分離有效地彌合了模態差異
該方法在下游評估中提供了可衡量的增益

tagjina-clip-v2：用於文字和圖像的多語言多模態向量模型 (Embeddings)

jina-clip-v2: Multilingual Multimodal Embeddings for Text and Images

Contrastive Language-Image Pretraining (CLIP) has been widely used for crossmodal information retrieval and multimodal understanding tasks. However, CLIP models are mainly optimized for crossmodal vision-language tasks and underperform in single-mode text tasks. Moreover, these models are often trained on English datasets and therefore lack multilingual understanding. Additionally, from a visual understanding perspective, previous CLIP-based models exhibit insufficient understanding of visually rich documents. In this work, we propose jina-clip-v2, a contrastive vision-language model trained on text pairs, triplets and image-text pairs via a multi-task and multi-stage contrastive learning paradigm in order to support both text-only and crossmodal tasks. We employ a multilingual text encoder and expand the training dataset to include multilingual texts from 29 non-English languages, including Hindi, Chinese, German, French, and others, as well as images of visually rich documents. We evaluate the model’s performance and show that jina-clip-v2 achieves notable improvements over state-of-the-art CLIP-based models in zero-shot text-only retrieval, semantic textual similarity, and crossmodal retrieval tasks in both English and multilingual settings. jina-clip-v2 also provides for flexibility in embedding dimensionality, enabling users to select the granularity of the representations. jina-clip-v2 is publicly available at https://huggingface.co/jinaai/jina-clip-v2.

arXiv.orgAndreas Koukounas

這是 jina-clip-v2 背後的論文，它是一個多語言多模態向量模型 (embedding)，使用多任務、多階段對比學習方法，支援純文字和跨模態任務。該模型結合了一個文字編碼器（Jina XLM-RoBERTa，561M 參數）和一個視覺編碼器（EVA02-L14，304M 參數），總共有 865M 參數。我們在來自 29 種非英語語言的多語言文本和視覺豐富的文檔上進行訓練，採用 Matryoshka Representation Learning 來實現靈活的向量模型 (embedding)維度。

重點：

由於模態資訊不對稱，在具有共享溫度參數的單一批次中混合圖像-文字和文字-文字數據，比單獨訓練的效果更差。
跨模態對齊的訓練本質上會損害純文字向量模型 (embedding)的品質，這顯示了一種根本性的權衡。
將向量模型 (embedding)從 1,024 維度縮減到 256 維度造成的效能損失不到 1%，這揭示了高維表示中存在的大量效率低下。

tagReaderLM-V2：用於 HTML 轉 Markdown 和 JSON 的小模型 (Small Language Model, SLM)

ReaderLM-v2: Small Language Model for HTML to Markdown and JSON

We present ReaderLM-v2, a compact 1.5 billion parameter language model designed for efficient web content extraction. Our model processes documents up to 512K tokens, transforming messy HTML into clean Markdown or JSON formats with high accuracy -- making it an ideal tool for grounding large language models. The model’s effectiveness results from two key innovations: (1) a three-stage data synthesis pipeline that generates high quality, diverse training data by iteratively drafting, refining, and critiquing web content extraction; and (2) a unified training framework combining continuous pre-training with multi-objective optimization. Intensive evaluation demonstrates that ReaderLM-v2 outperforms GPT-4o-2024-08-06 and other larger models by 15-20\% on carefully curated benchmarks, particularly excelling at documents exceeding 100K tokens, while maintaining significantly lower computational requirements.

arXiv.orgFeng Wang

這是 ReaderLM-v2 背後的論文，這是一個緊湊的 15 億參數語言模型，專為高效的網路內容提取而設計。該模型處理高達 512K 個詞元 (Tokens) 的文檔，將混亂的 HTML 轉換為乾淨的 Markdown 或 JSON 格式。我們的方法結合了一個三階段的數據合成流程 (DRAFT-REFINE-CRITIQUE)，該流程透過迭代改進生成高品質的訓練數據，並結合統一的訓練框架，包括連續預訓練、監督微調、直接偏好優化和自我對弈迭代調整。ReaderLM-v2 在基準測試中優於 GPT-4o 和其他更大的模型 15-20%，尤其擅長處理超過 100K 個詞元 (Tokens) 的文檔，同時保持顯著較低的計算需求。

重點：

一個 15 億參數的模型在 HTML 提取方面優於 GPT-4o 和 32B 模型 15-20%，證明了針對特定任務的微調勝過原始規模以獲得領域專業知識。
該模型在第 4 階段「自我對弈」中生成自己的訓練數據，創建比人工策劃的數據集更好的數據集，並透過遞迴回饋不斷提高效能。
該模型在訓練期間遭受了災難性的詞元 (Tokens) 重複，但添加對比損失以鼓勵區分性表示完全消除了這種退化問題。

tagTIPS：具有空間感知能力的文本圖像預訓練

TIPS: Text-Image Pretraining with Spatial awareness

While image-text representation learning has become very popular in recent years, existing models tend to lack spatial awareness and have limited direct applicability for dense understanding tasks. For this reason, self-supervised image-only pretraining is still the go-to method for many dense vision applications (e.g. depth estimation, semantic segmentation), despite the lack of explicit supervisory signals. In this paper, we close this gap between image-text and self-supervised learning, by proposing a novel general-purpose image-text model, which can be effectively used off the shelf for dense and global vision tasks. Our method, which we refer to as Text-Image Pretraining with Spatial awareness (TIPS), leverages two simple and effective insights. First, on textual supervision: we reveal that replacing noisy web image captions by synthetically generated textual descriptions boosts dense understanding performance significantly, due to a much richer signal for learning spatially aware representations. We propose an adapted training method that combines noisy and synthetic captions, resulting in improvements across both dense and global understanding tasks. Second, on the learning technique: we propose to combine contrastive image-text learning with self-supervised masked image modeling, to encourage spatial coherence, unlocking substantial enhancements for downstream applications. Building on these two ideas, we scale our model using the transformer architecture, trained on a curated set of public images. Our experiments are conducted on 8 tasks involving 16 datasets in total, demonstrating strong off-the-shelf performance on both dense and global understanding, for several image-only and image-text tasks. Code and models are released at https://github.com/google-deepmind/tips.

arXiv.orgKevis-Kokitsi Maninis

透過對比學習訓練的視覺語言模型擅長全局圖像文本對齊，但在密集空間理解任務中失敗。TIPS 將對比學習與遮罩圖像建模相結合，並使用編碼空間關係的合成生成標題，創建適用於密集和全局理解的向量模型 (Embeddings)，而無需針對特定任務進行微調。該方法展示了如何將空間感知納入向量模型 (Embedding)，以實現更好的文檔理解和多模式檢索應用。

重點：

對於學習空間感知表示，具有空間描述的合成標題比嘈雜的網路標題提供更豐富的訓練訊號
將對比圖像文本學習與自我監督目標相結合，彌合了全局和密集理解之間的差距
在各種任務上的現成效能消除了跨不同視覺應用進行專門微調的需要

tagCut Cross-Entropy：用於大型詞彙表的記憶體高效損失計算

Cut Your Losses in Large-Vocabulary Language Models

As language models grow ever larger, so do their vocabularies. This has shifted the memory footprint of LLMs during training disproportionately to one single layer: the cross-entropy in the loss computation. Cross-entropy builds up a logit matrix with entries for each pair of input tokens and vocabulary items and, for small models, consumes an order of magnitude more memory than the rest of the LLM combined. We propose Cut Cross-Entropy (CCE), a method that computes the cross-entropy loss without materializing the logits for all tokens into global memory. Rather, CCE only computes the logit for the correct token and evaluates the log-sum-exp over all logits on the fly. We implement a custom kernel that performs the matrix multiplications and the log-sum-exp reduction over the vocabulary in flash memory, making global memory consumption for the cross-entropy computation negligible. This has a dramatic effect. Taking the Gemma 2 (2B) model as an example, CCE reduces the memory footprint of the loss computation from 24 GB to 1 MB, and the total training-time memory consumption of the classifier head from 28 GB to 1 GB. To improve the throughput of CCE, we leverage the inherent sparsity of softmax and propose to skip elements of the gradient computation that have a negligible (i.e., below numerical precision) contribution to the gradient. Experiments demonstrate that the dramatic reduction in memory consumption is accomplished without sacrificing training speed or convergence.

arXiv.orgErik Wijmans

交叉熵計算在大型詞彙表語言模型中佔據了主要的記憶體使用量，需要具體化與 batch_size × vocabulary_size 成比例的 logit 矩陣。CCE 重新制定了計算方式，使用自定義 CUDA 核心即時計算僅必要的組件，從而將記憶體消耗從 GB 級減少到 MB 級，同時保持相同的訓練動態。這使得在有限的硬體上訓練具有更大詞彙表的向量模型 (Embedding) 和重排器 (Reranker) 模型成為可能，尤其有利於多語言和特定領域的應用。

重點：

對於大型詞彙表模型，交叉熵損失計算可能消耗 90% 的訓練記憶體，成為主要的瓶頸
即時計算 log-sum-exp 項消除了具體化完整 logit 矩陣的需要，而無需進行數學近似
自定義核心實作可以在保持精確收斂特性的同時顯著減少記憶體

tagFlexPrefill：用於長序列的上下文感知稀疏注意力

FlexPrefill: A Context-Aware Sparse Attention Mechanism for Efficient Long-Sequence Inference

大型語言模型 (LLM) 在長序列推理過程中面臨計算挑戰，尤其是在注意力預填充階段，其複雜性隨著提示詞 (Prompt) 長度呈平方級增長。先前為了解決這些挑戰所做的努力，依賴於固定的稀疏注意力模式，或基於有限案例識別稀疏注意力模式。然而，這些方法缺乏靈活性，無法有效地適應不同的輸入需求。在本文中，我們介紹了 FlexPrefill，一種靈活的稀疏預填充機制，可即時動態調整稀疏注意力模式和計算預算，以滿足每個輸入和注意力頭的特定需求。我們方法的靈活性通過兩個關鍵創新點來展示：1) 查詢感知稀疏模式確定：通過測量 Jensen-Shannon 散度，該組件自適應地在特定於查詢的多樣化注意力模式和預定義的注意力模式之間切換。2) 基於累積注意力的索引選擇：該組件基於不同的注意力模式動態選擇要計算的查詢-鍵索引，確保注意力分數的總和達到預定義的閾值。FlexPrefill 基於提示詞 (Prompt) 自適應地優化每個注意力頭的稀疏模式和稀疏比率，從而提高長序列推理任務的效率。實驗結果表明，與先前的方法相比，在速度和準確性方面都有顯著的改進，為 LLM 推理提供了一種更靈活和高效的解決方案。

arXiv.orgXunhao Lai

長序列 Transformer 推理面臨著平方級的注意力複雜度。FlexPrefill 使用 Jensen-Shannon 散度動態地確定每個頭部的稀疏注意力模式，並基於累積注意力分數自適應地分配計算預算，從而在不同的內容類型中實現顯著的加速，同時將準確性損失降到最低。該方法能夠有效地處理搜尋和檢索系統的長文檔，使較小的語言模型能夠處理擴展的上下文，從而更好地理解文檔。

要點：

適應內容類型的動態稀疏注意力模式，優於不同輸入特徵的固定稀疏策略
基於注意力分數累積的每個頭部的自適應預算分配，可即時優化計算分佈
上下文感知的稀疏性實現了 13.7 倍的加速，且準確性損失僅為 0.1%，同時無需重新訓練模型

tag通過溫度控制實現有效的訓練後向量模型 (Embeddings)壓縮

Effective post-training embedding compression via temperature...

Fixed-size learned representations (dense representations, or embeddings) are widely used in many machine learning applications across language, vision or speech modalities. This paper investigates…

OpenReview.netGeorgiana Dinu

對比學習中的溫度縮放顯著影響了學習到的向量模型 (Embeddings)的內在維度，較低的溫度會產生更易於壓縮的表示。該論文表明，溫度聚合方法可以將向量模型 (Embeddings)維度降低一個數量級，同時保持檢索性能，揭示了聚類有效性和檢索準確性之間的權衡。這使得密集檢索系統能夠高效部署，在這些系統中，記憶體約束對於生產應用至關重要。

要點：

對比訓練中較低的溫度值會產生具有較低內在維度的向量模型 (Embeddings)，從而更有效地壓縮
溫度聚合技術在檢索任務中實現了 10 倍的壓縮率，且品質下降極小
在訓練期間系統地控制溫度，為優化壓縮-性能權衡提供了一種直接的機制

tag大型語言模型中的注意力機制產生高效的零樣本重排器 (Reranker)

Attention in Large Language Models Yields Efficient Zero-Shot Re-Rankers

Information retrieval (IR) systems have played a vital role in modern digital life and have cemented their continued usefulness in this new era of generative AI via retrieval-augmented generation. With strong language processing capabilities and remarkable versatility, large language models (LLMs) have become popular choices for zero-shot re-ranking in IR systems. So far, LLM-based re-ranking methods rely on strong generative capabilities, which restricts their use to either specialized or powerful proprietary models. Given these restrictions, we ask: is autoregressive generation necessary and optimal for LLMs to perform re-ranking? We hypothesize that there are abundant signals relevant to re-ranking within LLMs that might not be used to their full potential via generation. To more directly leverage such signals, we propose in-context re-ranking (ICR), a novel method that leverages the change in attention pattern caused by the search query for accurate and efficient re-ranking. To mitigate the intrinsic biases in LLMs, we propose a calibration method using a content-free query. Due to the absence of generation, ICR only requires two (

O(1)

) forward passes to re-rank

N

documents, making it substantially more efficient than generative re-ranking methods that require at least

O(N)

forward passes. Our novel design also enables ICR to be applied to any LLM without specialized training while guaranteeing a well-formed ranking. Extensive experiments with two popular open-weight LLMs on standard single-hop and multi-hop information retrieval benchmarks show that ICR outperforms RankGPT while cutting the latency by more than 60% in practice. Through detailed analyses, we show that ICR’s performance is specially strong on tasks that require more complex re-ranking signals. Our findings call for further exploration on novel ways of utilizing open-weight LLMs beyond text generation.

arXiv.orgShijie Chen

In-Context Re-ranking (ICR) 利用大型語言模型 (LLM) 中的注意力模式變化來執行文檔重排序，而無需生成文本，從而將計算複雜度從 O(N log N) 降低到 O(1)。該方法聚合跨層和頭部的注意力權重以計算相關性分數，並使用無內容的查詢校準來減輕 LLM 的偏差。這種方法可以使用開放權重的模型實現高效的重排序，而無需專門的微調或昂貴的生成過程。

要點：

大型語言模型 (LLM) 中的注意力模式包含足夠的信號，可以有效地進行文檔重排序，而無需生成文本
無內容的查詢校準成功地減輕了基於注意力的評分機制中的內在偏差
與生成方法相比，ICR 實現了卓越的性能和效率，尤其是在複雜的多跳檢索任務中

tag在成對數據中橋接和建模相關性，以實現直接偏好優化

Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization

直接偏好最佳化 (Direct preference optimization, DPO) 是一種廣泛採用的離線偏好最佳化演算法，旨在利用成對偏好資料，使大型語言模型 (LLM) 與人類期望的行為保持一致。然而，成對資料中獲勝回應和失敗回應的產生通常是孤立的，導致它們之間的關聯性較弱，以及次佳的對齊效能。為了應對這個問題，我們提出了一個有效的框架，用於橋接和建模成對資料中的相關性，名為 BMC。首先，我們透過有針對性的修改來提高成對偏好訊號的一致性和資訊量，透過以獲勝回應為參考來改進失敗回應，從而合成偽獲勝回應。其次，我們發現僅靠 DPO 不足以對這些相關性進行建模並捕捉細微的變化。因此，我們提出透過在訓練期間動態利用策略模型的置信度來學習詞元 (Tokens) 等級的相關性。在 QA、數學和指令遵循任務上的綜合實驗證明了我們方法的有效性，顯著超越了包括 DPO 在內的具有競爭力的基準。此外，我們深入的定量分析揭示了我們的方法優於 DPO 的原因，並展示了其對其他 DPO 變體的通用性。我們在 https://github.com/YJiangcm/BMC 發布了我們的儲存庫。

arXiv.orgYuxin Jiang

傳統的 DPO 受到偏好對中選擇的回應和拒絕的回應之間關聯性較弱的影響，從而限制了對齊效果。 BMC 透過合成在獲勝回應和失敗回應之間插值的偽首選回應來解決此問題，然後使用策略模型置信度應用詞元 (Tokens) 等級的相關性建模。這個兩階段的方法首先透過有針對性的修改來橋接偏好對，然後在訓練期間對細粒度相關性進行建模，以提高學習訊號品質。

重點：

偏好資料中選擇的回應和拒絕的回應之間關聯性較弱，顯著限制了 DPO 在模型對齊方面的效果
合成作為偏好對之間插值的偽首選回應，為最佳化提供了更豐富的學習訊號
使用策略置信度的詞元 (Tokens) 等級相關性建模動態權衡訓練訊號，以捕捉偏好資料中的細微變化

tagTAID：用於高效知識轉移的時序自適應插值蒸餾

TAID：用於語言模型中高效知識轉移的時序自適應插值蒸餾

因果語言模型已經展示了卓越的能力，但它們的規模對資源受限環境中的部署提出了重大挑戰。知識蒸餾是一種廣泛使用的技術，用於將知識從大型教師模型轉移到小型學生模型，為模型壓縮提供了一種有前景的方法。一個重要的遺留問題是教師模型和學生模型之間的主要差異，即巨大的容量差距、模式平均和模式崩潰，這些都在蒸餾過程中造成了障礙。為了解決這些問題，我們引入了

\textit{時序自適應插值蒸餾 (TAID)}

，這是一種新穎的知識蒸餾方法，它透過自適應中間分佈動態插值學生分佈和教師分佈，從學生初始分佈逐漸轉向教師分佈。我們提供了一個理論分析，證明了 TAID 能夠防止模式崩潰，並透過實驗證明了它在解決容量差距，同時平衡模式平均和模式崩潰方面的有效性。我們的綜合實驗證明了 TAID 在指令調整和預訓練場景中，在各種模型大小和架構上的卓越效能。此外，我們透過開發兩種最先進的緊湊型基礎模型展示了 TAID 的實際影響：用於語言任務的

\texttt{TAID-LLM-1.5B}

和用於視覺語言任務的

\texttt{TAID-VLM-2B}

。這些結果證明了 TAID 在創建高效能和高效模型方面的有效性，從而推動了更易於訪問的 AI 技術的發展。

arXiv.orgMakoto Shing

當在大型模型和小型模型之間傳輸知識時，知識蒸餾面臨著容量差距、模式平均和模式崩潰的挑戰。 TAID 引入了一種動態中間教師，它在學生分佈和教師分佈之間進行插值，根據訓練進度逐漸調整目標分佈。這種方法透過理論保證防止了模式崩潰，並在各種模型大小上實現了卓越的效能，從而能夠開發緊湊但功能強大的語言模型。

重點：

與固定的教師蒸餾相比，在訓練期間進行調整的動態中間教師提供了更平滑的學習軌跡
TAID 透過自適應插值防止了模式崩潰，同時平衡了不同容量差距之間的知識轉移
該方法能夠訓練最先進的緊湊模型，而無需專門的架構或廣泛的超參數調整

tagSVD-LLM：用於大型語言模型壓縮的截斷感知奇異值分解

SVD-LLM：用於大型語言模型壓縮的截斷感知奇異值分解

大型語言模型 (LLM) 的發展受到其龐大規模的阻礙，這需要 LLM 壓縮方法才能進行實際部署。奇異值分解 (SVD) 為 LLM 壓縮提供了一種有前景的解決方案。然而，目前最先進的基於 SVD 的 LLM 壓縮方法有兩個主要限制：截斷較小的奇異值可能會導致更高的壓縮損失，並且在 SVD 截斷後，壓縮權重缺乏更新。在這項工作中，我們提出了 SVD-LLM，一種基於 SVD 的後訓練 LLM 壓縮方法，旨在解決現有方法的局限性。 SVD-LLM 結合了一種截斷感知資料美白技術，以確保奇異值和壓縮損失之間的直接映射。此外，SVD-LLM 採用具有序列低秩近似的參數更新，以補償 SVD 壓縮後的精度下降。我們在來自三個不同 LLM 系列的 10 個資料集和 7 個模型上，以三種不同的規模評估了 SVD-LLM。我們的結果證明了 SVD-LLM 優於最先進的方法，尤其是在高模型壓縮率下。我們的程式碼可在 https://github.com/AIoT-MLSys-Lab/SVD-LLM 取得

arXiv.orgXin Wang

現有的基於 SVD 的壓縮方法未能考慮近似期間的輸入激活，並且缺乏截斷後的微調。 SVD-LLM 結合了考慮激活分佈的截斷感知資料美白，並在壓縮後應用基於 LoRA 的微調。該方法建立了奇異值和壓縮損失之間的理論聯繫，從而實現了比結構化剪枝和量化方法更合理的壓縮決策。

重點：

考慮輸入激活的截斷感知資料美白顯著提高了 SVD 壓縮效果，優於與激活無關的方法
壓縮後的 LoRA 微調彌補了精度下降，同時保持了低秩分解的優勢
將奇異值與壓縮損失聯繫起來的理論分析能夠做出合理的截斷決策，優於啟發式方法

tag看你被告知的內容：大型多模態模型中的視覺注意力接收器

看你被告知的內容：大型多模態模型中的視覺注意力接收器

大型多模態模型 (Large multimodal models, LMMs) 透過轉換器解碼器中文字與視覺詞元 (Tokens) 之間的注意力機制來「看」圖像。理想情況下，這些模型應該專注於與文字詞元 (Token) 相關的關鍵視覺資訊。然而，最近的研究表明，LMMs 有一種非同尋常的趨勢，即始終如一地將高注意力權重分配給特定的視覺詞元 (Tokens)，即使這些詞元 (Tokens) 與相應的文字無關。在本研究中，我們研究了這些無關視覺詞元 (Tokens) 出現的特性，並檢查了它們的特徵。我們的研究結果表明，這種行為是由於某些隱藏狀態維度的大量激活所引起的，這類似於語言模型中發現的注意力沉沒 (attention sink)。因此，我們將這種現象稱為視覺注意力沉沒 (visual attention sink)。特別是，我們的分析表明，儘管接收到很高的注意力權重，但移除無關的視覺沉沒詞元 (Tokens) 並不影響模型的效能。因此，我們將對這些詞元 (Tokens) 的注意力回收為剩餘資源，重新分配注意力預算，以增強對圖像的關注。為了實現這一點，我們引入了視覺注意力重新分配 (Visual Attention Redistribution, VAR)，這是一種在以圖像為中心的注意力頭中重新分配注意力的方法，我們將其識別為本質上專注於視覺資訊。VAR 可以無縫地應用於不同的 LMMs，以提高在各種任務上的效能，包括通用視覺語言任務、視覺幻覺任務和以視覺為中心的任務，所有這些都不需要額外的訓練、模型或推論步驟。實驗結果表明，VAR 使 LMMs 能夠透過調整其內部注意力機制更有效地處理視覺資訊，為增強 LMMs 的多模態能力提供了一個新的方向。

arXiv.orgSeil Kang

大型多模態模型 (Large multimodal models) 表現出一種稱為「視覺注意力沉沒 (visual attention sink)」的現象，即它們始終如一地將高注意力權重分配給特定的視覺詞元 (Tokens)，而這些詞元 (Tokens) 與相應的文字詞元 (Tokens) 無關。這些無關的視覺詞元 (Tokens) 出現是由於特定隱藏狀態維度的大量激活，類似於語言模型中的注意力沉沒 (attention sinks)。視覺注意力重新分配 (Visual Attention Redistribution, VAR) 方法識別以圖像為中心的注意力頭，並將注意力預算從沉沒詞元 (Tokens) 重新分配到有意義的視覺內容，從而提高跨視覺語言任務的效能，而無需額外的訓練。

要點：

視覺沉沒詞元 (Tokens) 可以透過從基礎語言模型繼承的固定維度中的極端激活幅度來識別
移除視覺沉沒詞元 (Tokens) 儘管接收到很高的注意力權重，但不會影響模型效能，這表明浪費了計算資源
VAR 將注意力從沉沒詞元 (Tokens) 重新分配到有意義的視覺內容，從而提高通用視覺語言、減少幻覺和以視覺為中心的任務的效能

tag邁向多模態 LLM 中詞元化 (Tokenization) 的語義等價

邁向多模態 LLM 中詞元化 (Tokenization) 的語義等價

多模態大型語言模型 (Multimodal Large Language Models, MLLMs) 在處理視覺語言任務方面表現出卓越的能力。MLLMs 的關鍵之一在於視覺詞元化 (vision tokenization)，它涉及有效地將輸入視覺訊號轉換為對 LLM 最有利的特徵表示。然而，現有的視覺詞元器 (vision tokenizers) 對於視覺和語言之間的語義對齊至關重要，但仍然存在問題。現有的方法過度地分割視覺輸入，破壞了視覺語義的完整性。為了解决這個問題，本文提出了一種新穎的動態語義等價視覺詞元器 (Semantic-Equivalent Vision Tokenizer, SeTok)，它透過動態聚類演算法將視覺特徵分組成語義單元，根據圖像複雜性靈活地確定詞元 (Tokens) 的數量。由此產生的視覺詞元 (Tokens) 有效地保留了語義完整性，並捕捉了低頻和高頻視覺特徵。實驗結果證明，配備 SeTok 的所提出的 MLLM (Setokim) 在各種任務中顯著地表現出卓越的效能。專案頁面位於 https://chocowu.github.io/SeTok-web/。

arXiv.orgShengqiong Wu

多模態 LLM 中傳統的視覺詞元化 (vision tokenization) 方法使用固定圖塊分割視覺輸入，破壞了語義完整性，並導致不良的視覺語言對齊。SeTok (Semantic-Equivalent Vision Tokenizer) 透過動態聚類來解决這個問題，該聚類將視覺特徵分組為連貫的語義單元，並且詞元 (Token) 計數會根據圖像複雜性進行調整。該系統使用雙重訓練目標：用於與語言進行語義對齊的對比損失和用於保留圖像重建的像素級細節的重建損失。

主要要點：

固定圖塊詞元化 (tokenization) 透過跨任意圖塊邊界分割物件來破壞視覺語義的完整性
動態聚類演算法可以根據圖像語義複雜性（而不是固定網格結構）自適應地確定最佳詞元 (Token) 計數
雙重目標訓練平衡了與語言的語義對齊，同時保留了足夠的視覺細節以用於重建任務

tagHymba：用於小型語言模型的混合頭架構

Hymba：用於小型語言模型的混合頭架構

我們提出了 Hymba，這是一個小型語言模型系列，其特點是混合頭平行架構，該架構將轉換器注意力機制與狀態空間模型 (state space models, SSMs) 整合在一起，以提高效率。注意力頭提供高解析度的回憶，而 SSM 頭則實現有效的上下文摘要。此外，我們引入了可學習的元詞元 (meta tokens)，這些元詞元 (meta tokens) 會添加到提示詞 (Prompts) 的前面，用於儲存關鍵資訊並減輕與注意力機制相關的「被迫關注」負擔。該模型透過整合跨層鍵值 (key-value, KV) 共享和部分滑動視窗注意力來進一步優化，從而形成緊湊的快取大小。在開發過程中，我們進行了一項受控研究，比較了相同設定下的各種架構，並觀察到我們提出的架構的顯著優勢。值得注意的是，Hymba 為小型 LM 取得了最先進的成果：我們的 Hymba-1.5B-Base 模型在效能上超越了所有 2B 以下的公開模型，甚至優於 Llama-3.2-3B，平均準確度提高了 1.32%，快取大小減少了 11.67 倍，吞吐量提高了 3.49 倍。

arXiv.orgXin Dong

Hymba 引入了一種混合頭架構，該架構在每一層中並行地將轉換器注意力機制與狀態空間模型 (state space models, SSMs) 結合在一起，從而實現同時進行高解析度的回憶和有效的上下文摘要。該架構結合了可學習的元詞元 (meta tokens)、跨層鍵值共享和部分滑動視窗注意力，以實現緊湊的快取大小。Hymba-1.5B 超越了所有 2B 以下的模型，並且優於 Llama-3.2-3B，同時實現了 11.67 倍的快取減少和 3.49 倍的吞吐量改進。

要點：

並行混合頭架構優於注意力和 SSM 組件的順序堆疊，因為它可以同時處理互補機制
可學習的元詞元 (meta tokens) 充當壓縮的世界知識，並減輕了 softmax 注意力機制的「被迫關注」負擔
跨層鍵值共享和滑動視窗注意力優化在不犧牲效能的情況下實現了顯著的快取大小減少

ICLR2025 大會心得

tagMitigate the Gap：改善 CLIP 中的跨模態對齊

tagjina-clip-v2：用於文字和圖像的多語言多模態向量模型 (Embeddings)

tagReaderLM-V2：用於 HTML 轉 Markdown 和 JSON 的小模型 (Small Language Model, SLM)

tagTIPS：具有空間感知能力的文本圖像預訓練

tagCut Cross-Entropy：用於大型詞彙表的記憶體高效損失計算

tagFlexPrefill：用於長序列的上下文感知稀疏注意力

tag通過溫度控制實現有效的訓練後向量模型 (Embeddings)壓縮

tag大型語言模型中的注意力機制產生高效的零樣本重排器 (Reranker)

tag在成對數據中橋接和建模相關性，以實現直接偏好優化

tagTAID：用於高效知識轉移的時序自適應插值蒸餾

tagSVD-LLM：用於大型語言模型壓縮的截斷感知奇異值分解

tag看你被告知的內容：大型多模態模型中的視覺注意力接收器

tag邁向多模態 LLM 中詞元化 (Tokenization) 的語義等價

tagHymba：用於小型語言模型的混合頭架構