ICLR 2025 是世界上規模最大、最具影響力的機器學習會議之一,與 NeurIPS 和 ICML 並列為三大頂尖的 AI 研究發表場所。今年是 ICLR 首次在亞洲舉辦,於 4 月 24 日至 28 日在新加坡 EXPO 舉行,這是一個歷史性的里程碑。時機再完美不過了——就在 2025 年 1 月下旬的「DeepSeek 時刻」之後幾個月,這件事震驚了矽谷,並展示了中國快速發展的 AI 研究。再加上 2024 年 2 月生效的中國-新加坡 30 天互免簽證協議,我們見證了中國參與者在此次會議上空前激增。

今年,我們的團隊很高興能前往新加坡,Sedigheh Eslami、Andreas Koukounas、Wang Feng 和 CEO Han Xiao 將發表三篇研究論文,展示我們在 jina-clip-v2 和 ReaderLM-v2 上為改進搜尋所做的最新研究。當 AI 世界的其他地方似乎都陷入了對更大模型的軍備競賽時,我們決定反其道而行——證明當你把設計做好時,更小、更聰明的模型可以發揮更大的作用。

所以,拿起你的咖啡,舒適地坐下來,讓我們一起探索一些我們覺得有趣的 ICLR 研究——首先從我們自己關於為什麼小即是強大的觀點開始。
tagMitigate the Gap:改善 CLIP 中的跨模態對齊


CLIP 模型在圖像-文字任務中表現出色,但存在 「模態差距 (modality gap)」——圖像和文字的向量模型 (Embeddings)聚集在不同的區域,限制了效能。這項工作由我們的實習生 Sedigheh Eslami 在哈索·普拉特納研究所攻讀博士學位期間領導,旨在解決這個根本問題。
我們發現,簡單的向量轉換會破壞向量模型 (Embedding)的結構。相反地,AlignCLIP 使用具有語義正規化分離目標的共享編碼器參數。這種雙重方法成功地減少了模態差距 (modality gap),同時提高了零樣本和微調任務的效能。
重點:
- 模態差距 (Modality gap)是 CLIP 效能的關鍵瓶頸
- 參數共享 + 語義分離有效地彌合了模態差異
- 該方法在下游評估中提供了可衡量的增益
tagjina-clip-v2:用於文字和圖像的多語言多模態向量模型 (Embeddings)


這是 jina-clip-v2 背後的論文,它是一個多語言多模態向量模型 (embedding),使用多任務、多階段對比學習方法,支援純文字和跨模態任務。該模型結合了一個文字編碼器(Jina XLM-RoBERTa,561M 參數)和一個視覺編碼器(EVA02-L14,304M 參數),總共有 865M 參數。我們在來自 29 種非英語語言的多語言文本和視覺豐富的文檔上進行訓練,採用 Matryoshka Representation Learning 來實現靈活的向量模型 (embedding)維度。
重點:
- 由於模態資訊不對稱,在具有共享溫度參數的單一批次中混合圖像-文字和文字-文字數據,比單獨訓練的效果更差。
- 跨模態對齊的訓練本質上會損害純文字向量模型 (embedding)的品質,這顯示了一種根本性的權衡。
- 將向量模型 (embedding)從 1,024 維度縮減到 256 維度造成的效能損失不到 1%,這揭示了高維表示中存在的大量效率低下。
tagReaderLM-V2:用於 HTML 轉 Markdown 和 JSON 的小模型 (Small Language Model, SLM)


這是 ReaderLM-v2 背後的論文,這是一個緊湊的 15 億參數語言模型,專為高效的網路內容提取而設計。該模型處理高達 512K 個詞元 (Tokens) 的文檔,將混亂的 HTML 轉換為乾淨的 Markdown 或 JSON 格式。我們的方法結合了一個三階段的數據合成流程 (DRAFT-REFINE-CRITIQUE),該流程透過迭代改進生成高品質的訓練數據,並結合統一的訓練框架,包括連續預訓練、監督微調、直接偏好優化和自我對弈迭代調整。ReaderLM-v2 在基準測試中優於 GPT-4o 和其他更大的模型 15-20%,尤其擅長處理超過 100K 個詞元 (Tokens) 的文檔,同時保持顯著較低的計算需求。
重點:
- 一個 15 億參數的模型在 HTML 提取方面優於 GPT-4o 和 32B 模型 15-20%,證明了針對特定任務的微調勝過原始規模以獲得領域專業知識。
- 該模型在第 4 階段「自我對弈」中生成自己的訓練數據,創建比人工策劃的數據集更好的數據集,並透過遞迴回饋不斷提高效能。
- 該模型在訓練期間遭受了災難性的詞元 (Tokens) 重複,但添加對比損失以鼓勵區分性表示完全消除了這種退化問題。
tagTIPS:具有空間感知能力的文本圖像預訓練


透過對比學習訓練的視覺語言模型擅長全局圖像文本對齊,但在密集空間理解任務中失敗。TIPS 將對比學習與遮罩圖像建模相結合,並使用編碼空間關係的合成生成標題,創建適用於密集和全局理解的 向量模型 (Embeddings),而無需針對特定任務進行微調。該方法展示了如何將空間感知納入 向量模型 (Embedding),以實現更好的文檔理解和多模式檢索應用。
重點:
- 對於學習空間感知表示,具有空間描述的合成標題比嘈雜的網路標題提供更豐富的訓練訊號
- 將對比圖像文本學習與自我監督目標相結合,彌合了全局和密集理解之間的差距
- 在各種任務上的現成效能消除了跨不同視覺應用進行專門微調的需要
tagCut Cross-Entropy:用於大型詞彙表的記憶體高效損失計算


交叉熵計算在大型詞彙表語言模型中佔據了主要的記憶體使用量,需要具體化與 batch_size × vocabulary_size 成比例的 logit 矩陣。CCE 重新制定了計算方式,使用自定義 CUDA 核心即時計算僅必要的組件,從而將記憶體消耗從 GB 級減少到 MB 級,同時保持相同的訓練動態。這使得在有限的硬體上訓練具有更大詞彙表的 向量模型 (Embedding) 和 重排器 (Reranker) 模型成為可能,尤其有利於多語言和特定領域的應用。
重點:
- 對於大型詞彙表模型,交叉熵損失計算可能消耗 90% 的訓練記憶體,成為主要的瓶頸
- 即時計算 log-sum-exp 項消除了具體化完整 logit 矩陣的需要,而無需進行數學近似
- 自定義核心實作可以在保持精確收斂特性的同時顯著減少記憶體
tagFlexPrefill:用於長序列的上下文感知稀疏注意力


長序列 Transformer 推理面臨著平方級的注意力複雜度。FlexPrefill 使用 Jensen-Shannon 散度動態地確定每個頭部的稀疏注意力模式,並基於累積注意力分數自適應地分配計算預算,從而在不同的內容類型中實現顯著的加速,同時將準確性損失降到最低。該方法能夠有效地處理搜尋和檢索系統的長文檔,使較小的語言模型能夠處理擴展的上下文,從而更好地理解文檔。
要點:
- 適應內容類型的動態稀疏注意力模式,優於不同輸入特徵的固定稀疏策略
- 基於注意力分數累積的每個頭部的自適應預算分配,可即時優化計算分佈
- 上下文感知的稀疏性實現了 13.7 倍的加速,且準確性損失僅為 0.1%,同時無需重新訓練模型
tag通過溫度控制實現有效的訓練後向量模型 (Embeddings)壓縮

對比學習中的溫度縮放顯著影響了學習到的向量模型 (Embeddings)的內在維度,較低的溫度會產生更易於壓縮的表示。該論文表明,溫度聚合方法可以將向量模型 (Embeddings)維度降低一個數量級,同時保持檢索性能,揭示了聚類有效性和檢索準確性之間的權衡。這使得密集檢索系統能夠高效部署,在這些系統中,記憶體約束對於生產應用至關重要。
要點:
- 對比訓練中較低的溫度值會產生具有較低內在維度的向量模型 (Embeddings),從而更有效地壓縮
- 溫度聚合技術在檢索任務中實現了 10 倍的壓縮率,且品質下降極小
- 在訓練期間系統地控制溫度,為優化壓縮-性能權衡提供了一種直接的機制
tag大型語言模型中的注意力機制產生高效的零樣本重排器 (Reranker)

In-Context Re-ranking (ICR) 利用大型語言模型 (LLM) 中的注意力模式變化來執行文檔重排序,而無需生成文本,從而將計算複雜度從 O(N log N) 降低到 O(1)。該方法聚合跨層和頭部的注意力權重以計算相關性分數,並使用無內容的查詢校準來減輕 LLM 的偏差。這種方法可以使用開放權重的模型實現高效的重排序,而無需專門的微調或昂貴的生成過程。
要點:
- 大型語言模型 (LLM) 中的注意力模式包含足夠的信號,可以有效地進行文檔重排序,而無需生成文本
- 無內容的查詢校準成功地減輕了基於注意力的評分機制中的內在偏差
- 與生成方法相比,ICR 實現了卓越的性能和效率,尤其是在複雜的多跳檢索任務中
tag在成對數據中橋接和建模相關性,以實現直接偏好優化

傳統的 DPO 受到偏好對中選擇的回應和拒絕的回應之間關聯性較弱的影響,從而限制了對齊效果。 BMC 透過合成在獲勝回應和失敗回應之間插值的偽首選回應來解決此問題,然後使用策略模型置信度應用詞元 (Tokens) 等級的相關性建模。這個兩階段的方法首先透過有針對性的修改來橋接偏好對,然後在訓練期間對細粒度相關性進行建模,以提高學習訊號品質。
重點:
- 偏好資料中選擇的回應和拒絕的回應之間關聯性較弱,顯著限制了 DPO 在模型對齊方面的效果
- 合成作為偏好對之間插值的偽首選回應,為最佳化提供了更豐富的學習訊號
- 使用策略置信度的詞元 (Tokens) 等級相關性建模動態權衡訓練訊號,以捕捉偏好資料中的細微變化
tagTAID:用於高效知識轉移的時序自適應插值蒸餾

當在大型模型和小型模型之間傳輸知識時,知識蒸餾面臨著容量差距、模式平均和模式崩潰的挑戰。 TAID 引入了一種動態中間教師,它在學生分佈和教師分佈之間進行插值,根據訓練進度逐漸調整目標分佈。這種方法透過理論保證防止了模式崩潰,並在各種模型大小上實現了卓越的效能,從而能夠開發緊湊但功能強大的語言模型。
重點:
- 與固定的教師蒸餾相比,在訓練期間進行調整的動態中間教師提供了更平滑的學習軌跡
- TAID 透過自適應插值防止了模式崩潰,同時平衡了不同容量差距之間的知識轉移
- 該方法能夠訓練最先進的緊湊模型,而無需專門的架構或廣泛的超參數調整
tagSVD-LLM:用於大型語言模型壓縮的截斷感知奇異值分解

現有的基於 SVD 的壓縮方法未能考慮近似期間的輸入激活,並且缺乏截斷後的微調。 SVD-LLM 結合了考慮激活分佈的截斷感知資料美白,並在壓縮後應用基於 LoRA 的微調。該方法建立了奇異值和壓縮損失之間的理論聯繫,從而實現了比結構化剪枝和量化方法更合理的壓縮決策。
重點:
- 考慮輸入激活的截斷感知資料美白顯著提高了 SVD 壓縮效果,優於與激活無關的方法
- 壓縮後的 LoRA 微調彌補了精度下降,同時保持了低秩分解的優勢
- 將奇異值與壓縮損失聯繫起來的理論分析能夠做出合理的截斷決策,優於啟發式方法
tag看你被告知的內容:大型多模態模型中的視覺注意力接收器

大型多模態模型 (Large multimodal models) 表現出一種稱為「視覺注意力沉沒 (visual attention sink)」的現象,即它們始終如一地將高注意力權重分配給特定的視覺詞元 (Tokens),而這些詞元 (Tokens) 與相應的文字詞元 (Tokens) 無關。這些無關的視覺詞元 (Tokens) 出現是由於特定隱藏狀態維度的大量激活,類似於語言模型中的注意力沉沒 (attention sinks)。視覺注意力重新分配 (Visual Attention Redistribution, VAR) 方法識別以圖像為中心的注意力頭,並將注意力預算從沉沒詞元 (Tokens) 重新分配到有意義的視覺內容,從而提高跨視覺語言任務的效能,而無需額外的訓練。
要點:
- 視覺沉沒詞元 (Tokens) 可以透過從基礎語言模型繼承的固定維度中的極端激活幅度來識別
- 移除視覺沉沒詞元 (Tokens) 儘管接收到很高的注意力權重,但不會影響模型效能,這表明浪費了計算資源
- VAR 將注意力從沉沒詞元 (Tokens) 重新分配到有意義的視覺內容,從而提高通用視覺語言、減少幻覺和以視覺為中心的任務的效能
tag邁向多模態 LLM 中詞元化 (Tokenization) 的語義等價

多模態 LLM 中傳統的視覺詞元化 (vision tokenization) 方法使用固定圖塊分割視覺輸入,破壞了語義完整性,並導致不良的視覺語言對齊。SeTok (Semantic-Equivalent Vision Tokenizer) 透過動態聚類來解决這個問題,該聚類將視覺特徵分組為連貫的語義單元,並且詞元 (Token) 計數會根據圖像複雜性進行調整。該系統使用雙重訓練目標:用於與語言進行語義對齊的對比損失和用於保留圖像重建的像素級細節的重建損失。
主要要點:
- 固定圖塊詞元化 (tokenization) 透過跨任意圖塊邊界分割物件來破壞視覺語義的完整性
- 動態聚類演算法可以根據圖像語義複雜性(而不是固定網格結構)自適應地確定最佳詞元 (Token) 計數
- 雙重目標訓練平衡了與語言的語義對齊,同時保留了足夠的視覺細節以用於重建任務
tagHymba:用於小型語言模型的混合頭架構

Hymba 引入了一種混合頭架構,該架構在每一層中並行地將轉換器注意力機制與狀態空間模型 (state space models, SSMs) 結合在一起,從而實現同時進行高解析度的回憶和有效的上下文摘要。該架構結合了可學習的元詞元 (meta tokens)、跨層鍵值共享和部分滑動視窗注意力,以實現緊湊的快取大小。Hymba-1.5B 超越了所有 2B 以下的模型,並且優於 Llama-3.2-3B,同時實現了 11.67 倍的快取減少和 3.49 倍的吞吐量改進。
要點:
- 並行混合頭架構優於注意力和 SSM 組件的順序堆疊,因為它可以同時處理互補機制
- 可學習的元詞元 (meta tokens) 充當壓縮的世界知識,並減輕了 softmax 注意力機制的「被迫關注」負擔
- 跨層鍵值共享和滑動視窗注意力優化在不犧牲效能的情況下實現了顯著的快取大小減少