ICLR2025で学んだこと

ICLR 2025は、世界最大かつ最も影響力のある機械学習会議の1つであり、NeurIPSやICMLと並び、影響力の大きいAI研究のための主要な場となっています。今年はICLRがアジアで初めて開催され、4月24日から28日までシンガポールEXPOで開催されるという歴史的な節目を迎えました。そのタイミングは、シリコンバレーに衝撃を与え、中国の急速に進歩するAI研究を実証した2025年1月下旬の「DeepSeekモーメント」からわずか数ヶ月後であったため、完璧でした。2024年2月に発効した中国とシンガポールの30日間の相互ビザ免除協定と相まって、会議への中国からの参加者が前例のないほど急増しました。

今年は、Sedigheh Eslami、Andreas Koukounas、Wang Feng、そしてCEOのHan Xiaoが、より良い検索のためのjina-clip-v2とReaderLM-v2に関する最新の研究を紹介する3つの研究論文を発表するため、シンガポールへの旅行に心が躍りました。AIの世界の他の人々が、より大きく、より大きなモデルを求めて軍拡競争に夢中になっているように見える一方で、私たちは、設計がうまくいけば、より小さく、より賢いモデルがその重さを十分に発揮できることを証明し、あえて常識に逆らうことにしました。

さあ、コーヒーを片手に、ゆったりとくつろいで、ICLRの研究の中から、私たちが興味深いと思ったものを探求してみましょう。まずは、小さいことがなぜ強力なのかについての私たちの見解から始めましょう。

ギャップを軽減する：CLIPにおけるクロスモーダルアライメントの改善のためのアプローチの調査

Contrastive Language--Image Pre-training (CLIP)は、ゼロショット分類およびクロスモーダルなビジョン-言語タスクにおいて目覚ましい改善を示しています。しかし、幾何学的な観点から見ると、CLIPの埋め込み空間には顕著なモーダルギャップがあることがわかっています。このギャップにより、埋め込み空間は過度に疎で非連結になり、異なるモダリティが超球の異なるサブリージョンに密集して分布しています。本研究では、主に3つの質問に答えることを目指します。1. マルチモーダルエンコーダ間でパラメータ空間を共有すると、モーダルギャップは減少するのか？2. モーダル内分離によってユニモーダル埋め込みを押し広げることで、ギャップを軽減できるのか？3. これらのギャップ軽減アプローチは、ダウンストリームのパフォーマンスにどのように影響するのか？これらの質問に答えるためにAlignCLIPを設計し、広範な実験を通じて、AlignCLIPが埋め込みのクロスモーダルアライメントにおいて顕著な改善を達成し、それによってモーダルギャップを減少させると同時に、いくつかのゼロショットおよびファインチューニングのダウンストリーム評価におけるパフォーマンスを向上させることを示します。

arXiv.orgSedigheh Eslami

CLIPモデルは、画像とテキストのタスクに優れていますが、「モーダルギャップ」に悩まされています。画像とテキストのベクトル模型 (Embeddings)が別々の領域に集まり、パフォーマンスが制限されます。この研究は、Hasso Plattner Instituteでの博士課程中にインターン生のSedigheh Eslamiが主導し、この根本的な問題に取り組んでいます。

単純なベクトルの変換は、埋め込み構造を破壊することを発見しました。代わりに、AlignCLIPは、意味的に正則化された分離目標を持つ共有エンコーダパラメータを使用します。この二重のアプローチは、ゼロショットおよびファインチューニングタスク全体でパフォーマンスを向上させながら、モーダルギャップをうまく縮小します。

ポイント：

モーダルギャップは、CLIPのパフォーマンスにおける重大なボトルネックです。
パラメータの共有と意味的分離は、モーダル間の違いを効果的に埋めます。
このアプローチは、ダウンストリーム評価で測定可能な改善をもたらします。

tagjina-clip-v2：テキストと画像のための多言語マルチモーダルベクトル模型 (Embeddings)

jina-clip-v2：テキストと画像のための多言語マルチモーダルベクトル模型 (Embeddings)

Contrastive Language-Image Pretraining (CLIP)は、クロスモーダルな情報検索およびマルチモーダルな理解タスクに広く使用されています。ただし、CLIPモデルは主にクロスモーダルなビジョン-言語タスクに最適化されており、シングルモードのテキストタスクではパフォーマンスが低下します。さらに、これらのモデルは多くの場合、英語のデータセットでトレーニングされているため、多言語理解が不足しています。さらに、視覚的な理解の観点から、以前のCLIPベースのモデルは、視覚的に豊富なドキュメントの理解が不十分です。本研究では、テキストのみのタスクとクロスモーダルタスクの両方をサポートするために、マルチタスクおよびマルチステージの対照学習パラダイムを介して、テキストペア、トリプレット、および画像-テキストペアでトレーニングされた対照的なビジョン-言語モデルであるjina-clip-v2を提案します。多言語テキストエンコーダを採用し、トレーニングデータセットを、ヒンディー語、中国語、ドイツ語、フランス語などを含む29の非英語言語からの多言語テキスト、および視覚的に豊富なドキュメントの画像を含むように拡張します。モデルのパフォーマンスを評価し、jina-clip-v2が、英語および多言語設定の両方で、ゼロショットテキストのみの検索、意味的テキスト類似性、およびクロスモーダル検索タスクにおいて、最先端のCLIPベースのモデルよりも著しい改善を達成することを示します。jina-clip-v2は、埋め込み次元の柔軟性も提供し、ユーザーが表現の粒度を選択できるようにします。jina-clip-v2は、https://huggingface.co/jinaai/jina-clip-v2で公開されています。

arXiv.orgAndreas Koukounas

これは、マルチタスク、マルチステージの対照学習アプローチを使用して、テキストのみのタスクとクロスモーダルタスクの両方をサポートする多言語マルチモーダル埋め込みモデルであるjina-clip-v2の背後にある論文です。このモデルは、テキストエンコーダ (Jina XLM-RoBERTa、561Mパラメータ) とビジョンエンコーダ (EVA02-L14、304Mパラメータ) を組み合わせて、合計865Mパラメータを実現しています。29の非英語言語からの多言語テキストと視覚的に豊富なドキュメントでトレーニングし、柔軟な埋め込み次元のためにMatryoshka Representation Learningを採用しています。

ポイント：

共有温度パラメータを持つ単一のバッチで画像テキストデータとテキストテキストデータを混合すると、モダリティ情報の非対称性のため、個別のトレーニングよりもパフォーマンスが低下します。
クロスモーダルアライメントのためのトレーニングは、本質的に純粋なテキスト埋め込みの品質を損ない、根本的なトレードオフを示しています。
埋め込みを1,024次元から256次元に削減すると、パフォーマンスの低下は1％未満であり、高次元表現に大規模な非効率性があることが明らかになります。

tagReaderLM-V2：HTMLからMarkdownおよびJSONへの変換のための小規模言語モデル (SLM)

ReaderLM-v2：HTMLからMarkdownおよびJSONへの変換のための小規模言語モデル (SLM)

効率的なウェブコンテンツ抽出のために設計された、コンパクトな15億パラメータの言語モデルであるReaderLM-v2を紹介します。私たちのモデルは、最大512Kトークン (Tokens)のドキュメントを処理し、乱雑なHTMLを高精度でクリーンなMarkdownまたはJSON形式に変換します。これにより、大規模言語モデル (LLM)のグラウンディングに最適なツールとなります。モデルの有効性は、2つの主要なイノベーションの結果です。(1) ウェブコンテンツ抽出を反復的にドラフトし、改良し、批評することによって、高品質で多様なトレーニングデータを生成する3段階のデータ合成パイプライン。 (2) 継続的な事前トレーニングと多目的最適化を組み合わせた統合トレーニングフレームワーク。集中的な評価により、ReaderLM-v2は、慎重にキュレーションされたベンチマークでGPT-4o-2024-08-06やその他のより大きなモデルを15〜20％上回り、特に100Kトークン (Tokens)を超えるドキュメントで優れており、計算要件を大幅に低く抑えています。

arXiv.orgFeng Wang

これは、効率的なウェブコンテンツ抽出のために設計された、コンパクトな15億パラメータの言語モデルであるReaderLM-v2の背景にある論文です。このモデルは、最大512Kのトークン (Tokens) のドキュメントを処理し、乱雑なHTMLをクリーンなMarkdownまたはJSON形式に変換します。私たちのアプローチは、継続的な事前学習、教師ありファインチューニング、直接選好最適化、自己プレイ反復チューニングを組み合わせた統一されたトレーニングフレームワークにより、反復的な洗練を通じて高品質のトレーニングデータを生成する3段階のデータ合成パイプライン（DRAFT-REFINE-CRITIQUE）を組み合わせたものです。ReaderLM-v2は、ベンチマークにおいてGPT-4oや他のより大規模なモデルを15〜20％上回り、特に100Kトークンを超えるドキュメントで優れており、計算要件は大幅に低く抑えられています。

ポイント：

15億パラメータのモデルがHTML抽出でGPT-4oおよび32Bモデルを15〜20％上回り、タスク固有のファインチューニングがドメイン専門知識のために生のスケールを上回ることを証明しています。
このモデルは、ステージ4の「自己プレイ」で独自のトレーニングデータを生成し、人間がキュレーションしたデータセットよりも優れたデータセットを作成し、再帰的なフィードバックを通じてパフォーマンスを継続的に向上させます。
モデルはトレーニング中に壊滅的なトークン (Tokens) の繰り返しに苦しんでいましたが、判別表現を促進するためにコントラスト損失を追加することで、この退化の問題を完全に解消しました。

tagTIPS：空間認識を備えたテキスト-画像事前学習

TIPS：空間認識を備えたテキスト-画像事前学習

arXiv.orgKevis-Kokitsi Maninis

コントラスト学習でトレーニングされたビジョン-言語モデルは、グローバルな画像-テキストアライメントに優れていますが、密な空間理解タスクでは失敗します。TIPSは、コントラスト学習とマスクされた画像モデリングを組み合わせ、空間的関係をエンコードする合成的に生成されたキャプションを使用することで、タスク固有のファインチューニングなしで、密な理解とグローバルな理解の両方に適した埋め込み (Embeddings) を作成します。このアプローチは、空間認識をより良いドキュメント理解とマルチモーダル検索アプリケーションのために埋め込み (Embedding) モデルに組み込む方法を示しています。

ポイント：

空間記述を含む合成キャプションは、空間的に認識された表現を学習するために、ノイズの多いウェブキャプションよりも豊富なトレーニングシグナルを提供します。
コントラストのある画像-テキスト学習と自己教師ありの目的を組み合わせることで、グローバルな理解と密な理解の間のギャップを埋めます。
多様なタスクでのオフザシェルフパフォーマンスにより、さまざまなビジョンアプリケーションで特殊なファインチューニングを行う必要がなくなります。

tagカット交差エントロピー：大規模語彙のためのメモリ効率の高い損失計算

大規模語彙言語モデルでの損失を削減する

言語モデルがますます大きくなるにつれて、その語彙も大きくなります。これにより、トレーニング中のLLMのメモリフットプリントが、単一のレイヤーである損失計算における交差エントロピーに不均衡にシフトしました。交差エントロピーは、入力トークンと語彙項目の各ペアのエントリを含むロジット行列を構築し、小さなモデルの場合、LLMの残りの部分よりも桁違いに多くのメモリを消費します。私たちは、すべてのトークン (Tokens) のロジットをグローバルメモリに具体化することなく交差エントロピー損失を計算する方法である、カット交差エントロピー（CCE）を提案します。CCEは、正しいトークン (Tokens) のロジットのみを計算し、その場で全ロジットに対するlog-sum-expを評価します。行列乗算と語彙に対するlog-sum-expリダクションをフラッシュメモリで実行するカスタムカーネルを実装し、交差エントロピー計算のグローバルメモリ消費を無視できるようにします。これは劇的な効果があります。Gemma 2（2B）モデルを例にとると、CCEは損失計算のメモリフットプリントを24 GBから1 MBに削減し、分類器ヘッドのトレーニング時間全体のメモリ消費を28 GBから1 GBに削減します。CCEのスループットを向上させるために、ソフトマックスの固有のスパース性を活用し、勾配への寄与がごくわずか（つまり、数値精度以下）である勾配計算の要素をスキップすることを提案します。実験により、メモリ消費の大幅な削減が、トレーニング速度や収束を犠牲にすることなく達成されることが示されています。

arXiv.orgErik Wijmans

交差エントロピー計算は、大規模な語彙言語モデルのメモリ使用量を支配し、batch_size×vocabulary_sizeに比例するロジット行列の具体化を必要とします。CCEは、カスタムCUDAカーネルを使用して必要なコンポーネントのみをオンザフライで計算するように計算を再構成し、メモリ消費量をギガバイトからメガバイトに削減しながら、同一のトレーニングダイナミクスを維持します。これにより、制限されたハードウェアでより大きな語彙を使用して埋め込み (Embedding) モデルと重排器 (Reranker) モデルをトレーニングできるようになり、多言語およびドメイン固有のアプリケーションに特に役立ちます。

ポイント：

交差エントロピー損失計算は、大規模な語彙モデルのトレーニングメモリの90％を消費し、主要なボトルネックになる可能性があります。
log-sum-exp項のオンザフライ計算により、数学的な近似なしに完全なロジット行列を具体化する必要がなくなります。
カスタムカーネルの実装により、正確な収束特性を維持しながら、劇的なメモリ削減が可能になります。

tagFlexPrefill：長いシーケンスのためのコンテキスト認識スパース注意

FlexPrefill：効率的な長シーケンス推論のためのコンテキスト認識スパース注意メカニズム

arXiv.orgXunhao Lai

長シーケンストランスフォーマーの推論は、二次関数的なアテンションの複雑さに悩まされています。FlexPrefill は、Jensen-Shannonダイバージェンスを使用してヘッドごとにスパースなアテンションパターンを動的に決定し、累積アテンションスコアに基づいて計算予算を適応的に割り当てることで、多様なコンテンツタイプにわたって最小限の精度損失で大幅な高速化を実現します。この手法により、検索および検索システム向けの長いドキュメントの効率的な処理が可能になり、より小さな言語モデル (SLM) が拡張されたコンテキストを処理して、ドキュメントの理解を深めることができます。

ポイント：

コンテンツタイプに適応した動的なスパースアテンションパターンは、異なる入力特性にわたって固定されたスパース戦略よりも優れています
アテンションスコアの累積に基づくヘッドごとの適応的な予算割り当ては、リアルタイムで計算の分散を最適化します
コンテキストを考慮したスパース性は、モデルの再トレーニングを必要とせずに、13.7倍の高速化と0.1％の精度損失を実現します

tag温度制御による効果的な事後学習埋め込み (Embeddings) 圧縮

Effective post-training embedding compression via temperature...

Fixed-size learned representations (dense representations, or embeddings) are widely used in many machine learning applications across language, vision or speech modalities. This paper investigates…

OpenReview.netGeorgiana Dinu

コントラスト学習における温度スケーリングは、学習された埋め込み (Embeddings) の本質的な次元に大きな影響を与え、温度が低いほど圧縮可能な表現が生成されます。本論文では、温度集約法により、検索パフォーマンスを維持しながら埋め込み (Embeddings) の次元を桁違いに削減できることを示し、クラスタリングの有効性と検索精度との間のトレードオフを明らかにしています。これにより、メモリ制約がプロダクションアプリケーションにとって重要な高密度検索システムの効率的な展開が可能になります。

ポイント：

コントラスト学習における低い温度値は、より効果的に圧縮できる、より低い本質的な次元を持つ埋め込み (Embeddings) を生成します
温度集約技術は、検索タスク全体で品質の低下を最小限に抑えながら、10倍の圧縮率を達成します
トレーニング中の温度の体系的な制御は、圧縮とパフォーマンスのトレードオフを最適化するための直接的なメカニズムを提供します

tag大規模言語モデルにおけるアテンションは、効率的なゼロショット重排器 (Reranker) を生み出す

Attention in Large Language Models Yields Efficient Zero-Shot Re-Rankers

Information retrieval (IR) systems have played a vital role in modern digital life and have cemented their continued usefulness in this new era of generative AI via retrieval-augmented generation. With strong language processing capabilities and remarkable versatility, large language models (LLMs) have become popular choices for zero-shot re-ranking in IR systems. So far, LLM-based re-ranking methods rely on strong generative capabilities, which restricts their use to either specialized or powerful proprietary models. Given these restrictions, we ask: is autoregressive generation necessary and optimal for LLMs to perform re-ranking? We hypothesize that there are abundant signals relevant to re-ranking within LLMs that might not be used to their full potential via generation. To more directly leverage such signals, we propose in-context re-ranking (ICR), a novel method that leverages the change in attention pattern caused by the search query for accurate and efficient re-ranking. To mitigate the intrinsic biases in LLMs, we propose a calibration method using a content-free query. Due to the absence of generation, ICR only requires two (

O(1)

) forward passes to re-rank

N

documents, making it substantially more efficient than generative re-ranking methods that require at least

O(N)

forward passes. Our novel design also enables ICR to be applied to any LLM without specialized training while guaranteeing a well-formed ranking. Extensive experiments with two popular open-weight LLMs on standard single-hop and multi-hop information retrieval benchmarks show that ICR outperforms RankGPT while cutting the latency by more than 60% in practice. Through detailed analyses, we show that ICR’s performance is specially strong on tasks that require more complex re-ranking signals. Our findings call for further exploration on novel ways of utilizing open-weight LLMs beyond text generation.

arXiv.orgShijie Chen

In-Context Re-ranking (ICR) は、テキスト生成なしでドキュメントの重排 (Re-ranking) を実行するために、LLM のアテンションパターンの変化を利用し、計算の複雑さを O(N log N) から O(1) に削減します。この手法は、レイヤーとヘッド全体のアテンション重みを集約して関連性スコアを計算し、コンテンツフリーなクエリキャリブレーションを使用して LLM のバイアスを軽減します。このアプローチにより、特別な微調整や高価な生成プロセスを必要とせずに、オープンウェイトモデルでの効率的な重排 (Re-ranking) が可能になります。

ポイント：

LLM のアテンションパターンには、テキスト生成を必要とせずに効果的なドキュメントの重排 (Re-ranking) に十分なシグナルが含まれています
コンテンツフリーなクエリキャリブレーションは、アテンションベースのスコアリングメカニズムにおける本質的なバイアスを軽減することに成功しています
ICR は、特に複雑なマルチホップ検索タスクにおいて、生成メソッドと比較して優れたパフォーマンスと効率を実現します

tag直接選好最適化のためのペアワイズデータにおける相関関係の橋渡しとモデリング

Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization

直接優先度最適化 (DPO) は、広く採用されているオフラインの優先度最適化アルゴリズムであり、ペアワイズの優先度データを用いて、大規模言語モデル (LLM) を人間が望む行動に合致させることを目的としています。しかし、ペアワイズデータにおける勝利応答と敗北応答の生成は、通常、個別に行われるため、両者の相関が弱まり、最適なアラインメント性能が得られません。この問題に対処するため、ペアワイズデータにおける相関関係の橋渡しとモデル化を行う効果的なフレームワークであるBMCを提案します。まず、ターゲットを絞った修正を通じてペアワイズ優先度シグナルの整合性と情報量を高め、勝利応答を参考にして敗北応答を改善することで、疑似勝利応答を合成します。次に、DPOだけではこれらの相関関係をモデル化し、微妙なバリエーションを捉えるには不十分であることを特定します。そこで、学習中にポリシーモデルの信頼度を動的に活用することで、トークンレベルの相関関係を学習することを提案します。QA、数学、指示追従タスクに関する包括的な実験により、我々のアプローチの有効性が実証され、DPOを含む競合するベースラインを大幅に上回っています。さらに、詳細な定量的分析により、我々の手法がDPOよりも優れた性能を発揮する理由が明らかになり、他のDPOバリアントに対する汎用性が示されています。我々は、https://github.com/YJiangcm/BMC でリポジトリを公開しています。

arXiv.orgYuxin Jiang

従来のDPOは、優先度のペアで選択された応答と拒否された応答の間の相関が弱いため、アラインメントの有効性が制限されます。BMCは、勝利応答と敗北応答の間を補間する疑似優先応答を合成し、次にポリシーモデルの信頼度を使用してトークンレベルの相関モデリングを適用することで、これに対処します。この2段階のアプローチでは、まずターゲットを絞った修正を通じて優先度のペアを橋渡しし、次に学習シグナルの品質を向上させるために学習中にきめ細かい相関関係をモデル化します。

ポイント：

優先度データにおける選択された応答と拒否された応答の間の弱い相関は、モデルのアラインメントに対するDPOの有効性を著しく制限します。
優先度のペア間の補間として疑似優先応答を合成すると、最適化のためのより豊富な学習シグナルが得られます。
ポリシーの信頼度を使用したトークンレベルの相関モデリングは、優先度データの微妙なバリエーションを捉えるために、学習シグナルを動的に重み付けします。

tagTAID：効率的な知識伝達のための時間適応補間蒸留

TAID：言語モデルにおける効率的な知識伝達のための時間適応補間蒸留

因果言語モデルは目覚ましい能力を発揮していますが、そのサイズはリソースに制約のある環境への展開に大きな課題をもたらしています。知識蒸留は、大規模な教師モデルから小規模な生徒モデルに知識を伝達するための広く使用されている技術であり、モデル圧縮のための有望なアプローチを提供します。残された重要な問題は、教師モデルと生徒モデルの間の大きな違い、すなわち、大きな容量ギャップ、モード平均化、およびモード崩壊であり、これらが蒸留中の障壁となることです。これらの問題に対処するために、

\textit{Temporally Adaptive Interpolated Distillation (TAID)}

を導入します。これは、生徒と教師の分布を適応的な中間分布を通じて動的に補間し、生徒の初期分布から教師の分布に徐々に移行する新しい知識蒸留アプローチです。TAIDがモード崩壊を防ぐ能力を示す理論的分析を提供し、モード平均化とモード崩壊のバランスを取りながら、容量ギャップに対処する上での有効性を経験的に示します。我々の包括的な実験は、命令チューニングと事前学習の両方のシナリオにおいて、さまざまなモデルサイズとアーキテクチャにわたるTAIDの優れた性能を実証しています。さらに、言語タスク用の

\texttt{TAID-LLM-1.5B}

と視覚言語タスク用の

\texttt{TAID-VLM-2B}

という2つの最先端のコンパクトな基盤モデルを開発することで、TAIDの実用的な影響を示します。これらの結果は、TAIDが高性能で効率的なモデルを作成し、よりアクセスしやすいAI技術の開発を促進する上で有効であることを示しています。

arXiv.orgMakoto Shing

知識蒸留は、大規模モデルと小規模モデルの間で知識を伝達する際に、容量ギャップ、モード平均化、およびモード崩壊という課題に直面します。TAIDは、生徒と教師の分布の間を補間する動的な中間教師を導入し、学習の進捗に基づいてターゲット分布を徐々に適応させます。このアプローチは、理論的な保証を通じてモード崩壊を防ぎ、さまざまなモデルサイズにわたって優れた性能を達成し、コンパクトでありながら有能な言語モデルの開発を可能にします。

ポイント：

学習中に適応する動的な中間教師は、固定教師蒸留と比較して、よりスムーズな学習軌跡を提供します。
TAIDは、適応的な補間を通じてモード崩壊を防ぎながら、異なる容量ギャップ全体での知識伝達のバランスを取ります。
この方法により、特殊なアーキテクチャや広範なハイパーパラメータ調整を必要とせずに、最先端のコンパクトモデルのトレーニングが可能になります。

tagSVD-LLM：大規模言語モデル圧縮のための打ち切り対応特異値分解

SVD-LLM：大規模言語モデル圧縮のための打ち切り対応特異値分解

大規模言語モデル（LLM）の進歩は、その実用的な展開にはLLM圧縮法が必要となるほど大きなサイズによって妨げられています。特異値分解（SVD）は、LLM圧縮のための有望なソリューションを提供します。ただし、最先端のSVDベースのLLM圧縮法には、2つの主要な制限があります。小さい特異値を打ち切ると、圧縮損失が大きくなる可能性があり、SVDの打ち切り後、圧縮された重みが更新されないことです。本研究では、既存の方法の制限に対処する、SVDベースの事後学習LLM圧縮法であるSVD-LLMを提案します。SVD-LLMは、特異値と圧縮損失の間の直接的なマッピングを保証するために、打ち切り対応データ白色化技術を組み込んでいます。さらに、SVD-LLMは、SVD圧縮後の精度低下を補うために、逐次低ランク近似によるパラメータ更新を採用しています。10個のデータセットと、3つの異なるLLMファミリからの7つのモデルで、3つの異なるスケールでSVD-LLMを評価します。我々の結果は、特に高いモデル圧縮率で、SVD-LLMが最先端技術よりも優れていることを示しています。我々のコードは、https://github.com/AIoT-MLSys-Lab/SVD-LLM で入手できます。

arXiv.orgXin Wang

既存のSVDベースの圧縮方法は、近似中の入力アクティベーションを考慮しておらず、打ち切り後の微調整がありません。SVD-LLMは、アクティベーション分布を考慮した打ち切り対応データ白色化を組み込み、圧縮後にLoRAベースの微調整を適用します。この方法は、特異値と圧縮損失の間の理論的な接続を確立し、構造化プルーニングおよび量子化アプローチよりも優れた、より原則的な圧縮の決定を可能にします。

ポイント：

入力アクティベーションを考慮した打ち切り対応データ白色化は、アクティベーションに依存しない方法よりもSVD圧縮の有効性を大幅に向上させます。
圧縮後のLoRA微調整は、低ランク分解の利点を維持しながら、精度低下を補います。
特異値を圧縮損失にリンクする理論的分析により、ヒューリスティックなアプローチよりも優れた、原則的な打ち切り決定が可能になります。

tagSee What You Are Told：大規模マルチモーダルモデルにおける視覚的注意シンク

See What You Are Told：大規模マルチモーダルモデルにおける視覚的注意シンク

大規模マルチモーダルモデル (LMM) は、トランスフォーマーデコーダーにおけるテキストと視覚的トークン間の注意機構を活用することで、画像を「見て」います。理想的には、これらのモデルはテキストトークンに関連する重要な視覚情報に焦点を当てる必要があります。しかし、最近の研究結果では、LMM は対応するテキストとは無関係な特定の視覚的トークンに対して、一貫して高い注意の重みを割り当てるという並外れた傾向があることが示されています。本研究では、これらの無関係な視覚的トークンの出現の背後にある特性を調査し、それらの特徴を調べます。私たちの調査結果は、この動作が特定の隠れ状態次元の大規模な活性化によって生じることを示しており、これは言語モデルに見られる注意シンクに似ています。したがって、この現象を視覚的注意シンクと呼びます。特に、私たちの分析では、無関係な視覚的シンクトークンを除去しても、高い注意の重みを受けているにもかかわらず、モデルのパフォーマンスに影響を与えないことが明らかになりました。その結果、これらのトークンへの注意を余剰リソースとして再利用し、注意予算を再配分して画像への焦点を高めます。これを実現するために、視覚的注意再配分 (VAR) を導入します。これは、本質的に視覚情報に焦点を当てている画像中心のヘッドで注意を再配分する方法です。VAR は、追加のトレーニング、モデル、または推論ステップを必要とせずに、さまざまな LMM にシームレスに適用して、一般的な視覚言語タスク、視覚的幻覚タスク、および視覚中心タスクを含む、幅広いタスクのパフォーマンスを向上させることができます。実験結果は、VAR が LMM が内部注意機構を調整することにより、視覚情報をより効果的に処理できるようにし、LMM のマルチモーダル機能を強化するための新しい方向性を提供することを示しています。

arXiv.orgSeil Kang

大規模マルチモーダルモデルは、「視覚的注意シンク」と呼ばれる現象を示します。これは、対応するテキストトークンとは無関係な特定の視覚的トークンに、一貫して高い注意の重みを割り当てるというものです。これらの無関係な視覚的トークンは、言語モデルの注意シンクと同様に、特定の隠れ状態次元の大規模な活性化から生じます。視覚的注意再配分 (VAR) メソッドは、画像中心の注意ヘッドを特定し、シンクトークンから意味のある視覚コンテンツに注意予算を再配分し、追加のトレーニングを必要とせずに、視覚言語タスク全体のパフォーマンスを向上させます。

ポイント：

視覚的シンクトークンは、基本言語モデルから継承された固定次元における極端な活性化の大きさによって識別できます。
視覚的シンクトークンを除去しても、高い注意の重みを受けているにもかかわらず、モデルのパフォーマンスに影響を与えません。これは、計算リソースが無駄になっていることを示しています。
VAR は、シンクトークンから意味のある視覚コンテンツに注意を再配分し、一般的な視覚言語、幻覚低減、および視覚中心のタスクのパフォーマンスを向上させます。

tagマルチモーダル LLM におけるトークン化のセマンティック同等性に向けて

マルチモーダル LLM におけるトークン化のセマンティック同等性に向けて

マルチモーダル大規模言語モデル (MLLM) は、視覚言語タスクの処理において卓越した能力を示しています。MLLM の核心の 1 つは視覚的トークン化にあり、これには、入力視覚信号を LLM にとって最も有益な特徴表現に効率的に変換することが含まれます。しかし、視覚と言語の間のセマンティックアライメントに不可欠な既存の視覚的トークナイザーには、依然として問題があります。既存の方法は、視覚入力を積極的に断片化し、視覚的なセマンティック整合性を損ないます。これに対処するために、本論文では、動的なクラスタリングアルゴリズムを介して視覚的特徴をセマンティックユニットにグループ化し、画像の複雑さに基づいてトークンの数を柔軟に決定する、新しい動的セマンティック等価視覚的トークナイザー (SeTok) を提案します。結果として得られる視覚的トークンは、セマンティック整合性を効果的に維持し、低周波と高周波の両方の視覚的特徴をキャプチャします。SeTok を搭載した提案された MLLM (Setokim) は、実験結果によって証明されるように、さまざまなタスクで優れたパフォーマンスを大幅に示しています。プロジェクトページは https://chocowu.github.io/SeTok-web/ です。

arXiv.orgShengqiong Wu

マルチモーダル LLM における従来の視覚的トークン化メソッドは、固定パッチを使用して視覚入力を断片化し、セマンティック整合性を損ない、視覚言語のアライメントが不十分になります。SeTok (Semantic-Equivalent Vision Tokenizer) は、視覚的特徴をコヒーレントなセマンティックユニットにグループ化する動的クラスタリングを通じてこれに対処し、トークン数は画像の複雑さに適応します。このシステムは、言語とのセマンティックアライメントのためのコントラスト損失と、画像再構成のためのピクセルレベルの詳細を保持するための再構成損失という、2 つのトレーニング目標を使用します。

重要なポイント：

固定パッチトークン化は、任意のパッチ境界を越えてオブジェクトを断片化することにより、視覚的なセマンティック整合性を破壊します。
動的クラスタリングアルゴリズムは、固定されたグリッド構造ではなく、画像のセマンティックな複雑さに基づいて最適なトークン数を適応的に決定できます。
デュアル目標トレーニングは、言語とのセマンティックアライメントと、再構成タスクに十分な視覚的詳細を保持することのバランスを取ります。

tagHymba：小規模言語モデル向けのハイブリッドヘッドアーキテクチャ

Hymba：小規模言語モデル向けのハイブリッドヘッドアーキテクチャ

効率を高めるために、トランスフォーマー注意機構と状態空間モデル (SSM) を統合したハイブリッドヘッド並列アーキテクチャを特徴とする小規模言語モデルのファミリーである Hymba を提案します。注意ヘッドは高解像度のリコールを提供し、SSM ヘッドは効率的なコンテキスト要約を可能にします。さらに、プロンプトに付加される学習可能なメタトークンを導入し、重要な情報を格納し、注意機構に関連する「強制参加」の負担を軽減します。このモデルは、層間キーバリュー (KV) 共有と部分的なスライディングウィンドウ注意を組み込むことでさらに最適化され、コンパクトなキャッシュサイズになります。開発中、同一の設定でさまざまなアーキテクチャを比較する制御された調査を実施し、提案されたアーキテクチャの大きな利点を観察しました。特に、Hymba は小規模 LM で最先端の結果を達成しています。Hymba-1.5B-Base モデルは、パフォーマンスですべての 2B 未満のパブリックモデルを上回り、平均精度が 1.32% 高く、キャッシュサイズが 11.67 倍削減され、スループットが 3.49 倍向上し、Llama-3.2-3B よりも優れています。

arXiv.orgXin Dong

Hymba は、各層内でトランスフォーマー注意機構と状態空間モデル (SSM) を並行して組み合わせたハイブリッドヘッドアーキテクチャを導入し、高解像度のリコールと効率的なコンテキスト要約を同時に可能にします。このアーキテクチャは、学習可能なメタトークン、層間キーバリュー共有、および部分的なスライディングウィンドウ注意を組み込んで、コンパクトなキャッシュサイズを実現します。Hymba-1.5B は、すべての 2B 未満のモデルを上回り、Llama-3.2-3B よりも優れており、11.67 倍のキャッシュ削減と 3.49 倍のスループット向上を達成しています。

ポイント：

並列ハイブリッドヘッドアーキテクチャは、相補的な機構の同時処理を可能にすることにより、注意と SSM コンポーネントのシーケンシャルスタッキングよりも優れています。
学習可能なメタトークンは、圧縮された世界知識として機能し、ソフトマックス注意機構の「強制参加」の負担を軽減します。
層間キーバリュー共有とスライディングウィンドウ注意の最適化により、パフォーマンスを犠牲にすることなく、劇的なキャッシュサイズ削減を実現します。

ICLR2025で学んだこと

tagギャップを軽減する：CLIPにおけるクロスモーダルアライメントの改善

tagjina-clip-v2：テキストと画像のための多言語マルチモーダルベクトル模型 (Embeddings)

tagReaderLM-V2：HTMLからMarkdownおよびJSONへの変換のための小規模言語モデル (SLM)

tagTIPS：空間認識を備えたテキスト-画像事前学習

tagカット交差エントロピー：大規模語彙のためのメモリ効率の高い損失計算

tagFlexPrefill：長いシーケンスのためのコンテキスト認識スパース注意

tag温度制御による効果的な事後学習 埋め込み (Embeddings) 圧縮

tag大規模言語モデルにおけるアテンションは、効率的なゼロショット 重排器 (Reranker) を生み出す

tag直接選好最適化のためのペアワイズデータにおける相関関係の橋渡しとモデリング

tagTAID：効率的な知識伝達のための時間適応補間蒸留

tagSVD-LLM：大規模言語モデル圧縮のための打ち切り対応特異値分解

tagSee What You Are Told：大規模マルチモーダルモデルにおける視覚的注意シンク

tagマルチモーダル LLM におけるトークン化のセマンティック同等性に向けて

tagHymba：小規模言語モデル向けのハイブリッドヘッドアーキテクチャ

tag温度制御による効果的な事後学習埋め込み (Embeddings) 圧縮

tag大規模言語モデルにおけるアテンションは、効率的なゼロショット重排器 (Reranker) を生み出す