ICLR 2025は、世界最大かつ最も影響力のある機械学習会議の1つであり、NeurIPSやICMLと並び、影響力の大きいAI研究のための主要な場となっています。今年はICLRがアジアで初めて開催され、4月24日から28日までシンガポールEXPOで開催されるという歴史的な節目を迎えました。そのタイミングは、シリコンバレーに衝撃を与え、中国の急速に進歩するAI研究を実証した2025年1月下旬の「DeepSeekモーメント」からわずか数ヶ月後であったため、完璧でした。2024年2月に発効した中国とシンガポールの30日間の相互ビザ免除協定と相まって、会議への中国からの参加者が前例のないほど急増しました。

今年は、Sedigheh Eslami、Andreas Koukounas、Wang Feng、そしてCEOのHan Xiaoが、より良い検索のためのjina-clip-v2とReaderLM-v2に関する最新の研究を紹介する3つの研究論文を発表するため、シンガポールへの旅行に心が躍りました。AIの世界の他の人々が、より大きく、より大きなモデルを求めて軍拡競争に夢中になっているように見える一方で、私たちは、設計がうまくいけば、より小さく、より賢いモデルがその重さを十分に発揮できることを証明し、あえて常識に逆らうことにしました。

さあ、コーヒーを片手に、ゆったりとくつろいで、ICLRの研究の中から、私たちが興味深いと思ったものを探求してみましょう。まずは、小さいことがなぜ強力なのかについての私たちの見解から始めましょう。
tagギャップを軽減する:CLIPにおけるクロスモーダルアライメントの改善


CLIPモデルは、画像とテキストのタスクに優れていますが、「モーダルギャップ」に悩まされています。画像とテキストのベクトル模型 (Embeddings)が別々の領域に集まり、パフォーマンスが制限されます。この研究は、Hasso Plattner Instituteでの博士課程中にインターン生のSedigheh Eslamiが主導し、この根本的な問題に取り組んでいます。
単純なベクトルの変換は、埋め込み構造を破壊することを発見しました。代わりに、AlignCLIPは、意味的に正則化された分離目標を持つ共有エンコーダパラメータを使用します。この二重のアプローチは、ゼロショットおよびファインチューニングタスク全体でパフォーマンスを向上させながら、モーダルギャップをうまく縮小します。
ポイント:
- モーダルギャップは、CLIPのパフォーマンスにおける重大なボトルネックです。
- パラメータの共有と意味的分離は、モーダル間の違いを効果的に埋めます。
- このアプローチは、ダウンストリーム評価で測定可能な改善をもたらします。
tagjina-clip-v2:テキストと画像のための多言語マルチモーダルベクトル模型 (Embeddings)


これは、マルチタスク、マルチステージの対照学習アプローチを使用して、テキストのみのタスクとクロスモーダルタスクの両方をサポートする多言語マルチモーダル埋め込みモデルであるjina-clip-v2の背後にある論文です。このモデルは、テキストエンコーダ (Jina XLM-RoBERTa、561Mパラメータ) とビジョンエンコーダ (EVA02-L14、304Mパラメータ) を組み合わせて、合計865Mパラメータを実現しています。29の非英語言語からの多言語テキストと視覚的に豊富なドキュメントでトレーニングし、柔軟な埋め込み次元のためにMatryoshka Representation Learningを採用しています。
ポイント:
- 共有温度パラメータを持つ単一のバッチで画像テキストデータとテキストテキストデータを混合すると、モダリティ情報の非対称性のため、個別のトレーニングよりもパフォーマンスが低下します。
- クロスモーダルアライメントのためのトレーニングは、本質的に純粋なテキスト埋め込みの品質を損ない、根本的なトレードオフを示しています。
- 埋め込みを1,024次元から256次元に削減すると、パフォーマンスの低下は1%未満であり、高次元表現に大規模な非効率性があることが明らかになります。
tagReaderLM-V2:HTMLからMarkdownおよびJSONへの変換のための小規模言語モデル (SLM)


これは、効率的なウェブコンテンツ抽出のために設計された、コンパクトな15億パラメータの言語モデルであるReaderLM-v2の背景にある論文です。このモデルは、最大512Kのトークン (Tokens) のドキュメントを処理し、乱雑なHTMLをクリーンなMarkdownまたはJSON形式に変換します。私たちのアプローチは、継続的な事前学習、教師ありファインチューニング、直接選好最適化、自己プレイ反復チューニングを組み合わせた統一されたトレーニングフレームワークにより、反復的な洗練を通じて高品質のトレーニングデータを生成する3段階のデータ合成パイプライン(DRAFT-REFINE-CRITIQUE)を組み合わせたものです。ReaderLM-v2は、ベンチマークにおいてGPT-4oや他のより大規模なモデルを15〜20%上回り、特に100Kトークンを超えるドキュメントで優れており、計算要件は大幅に低く抑えられています。
ポイント:
- 15億パラメータのモデルがHTML抽出でGPT-4oおよび32Bモデルを15〜20%上回り、タスク固有のファインチューニングがドメイン専門知識のために生のスケールを上回ることを証明しています。
- このモデルは、ステージ4の「自己プレイ」で独自のトレーニングデータを生成し、人間がキュレーションしたデータセットよりも優れたデータセットを作成し、再帰的なフィードバックを通じてパフォーマンスを継続的に向上させます。
- モデルはトレーニング中に壊滅的なトークン (Tokens) の繰り返しに苦しんでいましたが、判別表現を促進するためにコントラスト損失を追加することで、この退化の問題を完全に解消しました。
tagTIPS:空間認識を備えたテキスト-画像事前学習


コントラスト学習でトレーニングされたビジョン-言語モデルは、グローバルな画像-テキストアライメントに優れていますが、密な空間理解タスクでは失敗します。TIPSは、コントラスト学習とマスクされた画像モデリングを組み合わせ、空間的関係をエンコードする合成的に生成されたキャプションを使用することで、タスク固有のファインチューニングなしで、密な理解とグローバルな理解の両方に適した埋め込み (Embeddings) を作成します。このアプローチは、空間認識をより良いドキュメント理解とマルチモーダル検索アプリケーションのために埋め込み (Embedding) モデルに組み込む方法を示しています。
ポイント:
- 空間記述を含む合成キャプションは、空間的に認識された表現を学習するために、ノイズの多いウェブキャプションよりも豊富なトレーニングシグナルを提供します。
- コントラストのある画像-テキスト学習と自己教師ありの目的を組み合わせることで、グローバルな理解と密な理解の間のギャップを埋めます。
- 多様なタスクでのオフザシェルフパフォーマンスにより、さまざまなビジョンアプリケーションで特殊なファインチューニングを行う必要がなくなります。
tagカット交差エントロピー:大規模語彙のためのメモリ効率の高い損失計算


交差エントロピー計算は、大規模な語彙言語モデルのメモリ使用量を支配し、batch_size×vocabulary_sizeに比例するロジット行列の具体化を必要とします。CCEは、カスタムCUDAカーネルを使用して必要なコンポーネントのみをオンザフライで計算するように計算を再構成し、メモリ消費量をギガバイトからメガバイトに削減しながら、同一のトレーニングダイナミクスを維持します。これにより、制限されたハードウェアでより大きな語彙を使用して埋め込み (Embedding) モデルと重排器 (Reranker) モデルをトレーニングできるようになり、多言語およびドメイン固有のアプリケーションに特に役立ちます。
ポイント:
- 交差エントロピー損失計算は、大規模な語彙モデルのトレーニングメモリの90%を消費し、主要なボトルネックになる可能性があります。
- log-sum-exp項のオンザフライ計算により、数学的な近似なしに完全なロジット行列を具体化する必要がなくなります。
- カスタムカーネルの実装により、正確な収束特性を維持しながら、劇的なメモリ削減が可能になります。
tagFlexPrefill:長いシーケンスのためのコンテキスト認識スパース注意


長シーケンストランスフォーマーの推論は、二次関数的なアテンションの複雑さに悩まされています。FlexPrefill は、Jensen-Shannonダイバージェンスを使用してヘッドごとにスパースなアテンションパターンを動的に決定し、累積アテンションスコアに基づいて計算予算を適応的に割り当てることで、多様なコンテンツタイプにわたって最小限の精度損失で大幅な高速化を実現します。この手法により、検索および検索システム向けの長いドキュメントの効率的な処理が可能になり、より小さな言語モデル (SLM) が拡張されたコンテキストを処理して、ドキュメントの理解を深めることができます。
ポイント:
- コンテンツタイプに適応した動的なスパースアテンションパターンは、異なる入力特性にわたって固定されたスパース戦略よりも優れています
- アテンションスコアの累積に基づくヘッドごとの適応的な予算割り当ては、リアルタイムで計算の分散を最適化します
- コンテキストを考慮したスパース性は、モデルの再トレーニングを必要とせずに、13.7倍の高速化と0.1%の精度損失を実現します
tag温度制御による効果的な事後学習 埋め込み (Embeddings) 圧縮

コントラスト学習における温度スケーリングは、学習された 埋め込み (Embeddings) の本質的な次元に大きな影響を与え、温度が低いほど圧縮可能な表現が生成されます。本論文では、温度集約法により、検索パフォーマンスを維持しながら 埋め込み (Embeddings) の次元を桁違いに削減できることを示し、クラスタリングの有効性と検索精度との間のトレードオフを明らかにしています。これにより、メモリ制約がプロダクションアプリケーションにとって重要な高密度検索システムの効率的な展開が可能になります。
ポイント:
- コントラスト学習における低い温度値は、より効果的に圧縮できる、より低い本質的な次元を持つ 埋め込み (Embeddings) を生成します
- 温度集約技術は、検索タスク全体で品質の低下を最小限に抑えながら、10倍の圧縮率を達成します
- トレーニング中の温度の体系的な制御は、圧縮とパフォーマンスのトレードオフを最適化するための直接的なメカニズムを提供します
tag大規模言語モデルにおけるアテンションは、効率的なゼロショット 重排器 (Reranker) を生み出す

In-Context Re-ranking (ICR) は、テキスト生成なしでドキュメントの 重排 (Re-ranking) を実行するために、LLM のアテンションパターンの変化を利用し、計算の複雑さを O(N log N) から O(1) に削減します。この手法は、レイヤーとヘッド全体のアテンション重みを集約して関連性スコアを計算し、コンテンツフリーなクエリキャリブレーションを使用して LLM のバイアスを軽減します。このアプローチにより、特別な微調整や高価な生成プロセスを必要とせずに、オープンウェイトモデルでの効率的な 重排 (Re-ranking) が可能になります。
ポイント:
- LLM のアテンションパターンには、テキスト生成を必要とせずに効果的なドキュメントの 重排 (Re-ranking) に十分なシグナルが含まれています
- コンテンツフリーなクエリキャリブレーションは、アテンションベースのスコアリングメカニズムにおける本質的なバイアスを軽減することに成功しています
- ICR は、特に複雑なマルチホップ検索タスクにおいて、生成メソッドと比較して優れたパフォーマンスと効率を実現します
tag直接選好最適化のためのペアワイズデータにおける相関関係の橋渡しとモデリング

従来のDPOは、優先度のペアで選択された応答と拒否された応答の間の相関が弱いため、アラインメントの有効性が制限されます。BMCは、勝利応答と敗北応答の間を補間する疑似優先応答を合成し、次にポリシーモデルの信頼度を使用してトークンレベルの相関モデリングを適用することで、これに対処します。この2段階のアプローチでは、まずターゲットを絞った修正を通じて優先度のペアを橋渡しし、次に学習シグナルの品質を向上させるために学習中にきめ細かい相関関係をモデル化します。
ポイント:
- 優先度データにおける選択された応答と拒否された応答の間の弱い相関は、モデルのアラインメントに対するDPOの有効性を著しく制限します。
- 優先度のペア間の補間として疑似優先応答を合成すると、最適化のためのより豊富な学習シグナルが得られます。
- ポリシーの信頼度を使用したトークンレベルの相関モデリングは、優先度データの微妙なバリエーションを捉えるために、学習シグナルを動的に重み付けします。
tagTAID:効率的な知識伝達のための時間適応補間蒸留

知識蒸留は、大規模モデルと小規模モデルの間で知識を伝達する際に、容量ギャップ、モード平均化、およびモード崩壊という課題に直面します。TAIDは、生徒と教師の分布の間を補間する動的な中間教師を導入し、学習の進捗に基づいてターゲット分布を徐々に適応させます。このアプローチは、理論的な保証を通じてモード崩壊を防ぎ、さまざまなモデルサイズにわたって優れた性能を達成し、コンパクトでありながら有能な言語モデルの開発を可能にします。
ポイント:
- 学習中に適応する動的な中間教師は、固定教師蒸留と比較して、よりスムーズな学習軌跡を提供します。
- TAIDは、適応的な補間を通じてモード崩壊を防ぎながら、異なる容量ギャップ全体での知識伝達のバランスを取ります。
- この方法により、特殊なアーキテクチャや広範なハイパーパラメータ調整を必要とせずに、最先端のコンパクトモデルのトレーニングが可能になります。
tagSVD-LLM:大規模言語モデル圧縮のための打ち切り対応特異値分解

既存のSVDベースの圧縮方法は、近似中の入力アクティベーションを考慮しておらず、打ち切り後の微調整がありません。SVD-LLMは、アクティベーション分布を考慮した打ち切り対応データ白色化を組み込み、圧縮後にLoRAベースの微調整を適用します。この方法は、特異値と圧縮損失の間の理論的な接続を確立し、構造化プルーニングおよび量子化アプローチよりも優れた、より原則的な圧縮の決定を可能にします。
ポイント:
- 入力アクティベーションを考慮した打ち切り対応データ白色化は、アクティベーションに依存しない方法よりもSVD圧縮の有効性を大幅に向上させます。
- 圧縮後のLoRA微調整は、低ランク分解の利点を維持しながら、精度低下を補います。
- 特異値を圧縮損失にリンクする理論的分析により、ヒューリスティックなアプローチよりも優れた、原則的な打ち切り決定が可能になります。
tagSee What You Are Told:大規模マルチモーダルモデルにおける視覚的注意シンク

大規模マルチモーダルモデルは、「視覚的注意シンク」と呼ばれる現象を示します。これは、対応するテキストトークンとは無関係な特定の視覚的トークンに、一貫して高い注意の重みを割り当てるというものです。これらの無関係な視覚的トークンは、言語モデルの注意シンクと同様に、特定の隠れ状態次元の大規模な活性化から生じます。視覚的注意再配分 (VAR) メソッドは、画像中心の注意ヘッドを特定し、シンクトークンから意味のある視覚コンテンツに注意予算を再配分し、追加のトレーニングを必要とせずに、視覚言語タスク全体のパフォーマンスを向上させます。
ポイント:
- 視覚的シンクトークンは、基本言語モデルから継承された固定次元における極端な活性化の大きさによって識別できます。
- 視覚的シンクトークンを除去しても、高い注意の重みを受けているにもかかわらず、モデルのパフォーマンスに影響を与えません。これは、計算リソースが無駄になっていることを示しています。
- VAR は、シンクトークンから意味のある視覚コンテンツに注意を再配分し、一般的な視覚言語、幻覚低減、および視覚中心のタスクのパフォーマンスを向上させます。
tagマルチモーダル LLM におけるトークン化のセマンティック同等性に向けて

マルチモーダル LLM における従来の視覚的トークン化メソッドは、固定パッチを使用して視覚入力を断片化し、セマンティック整合性を損ない、視覚言語のアライメントが不十分になります。SeTok (Semantic-Equivalent Vision Tokenizer) は、視覚的特徴をコヒーレントなセマンティックユニットにグループ化する動的クラスタリングを通じてこれに対処し、トークン数は画像の複雑さに適応します。このシステムは、言語とのセマンティックアライメントのためのコントラスト損失と、画像再構成のためのピクセルレベルの詳細を保持するための再構成損失という、2 つのトレーニング目標を使用します。
重要なポイント:
- 固定パッチトークン化は、任意のパッチ境界を越えてオブジェクトを断片化することにより、視覚的なセマンティック整合性を破壊します。
- 動的クラスタリングアルゴリズムは、固定されたグリッド構造ではなく、画像のセマンティックな複雑さに基づいて最適なトークン数を適応的に決定できます。
- デュアル目標トレーニングは、言語とのセマンティックアライメントと、再構成タスクに十分な視覚的詳細を保持することのバランスを取ります。
tagHymba:小規模言語モデル向けのハイブリッドヘッドアーキテクチャ

Hymba は、各層内でトランスフォーマー注意機構と状態空間モデル (SSM) を並行して組み合わせたハイブリッドヘッドアーキテクチャを導入し、高解像度のリコールと効率的なコンテキスト要約を同時に可能にします。このアーキテクチャは、学習可能なメタトークン、層間キーバリュー共有、および部分的なスライディングウィンドウ注意を組み込んで、コンパクトなキャッシュサイズを実現します。Hymba-1.5B は、すべての 2B 未満のモデルを上回り、Llama-3.2-3B よりも優れており、11.67 倍のキャッシュ削減と 3.49 倍のスループット向上を達成しています。
ポイント:
- 並列ハイブリッドヘッドアーキテクチャは、相補的な機構の同時処理を可能にすることにより、注意と SSM コンポーネントのシーケンシャルスタッキングよりも優れています。
- 学習可能なメタトークンは、圧縮された世界知識として機能し、ソフトマックス注意機構の「強制参加」の負担を軽減します。
- 層間キーバリュー共有とスライディングウィンドウ注意の最適化により、パフォーマンスを犠牲にすることなく、劇的なキャッシュサイズ削減を実現します。






















