埋め込みに対する Model Soup のレシピ

このような困難な時代には、温かいスープに勝るものはありません。

ミネストローネは、イタリアの定番スープの1つで、豆、滋養のある野菜、米またはパスタを組み合わせた、濃厚でボリュームがあり、風味豊かなスープです。その味は、多様な材料を組み合わせることで生まれます。東ヨーロッパのボルシチ、アメリカのキャセロール、太平洋アジアの自家製炒め物のように、手頃な価格の材料を組み合わせて愛される料理にしている点で似ています。

Wortsman et al. (2022) に始まる一連の論文によると、ニューラルネットワークモデルにも同じようなレシピを使用できます。

Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time

The conventional recipe for maximizing model accuracy is to (1) train multiple models with various hyperparameters and (2) pick the individual model which performs best on a held-out validation set…

PMLR

「モデルスープ」（残念ながら「モデルキャセロール」や「モデル炒め物」ではありません）は、トレーニングデータとモデルのハイパーパラメータの最適化にかかるコストを軽減するように設計されたモデルアンサンブル手法の一種です。ニューラルネットワークをトレーニングする場合、通常、さまざまなデータとハイパーパラメータ値を試し、最高のパフォーマンスが得られる結果を探して複数回トレーニングします。トレーニングは計算コストが非常に高く、コストはすぐに増加します。

代わりに、モデルスープでは、通常と同じように、さまざまなハイパーパラメータとトレーニングデータの選択肢を使用して複数のモデルをトレーニングしますが、それらを組み合わせます。その結果、単一の最高のパフォーマンスを発揮するモデルよりも、パフォーマンスが高く、堅牢なモデルが得られます。複数のモデルをトレーニングするため、コストは削減されませんが、同じ価格でより良い結果を得ることができます。

モデルスープのアプローチは、テキスト-画像マルチモーダル埋め込みモデル (Wortsman et al. 2022) および生成的大規模言語モデルですでに有用であることが証明されています。（Takuya et al. 2025）Jina AI では、この手法を使用して独自のモデルのトレーニングを開始しており、jina-embeddings-v3 と reader-lm-v2 の両方にモデルスープが組み込まれています。

この記事では、モデルスープについて見ていき、それらを使用した作業の結果を示します。具体的には、次のとおりです。

モデルスープを使用して、トレーニングのさまざまな時点でモデルをマージすることにより、パフォーマンスを向上させることができますか？
異なるデータセットでトレーニングされたモデルと、異なるタスクのためにトレーニングされたモデルをマージして、単一のモデルをトレーニングするよりも優れたパフォーマンスと高いトレーニング効率を得ることができますか？

これには、重要な潜在的な利点があります。

モデルスープは、より優れた、より堅牢なパフォーマンスを発揮できます。
多言語埋め込みモデルは、トレーニングデータの量の不均衡によって引き起こされるバイアスとパフォーマンスの低下に悩まされることがよくあります。各タスクまたはデータセットで個別に可能な限り最高のモデルをトレーニングし、それらを均等に組み合わせることができるのは恩恵となるでしょう。
モデルをモジュール式に変更し、一度に1つのコンポーネントモデルを更新し、他のモデルと再マージすることで、より優れた継続的な学習とモデルの更新を行うことができる可能性があります。

tagその仕組み

複数のモデルの出力をマージすることは、統計的意思決定理論では古い手法です。たとえば、天気予報では、複数のモデルを作成し、多くの場合、異なる仮定を持つ異なる人々によって作成し、さまざまなメカニズムを使用して予測を平均化するのが一般的な方法です。各モデルのエラーがランダムに分布している場合、モデルを平均化すると、エラーの少ない回答が得られます。

たとえば、「はい」または「いいえ」のバイナリを出力する3つの異なるモデルがあり、それぞれが10％の時間間違っている場合、3つのうち2つが間違っているのはわずか2.8％の時間です。5つのモデルで、多数決基準を使用すると、間違っているのはわずか0.856％の時間です。

平均化モデルは同じ原理で機能しますが、異なるモデルの出力を組み合わせるのではなく、モデル自体を組み合わせます。

使用されるアプローチは、確率的重み平均化（Izmailov et al. 2018）の拡張であり、ニューラルネットワークの損失地形に関する洞察に基づいており、単純な重み平均化が一般的な条件下でモデルの汎化性能を向上させる可能性があることを示しています。

モデルを平均化する実際のメカニズムは、驚くほど単純です。複数のモデルの重みを平均化するだけです。

モデルスープを作成するためにモデルをマージする方法。この例は非常に小さくて単純ですが、手順を示しています。重みを合計し、マージするモデルの数で割ります。

これが簡単すぎると思われる場合は、この方法でモデルをマージする場合に制限があることに注意することが重要です。任意の2つのニューラルネットワークの重みをマージして、それが機能することを期待することはできません。

モデルの平均化は、非常に類似したモデル、つまり、重みが最初から互いに大きく異ならないモデルでのみ機能します。これを確実にする方法は、1つのモデルを事前トレーニングし、異なるハイパーパラメータまたは異なるデータで微調整することにより、そのモデルの複数のバリアントを作成することです。これらのモデルは通常、平均化するのに十分似ています。

より専門的な用語では、事前トレーニングでは通常、重みが損失盆地の底の近くにあるモデルが生成され、微調整ではその損失盆地から簡単に抜け出すことはできません。マージするすべてのモデルの重みが同じ損失盆地にある場合、それらの重みはほぼ同じになり、それらを平均化するとうまくいく可能性があります。これは保証されていませんが、経験的には、それが有用であるのに十分な頻度で当てはまるようです。

tag実験設定

ベースモデル：ここで説明する実験では、FacebookAI の xlm-roberta-base（Conneau et al. 2020）を事前トレーニング済みのベースモデルとして使用しました。このモデルには2億8000万のパラメータがあり、約100言語のテキストを含む2.5TB の Common Crawl データで事前トレーニングされています。

実験を行う前に、埋め込みトレーニング用にキュレーションされた文ペアトレーニングセットで xlm-roberta-base を微調整しました。

トレーニングデータ：Jina AI は、トレーニング用にカスタムキュレーションされたデータセットを維持しています。最初の実験では、英語、アラビア語、ドイツ語、スペイン語、日本語、中国語の6つの言語でコントラストトレーニング用に特別にキュレーションされた文トリプレットを使用しました。2番目の実験では、英語のタスク固有のトレーニングデータセットを使用しました。

評価：トレーニングとマージによって生成されたモデルを評価するために、MMTEB ベンチマークセット（Enevoldsen et al. 2025）と MIRACL ベンチマーク（Zhang et al. 2023）の関連部分を使用しました。

tag実験1：単一実行平均化

この実験では、6つの言語すべてのコントラスト文トリプレットを混合して使用し、バッチサイズ1,024アイテムで合計6,000回のトレーニングステップを実行しました。2,000ステップごとに、平均化のためにモデルの状態を保存し、それぞれがトレーニングプロセスの異なる時点を反映した3つのモデルを生成しました。

3つのモデルを平均化して、最終的なモデルを生成しました。次に、マージされたモデルと3つの保存されたチェックポイントを MMTEB-STS および MIRACL ベンチマークセットに対してテストしました。

結果を以下の表にまとめます。

Model	MIRACL (avg 6 languages)	MMTEB-STS English (avg 8 benchmarks)	MMTEB-STS Multilingual (avg 6 benchmarks)	Average of 20 benchmarks
No triplet training	0.3163	0.7859	0.7322	0.6276
Step 2000	0.4631	0.7924	0.7561	0.6813
Step 4000	0.4639	0.7902	0.7583	0.6812
Step 6000 (final)	0.4680	0.7891	0.7575	0.6818
Merged model (all 3 stored checkpoints)	0.4669	0.7910	0.7579	0.6823

以前のチェックポイントとのマージは、一般的に、個々のベンチマークまたは使用された3つのベンチマークのいずれかのバッテリーで、保存されたチェックポイントの中で最高のパフォーマンスを発揮するものよりも優れたパフォーマンスを発揮するモデルを生成しませんでした。ただし、すべてのベンチマークをまとめて平均すると、最高のモデルが生成されました。

個々のベンチマークでは、マージされたモデルと最高のパフォーマンスを発揮するチェックポイントの違いは、すべての場合で0.01未満です。これは、上記の表の平均だけでなく、個々のテストにも当てはまります。

これは、異なるトレーニングチェックポイントをマージすると、パフォーマンスコストをほとんどかけずに、より堅牢なモデルを生成できることを示しています。

さらに、異なるチェックポイントをマージすることで、過学習を効果的に防ぐことができます。過学習は、最近ニューラルネットワークで重要なトピックになっています。（Springer et al., 2025）ネットワークは、さらに微調整した後で、より困難になり、パフォーマンスが低下するような方法でトレーニングできます。

私たちの実験で最高のパフォーマンスを発揮するチェックポイントが最後のものではないことが多いため、6,000回のトレーニングステップでモデルを過学習させた可能性があります。マージされたモデルは、すべてのテストで最高のチェックポイントのパフォーマンスに非常に近く、過学習の欠陥を取り除きます。

tag実験2：異なるタスクでトレーニングされたモデルの平均化

この実験では、それぞれ異なる一般的な埋め込みタスク用に3つのモデルをトレーニングしました。

意味的類似性：2つのテキスト間の意味の相対的な重複または類似性を測定します。通常、長さは同程度です。
テキストクエリに基づくドキュメント検索：クエリに最も適したドキュメントを見つけること。クエリは一般的に、マッチングするドキュメントよりもはるかに短いテキストです。
質問応答：自然言語の質問に最もよく答えるドキュメントを見つけること。質問も一般的に、マッチングするテキストよりもはるかに短いものです。

3つのタスクすべてに対して同時にモデルをトレーニングすることは、目標が非常に異なるため非常に困難であり、モデルスープがそのプロセスを改善することを期待しています。

これまでの経験から、各タスクで異なるトレーニングエポック数が必要であることを知っていました。トレーニングを以下にまとめます。

タスク	トレーニングステップ（batchsize = 1,024）	トレーニングデータセットサイズ（アイテム数）
質問応答（QA）	2,000	256,000
ドキュメント検索	3,000	384,000
意味的類似性（STS）	1,000	128,000

これにより3つのモデルが生成され、それらを1つのモデルにマージしました。結果として得られたモデルを、それらの3つのタスクに関連するMMTEBベンチマークセットの部分（MIRACL、NanoBEIR、STSEval（MMTEBの英語および多言語部分））に対してテストしました。

	MIRACL （平均6言語）	NanoBEIR （平均13ベンチマーク）	MMTEB-STS 英語（平均9ベンチマーク）	MMTEB-STS 多言語（平均6ベンチマーク）	平均34ベンチマーク
トリプレットトレーニングなし	0.3163	0.5089	0.7859	0.7322	0.5876
QAトレーニング	0.4489	0.5332	0.7843	0.7535	0.6237
検索トレーニング	0.4272	0.5360	0.7766	0.7340	0.6154
STSトレーニング	0.1779	0.4519	0.7994	0.7651	0.5508
マージされたモデル	0.4246	0.5309	0.7981	0.7640	0.6240

ここでは、タスク固有のトレーニングを受けたモデルが各タスクで最高のパフォーマンスを発揮していることがわかります。MIRACLは、検索と呼ばれていますが、主に質問応答ベンチマークであり、QAトレーニングを受けたモデルは、マージされたモデルを含む他のすべてのモデルよりも優れています。NanoBEIRは、より従来の情報検索ベンチマークセットであり、検索トレーニングを受けたモデルが最も優れたパフォーマンスを発揮していることがわかります。意味的類似性（STS）モデルは、これらのベンチマークでは非常に低いスコアですが、明示的なSTSタスクでは他のモデルを上回っています。カテゴリごとに、マージされたモデルは、単一タスクのトレーニングを受けたモデルよりもパフォーマンスが低くなります。

ただし、すべてのベンチマークで平均すると、マージされたモデルは他のモデルよりも優れていますが、そのスコアはQAトレーニングを受けたモデルよりもごくわずかな改善を表しているだけであり、STSタスクでは非常にパフォーマンスが低くなっています。

また、QAモデルと検索モデルのみをマージし、同じベンチマークで結果として得られたモデルをスコアリングしました。

	MIRACL （平均6言語）	NanoBEIR （平均13ベンチマーク）	MMTEB-STS 英語（平均9ベンチマーク）	MMTEB-STS 多言語（平均6ベンチマーク）	平均34テスト	平均 QA＆IR （19テスト）	平均STS （15テスト）
最高のタスクトレーニングモデル	0.4489	0.5360	0.7994	0.7651	0.6237	0.5066	0.7857
マージされたモデル	0.4246	0.5309	0.7981	0.7640	0.6240	0.4973	0.7845
QA +検索マージされたモデル	0.4610	0.5404	0.7878	0.7498	0.6288	0.5153	0.7726

ここでは、2つのタスク用にトレーニングされたモデルをマージすることで、質問応答と検索の両方でパフォーマンスを向上させることができますが、STSトレーニングを受けたモデルを追加すると、すべてのカテゴリでタスク固有のパフォーマンスが低下することがわかります。これは、意味的類似性が、いくつかの重要な点で、QAおよび検索とは異なり、STSトレーニングを受けたモデルは、他の2つとマージするのに適していないことを示唆しています。

これはおそらく、質問応答と検索には、短いテキスト（質問とクエリ）と長いドキュメントのマッチングが含まれるのに対し、意味的類似性には、より類似した長さのドキュメントの比較が含まれるためです。

Wortsman et al. （2022）は、「貪欲」マージと呼ばれる平均化への選択的なアプローチについて説明しています。これには、1つのモデル（通常は一連のモデルの中で最高のパフォーマンスを発揮するモデル）を取得し、パフォーマンスを個別に向上させるモデルのみを追加することが含まれます。モデルが3つしかない場合、この実験で貪欲なマージを使用する意味はほとんどありませんでした。ただし、より多くのモデルがあり、タスク間の類似性の程度を判断するための基礎としてこのような手法を使用することを想像できます。ここでは、意味的類似性が他の2つとは異なることがわかりました。次に、1つのモデルが多くのタスクを実行できる場合と、別のモデルを使用する方が費用対効果が高い場合を評価できます。

tagスープはいかがですか！

モデルスープは、多様性をそれらの部分の合計よりも大きなものにブレンドします。このアプローチの価値は、トレーニングコストを追加することなく、より優れた一貫性、堅牢性を提供し、過剰トレーニングに対するセーフガードとして機能する能力にあります。私たちの実験では、チェックポイントまたはタスクに特化したモデルをマージすると、タスク固有のピークを犠牲にすることがあっても、全体的なパフォーマンスが向上する可能性があることが示されています。

結局のところ、モデルスープは、より適応性の高いモデルを構築するための実用的で非常に簡単な方法を提供しますが、いくつかの注意点があります。万能薬ではなく、モデルがすでに非常に類似している場合にのみ適用できます。

インターネットで言われているように、Your Mileage May Vary。ただし、モデルをトレーニングするときにモデルスープが役立つかどうかを調べるのは安価で簡単です。