大規模言語モデル、事前学習と同一オプティマイザで忘却を抑制

arXiv cs.LGが2026年5月7日(現地時間)付けで報じたところによると、大規模言語モデル (LLMs) の学習において、事前学習 (pretraining) と同じオプティマイザ (optimizer) を用いたフルファインチューニング (full finetuning) が、より良好な学習と忘却のトレードオフ (learning-forgetting tradeoff) を達成することが明らかになった。これは、新しいタスクにおける同等またはそれ以上の性能を維持しつつ、忘却を低減させる効果があるという。研究者らはこの現象を「オプティマイザとモデルの一貫性 (optimizer-model consistency)」と命名した。

オプティマイザは、大規模言語モデルの事前学習とファインチューニングの両方の段階で重要な役割を果たす。本研究は、教師ありファインチューニング (supervised finetuning, SFT) 段階において、事前学習と同じオプティマイザを使用したフルファインチューニングが、他のオプティマイザやLoRAと比較して、新しいタスクで同等またはそれ以上の性能を達成しつつ、忘却を低減するという観察結果を示している。

このオプティマイザとモデルの一貫性現象をより深く理解するため、研究者らは制御実験と理論的分析を実施した。その結果、以下の点が示された。

オプティマイザは、アクティベーション (activations) に正則化効果 (regularization effects) を与えることでモデルを形成し、事前学習済みチェックポイント (pretrained checkpoints) 周辺に異なるランドスケープ (landscapes) を生じさせる。
この正則化効果に対応して、SFTにおける重み更新 (weight update) は、事前学習で学習された知識の忘却を低減するために特定の構造に従うべきであり、これは同じオプティマイザを使用することで得られる。

さらに、事前学習とSFTの両段階でMuonとAdamWを比較したところ、Muonは推論タスク (reasoning tasks) のファインチューニングで性能が低いことが判明した。これは、Muonが丸暗記 (rote memorization) に強い傾向があるためで、SFTのような少量のデータでのパターン獲得を妨げる可能性があると合成言語モデリング実験で示唆されている。

参考: arXiv cs.LG (アーカイブ) — 2026年5月8日 02:57 (JST)