大規模言語モデルの「壊滅的忘却」、強化学習が内部回路を保持するメカニズム解明

arXiv cs.LGは2026年5月21日(現地時間)、大規模言語モデル (LLMs) における「壊滅的忘却 (catastrophic forgetting)」のメカニズムを解明する研究を発表した。この研究は、強化学習 (RL) が教師ありファインチューニング (SFT) よりも以前の能力を効果的に保持する理由として、内部計算回路の保存が主要な要因である可能性を示唆している。

大規模言語モデルのファインチューニングでは、しばしば以前の能力が失われる「壊滅的忘却」が発生することが指摘されている。これまでの研究では、強化学習が教師ありファインチューニングよりも以前の能力を効果的に保持し、その理由としてポリシー勾配更新がベースポリシーに近い状態を保つことが挙げられていた。

ジャンメリー・ロハス・ヌネス氏ら研究チームは、この行動的説明をメカニズムレベルに拡張し、強化学習の利点が内部計算回路のより強力な保存によって反映されるかを調査した。研究では、ファインチューニングによる回路の劣化度合いをヘッドレベルで測定する差動回路脆弱性 (differential circuit vulnerability)という指標が導入された。この指標を用いて、Qwen2.5-3B-Instructモデルを科学的質問応答タスクに適用し、強化学習と教師ありファインチューニングを比較した。

その結果、明確なメカニズム上のトレードオフが確認された。教師ありファインチューニングはターゲットタスクへの適応が速い一方で、回路の破壊と以前の能力の忘却が著しく大きい。これに対し、強化学習はタスク適応が遅くなるものの、ベース回路の大部分を保存する傾向が見られた。これらの発見は、回路の保存が強化学習が壊滅的忘却に対してより堅牢である理由を説明する可能性を示唆している。研究チームは関連するコードを公開している。

参考: arXiv cs.LG (アーカイブ) — 2026年5月29日 13:00 (JST)