Rishabh Tiwari氏らの研究チームは2026年5月12日(現地時間)、大規模言語モデル (LLM) における「高速・低速学習」フレームワークを発表した。この新手法は、モデルパラメータを「低速」ウェイト、最適化されたコンテキストを「高速」ウェイトとして利用し、タスク固有の学習と汎用的な推論能力の維持を両立させる。従来のパラメータ更新に起因する壊滅的忘却や可塑性の喪失といった課題に対処する。
arXiv cs.LGが2026年5月12日(現地時間)付けで公開した論文によると、LLMは下流タスク向けにパラメータ更新(例:強化学習、RL)を通じて訓練されることが多い。しかし、この更新はタスク固有情報の吸収を強制し、壊滅的忘却や可塑性の喪失につながる可能性がある。
一方、固定されたLLMパラメータを用いるインコンテキスト学習(例:プロンプト最適化)は、タスク固有の要件に迅速かつ安価に適応できるものの、パラメータ更新による性能向上には通常及ばない。研究チームは、学習をインコンテキストまたはウェイト内部に限定する理由はないと指摘し、人間が異なる時間スケールで学習するという点に注目した。
今回導入されたFast-Slow Training (FST) フレームワークでは、モデルパラメータを低速ウェイト、最適化されたコンテキストを高速ウェイトと定義する。高速ウェイトはテキストフィードバックからタスク固有情報を学習し、低速ウェイトはベースモデルに近い状態を維持して汎用的な推論行動を継続させる。このアプローチにより、FSTは推論タスクにおいて、低速学習(RL)のみに比べ最大3倍のサンプル効率向上を示し、より高い性能漸近線に到達するとされる。
さらに、FSTで訓練されたモデルはベースLLMにより近い状態を保ち(KL divergenceを最大70%削減)、RL訓練よりも壊滅的忘却が少ない。このドリフトの減少は可塑性も維持し、あるタスクでの訓練後、FST訓練モデルはパラメータのみで訓練されたモデルよりも次のタスクへの適応性が高い。タスクドメインが随時変化する継続学習シナリオにおいても、FSTは新しいタスクを習得し続ける一方で、パラメータのみのRLは停滞するとしている。
参考: arXiv cs.LG — 2026年5月13日 02:58 (JST)