LLM強化学習、単一層学習で全パラメータ同等効果か

arXiv cs.LGは7月1日(現地時間)、研究論文「Is One Layer Enough? Training A Single Transformer Layer Can Match Full-Parameter RL Training」を発表した。この論文は、大規模言語モデル（LLM）の強化学習（RL）後学習において、Transformerモデルの単一の層のみを学習させることで、モデル全体の全パラメータを学習するのと同等か、それを上回る性能向上が得られる可能性を指摘している。既存のRLアプローチの前提に疑問を呈し、層ごとの学習効果を分析した点が特徴だ。

本研究は、大規模言語モデル（LLM）の強化学習（RL）において、Transformerモデルの全パラメータを更新するという従来の常識に一石を投じた。論文の主要な発見は、Transformerの単一の層を学習させるだけで、全パラメータを学習した場合に得られる性能改善の大部分を回復できること、さらにはそれを上回る場合もあるという点である。

この現象を定量的に分析するため、研究者らはlayer contributionという新たな指標を導入した。これは、Transformerスタック内の特定の層を単独で学習させることで、強化学習による全体の性能改善のうちどれだけの割合が達成されるかを測定するものだ。この指標を通じて、LLMのRL後学習において、性能向上が特定の層に高度に集中していることが明らかになった。

実験は、Qwen3とQwen2.5の2つのモデルファミリーに属する7つの異なるモデルを対象に実施された。強化学習アルゴリズムとしては、GRPO、GiGPO、Dr. GRPOの3種類が用いられた。タスクドメインも、数学的推論、コード生成、エージェント的意思決定といった複数の分野にわたり、幅広い検証が行われた。

これらの広範な実験から、一貫したパターンが確認された。RLによる性能向上は、Transformer層のごく一部、多くの場合には単一の層に集約されているという安定した結果が観測されたのである。例えば、Qwen3モデルでは、最適な単一層の学習が全パラメータ学習に匹敵する性能を示した。これは、強化学習の効率を大幅に改善し、計算資源の消費を削減できる可能性を示唆している。

さらに、高寄与層がTransformerスタックの中央に集中し、入出力に近い層の寄与が著しく低いという構造的パターンが繰り返し確認された。この層のランキングは、使用されるデータセット、タスク、モデルファミリー、およびRLアルゴリズム間で強い相関を示しており、特定の層が強化学習において本質的に重要な役割を果たすことを示唆している。この発見は、LLMのアーキテクチャ設計や、より効率的な学習戦略の開発に重要な示唆を与える。

参考: arXiv cs.LG (アーカイブ) — 2026年7月2日 02:59 (JST)