オンポリシー蒸留、パラメータ更新の疎性・幾何学を分析

arXiv cs.LGは2026年6月11日(現地時間)、Guo Yu氏らが執筆した論文「Dense Supervision, Sparse Updates: On the Sparsity and Geometry of On-Policy Distillation」を発表した。本研究は、オンポリシー蒸留 (OPD) におけるモデルのパラメータ変化に焦点を当て、その疎性および幾何学的性質に関する主要な分析結果を提示している。分析は複数の言語モデルと視覚言語モデルのペア、およびユースケースにわたって実施された。

本論文は、オンポリシー生徒軌跡と密な教師監督を組み合わせるオンポリシー蒸留 (OPD) が、モデルのパラメータをどのように変化させるかという未解明な点を明らかにする目的で行われた。

疎性に関する主要な発見として、OPD形式の更新は小さく、座標的に疎であると指摘されている。これらの更新はレイヤー全体に分布しており、通常はフィードフォワードネットワーク (FFN) に集中する傾向が見られた。この疎な構造は運用上有効であり、発見されたサブネットワークのみを訓練することで、完全なOPDとほぼ同等の性能を回復することが可能であるという。しかし、疎性を誘導するSGDオプティマイザは、AdamWと比較して性能が劣る結果となった。これは、密な教師監督が異質な座標ごとの勾配スケールを維持し、AdamWの適応スケーリングが依然として有用であるためと見られる。

幾何学的性質に関して、更新は数値的にはフルランクだが、スペクトル的には集中していることが示された。これらはソースウェイトの主要な特異部分空間から大きく離れており、ソースウェイトがゼロに近い座標に不均衡に多く現れることが判明した。

これらの発見は、密な教師監督がOPDを通常の密なパラメータ書き換えに変えるのではなく、OPDがオンポリシー後学習の重要な幾何学的特徴を保持していることを示唆している。

参考: arXiv cs.LG — 2026年6月12日 02:54 (JST)