オンポリシー蒸留、パラメータ更新の疎性・幾何学を分析
arXiv cs.LGは2026年6月11日(現地時間)、Guo Yu氏らが執筆した論文「Dense Supervision, Sparse Updates: On the Sparsity and Geometry of On-Policy Distillation」を発表した。本研究は、オンポリシー蒸留 (OPD) におけるモデルのパラメータ変化に焦点を当て、その疎性および幾何学的性質に関する主要な分析結果を提示している。分析は複数の言語モデルと視覚言語モデルのペア、およびユースケースにわたって実施された。