トルオン・スアン・カン(Truong Xuan Khanh)氏らの研究チームは2026年6月10日(現地時間)、ニューラルネットワーク(Neural Network)におけるグロッキング(Grokking)現象の遅延発現が、重みノルム(Weight Norm)によって決定されるとする研究論文をarXivに発表した。同研究は、訓練中に重みノルムを直接操作することで、これまで議論の的となっていた重みノルムとグロッキング遅延との因果関係を実験的に解明したと述べている。
グロッキングは、ニューラルネットワークが訓練データに適合した後、長期間を経てから一般化能力が向上する現象を指す。この遅延が重みノルムによって引き起こされるかについては、研究者間で意見が分かれていた。一部の研究では遷移点で臨界ノルムが報告される一方、別の研究では固定ノルムなしでのグロッキングが観察されていた。トルオン・スアン・カン氏らは、ノルムを単に観察するのではなく、訓練中に介入することでこの論争の解決を目指した。
研究チームは、重み減衰を伴う自由訓練において、ネットワークは重みノルムが$W_c$という特定の値に達するとグロッキングを起こすことを確認した。この$W_c$は、シードや学習率によらず変動が1〜2パーセントと小さいことも示された。さらに、ノルムを$W_c$の固定倍率rhoにクランプして維持した場合、ネットワークは引き続きグロッキングを示したが、その遅延時間$T_\text{grok}$はexp(alpha rho)に比例することが判明した。ここで、指数alphaは約7.5であり、これは4つのモジュライにわたって高い適合度($R^2$=0.996)を示した。
重みノルムを固定した場合、グロッキング遅延は19倍変化したが、学習率による遅延の変化は2倍にとどまった。また、$W_c$を超えるノルムを維持してもグロッキングが完全に阻止されるのではなく、遅延する傾向が観察された。最終的なレイヤー正規化(LayerNorm)は、重みのスケールとネットワーク機能の結合を解除することで、重みノルムへの依存性を排除する。このLayerNormがない場合、指数法則が再び現れるという。研究チームは、この固定ノルムによる遅延は、自由に収縮するノルムに対して予測される対数遅延とは異なる指数関数的な遅延であると結論付けている。
参考: arXiv cs.LG (アーカイブ) — 2026年6月15日 13:00 (JST)
原文ハイライト"The Weight Norm Sets the Grokking Timescale: A Causal Delay Law"