LLM性能の非単調な変化を解明シャノン容量に基づく新スケーリング法則を提唱

arXiv cs.LGは2026年5月22日(現地時間)、Xu Ouyang氏らの研究チームが、大規模言語モデル（LLM）の訓練プロセスをノイズのある情報伝送チャネルとして捉える「シャノン・スケーリング・ロー」と称する新たな理論的枠組みを提唱したと報じた。この法則は、既存のスケーリング法則では説明が困難だった、計算資源の増加にもかかわらず性能が低下する非単調な現象の解明を可能にする。シャノン＝ハートレーの定理に基づき、モデルのパラメーターをチャネル帯域幅、訓練トークンを信号電力にマッピングすることで、学習信号と固有ノイズの相互作用を明確に捉えることができる。

シャノン・スケーリング・ローは、LLMに根本的なシャノン容量（Shannon capacity）が存在すると示唆している。情報理論におけるシャノン容量は、ノイズが存在する環境下でエラーなく伝送できる情報の最大レートを指す。本研究では、LLMの訓練において、モデルサイズやデータ量を無闇にスケーリングするだけでは性能が単調に向上しないことを指摘する。十分な信号対ノイズ比（SNR）を維持しないとノイズが増幅され、性能が単調に向上する初期段階から、計算資源の増加にもかかわらず性能がU字型に劣化するフェーズへと移行すると見られる。

研究チームは、この理論をPythia（パイシア）とOLMo2（オルモ2）という代表的なLLMモデルを用いた広範な実験で検証した。実験では、訓練プロセス中に発生しうるさまざまな摂動下でのモデル性能が評価された。具体的には、データにランダムなばらつきを加えるガウスノイズ、データのビット深度を制限する量子化、複雑な推論を要する数学タスク、多様な知識を問うQAタスク、そしてコード生成タスクに対する教師ありファインチューニング（SFT）といった多様な条件で性能が測定された。

その結果、シャノン・スケーリング・ローは古典的なスケーリング法則や最近提案された摂動認識法則と比較して優れた性能予測能力を示し、特に高い$R^2$スコアを達成した。$R^2$スコアは統計モデルがデータ変動をどれだけ説明できるかを示す指標であり、その高スコアは本法則の優れた説明力を裏付けている。加えて、これまでのアプローチでは捉えられなかった損失の盆地（loss basins）、すなわち性能が一時的に低下するが後に回復するような複雑な非単調な挙動を、この法則が正確に捕捉することに成功した。

さらに、この法則は外挿性においても顕著な能力を発揮すると報告されている。69億パラメーター以下のPythiaモデルを1800億トークン以下のデータで適合させた場合、未見の120億パラメーターモデルにおいて3070億トークンまでの性能を予測する際、$R^2$値0.847という高い精度を記録した。これに対し、従来の直線的な単調性に基づくベースライン予測モデルは、大規模な外挿条件下で予測が大きく破綻し、現実の性能変動を捉えきれないことが明らかになった。この外挿能力は、将来の大規模LLMの開発において、効率的な資源配分や初期段階での性能予測に極めて重要な示唆を与えるものである。

本研究は、機械学習のトップ会議の一つであるICML 2026で受理されたとしている。

参考: arXiv cs.LG (アーカイブ) — 2026年5月23日 02:59 (JST)