大規模言語モデルエージェントのスキル進化：二つのスケーリング法則を特定

Charles Chen氏ら15名の研究チームは2026年5月15日(現地時間)、大規模言語モデル (LLM) エージェントシステムにおけるスキルのスケーリング法則に関する研究結果を学術論文公開サイトarXivで発表した。15の最先端LLM、1,141の実際のスキル、300万以上のルーティングや実行決定を分析。その結果、「ルーティング法則」と「実行法則」という、連携する二つの法則が特定され、エージェントシステムの性能向上に新たな知見をもたらした。

この研究は、エージェントシステムが規模を拡大し、スキルが大規模な再利用可能なライブラリに蓄積される中で、これまで十分に理解されていなかったスケーリング法則に焦点を当てたものだ。研究者らは、ルーティングの対数減衰傾斜 b と呼ばれる単一のパラメータが、この二つの法則を結びつける鍵であることを示した。このパラメータは、スキルライブラリが実行前段階で経験するパフォーマンスの減衰と、それに続くシステム全体の回復力の両方を制御する特性を持つことを示唆している。

「ルーティング法則」によると、単一ステップのルーティング精度はライブラリサイズに対して対数的に減衰することが判明した（全モデルでR^2 > 0.97）。この法則は、エラーがローカルスキルの競合、クロスファミリードリフト、そして過度に一般的な「ブラックホールスキル」による捕獲へと段階的に進行する様子を明らかにした。一方、「実行法則」では、状態実現前の段階では、結合されたルーティングがほぼ乗法的に機能する一方で、適切なスキル実行が、後続の困難な決定を約4倍改善する効果があることを示唆している。

これらの法則は実用的な応用が可能である。研究チームが法則に基づいた最適化を適用した結果、ホールドアウトされたルーティング精度は71.3%から91.7%へと大幅に向上し、不適切なスキル選択（ハイジャック）は22.4%から4.1%にまで減少した。また、ClawBenchにおける平均パス率は49.3%から61.6%に、ClawMarkでは28.4%から34.5%に改善された。これらの結果は、エージェントのパフォーマンスがモデルの能力のみならず、スキルライブラリの構造、粒度、露出ポリシーといった要素にも大きく依存することを示している。

参考: arXiv cs.CL — 2026年5月19日 13:00 (JST)