自己対戦型強化学習の破綻、意思決定能力の構造的閾値が支配

arXiv cs.LGが2026年5月4日(現地時間)付けで報じたところによると、Arahan Kujur氏の研究により、自己対戦型強化学習エージェントが非対称なルール摂動下で破綻する現象が、意思決定能力における構造的な閾値によって決定されることが示された。この研究は、ポーカーのバリアント、行列ゲーム、サイコロゲームなどで検証され、到達可能な状況依存型決定が全て排除されると、ほぼ最大の損失を伴う確定的な搾取アトラクターに急速に収束し、破綻に至ることが明らかになった。単一の到達可能な状況依存型決定点を保持するだけで、この破綻は防止できる。

Arahan Kujur氏は、自己対戦型強化学習（Self-Play Reinforcement Learning）エージェントが非対称なルール摂動を受けた際に破綻する現象を分析した。その結果、エージェントの意思決定能力における特定の閾値が、この破綻の発生を左右すると結論付けた。具体的には、positive-reach contingent decisions (到達可能な状況依存型決定)の全てが排除されると、エージェントはdeterministic exploitation attractor (確定的な搾取アトラクター)に急速に収束し、ほぼ最大の損失に至る固定点に陥ることが確認された。

この調査はポーカーのバリアント、行列ゲーム、サイコロゲーム、および複数の学習アルゴリズムにわたり実施された。研究では、単一の到達可能な状況依存型決定点を保持するだけで、上述の破綻を防止できることが示されている。また、静的なベースラインと固定された対戦相手による制御実験により、この破綻メカニズムが制約下の共同適応によるものであり、摂動自体によるものではないことが確認された。

この現象はタイミングに不変であり、アクションが復元されると完全に可逆であるとされる。さらに、関数近似下では現象の強度がさらに増すことも示された。これらの結果は、zero reach-weighted contingent action capacity (到達重み付き状況依存型行動能力がゼロ)に厳密な閾値が存在することを確立し、その深刻度がテストされたドメインにおいて到達重み付き能力を介して連続的にスケーリングするとしている。

参考: arXiv cs.LG (アーカイブ) — 2026年5月19日 13:00 (JST)