科学論文リポジトリのarXiv cs.LGが2026年5月20日(現地時間)付けで報じたところによると、大規模言語モデル(LLMs)の推論能力向上に用いられるGroup Relative Policy Optimization(GRPO)アルゴリズムにおける課題「advantage collapse」の診断と軽減策に関する研究論文が発表された。本研究では、この失敗モードを定量化する診断指標Advantage Collapse Rate(ACR)を導入し、Adaptive Virtual Sample Policy Optimization(AVSPO)を提案。AVSPOはGRPOと比較してadvantage collapseを58-63%削減し、精度を4-6パーセンテージポイント向上させると報告されている。

Reinforcement Learning from Verifiable Rewards(RLVR)フレームワーク内の主要アルゴリズムであるGRPOは、均質な報酬グループ(全て正解または全て不正解の回答など)が存在する際に、advantageがほぼゼロとなり、勾配が消失するadvantage collapseと呼ばれる失敗モードに陥りやすい。この問題に対処するため、研究者らは、効果のない勾配を持つ訓練バッチの割合を定量化する初の診断指標としてAdvantage Collapse Rate(ACR)を導入した。

0.5Bから14Bパラメータのモデルを対象とした数学的推論ベンチマークでの評価において、ACRが訓練の停滞と最終的な性能を強く予測することが示された。この診断結果に基づき、GRPOの軽量な拡張機能としてAdaptive Virtual Sample Policy Optimization(AVSPO)が提案された。

AVSPOは、リアルタイムのACR監視に基づいて仮想報酬サンプルを注入することで、追加のモデルロールアウトなしで均質なグループからの学習を可能にする。この手法により、GRPOと比較してadvantage collapseを58-63%削減し、すべてのモデル規模で4-6パーセンテージポイントの一貫した精度向上を達成した。評価されたout-of-domainタスクにおいても汎化能力が維持されている。本研究のコードとデータセットはオンラインで公開されており、International Conference on Machine Learning(ICML 2026)での採択が決定している。


参考: arXiv cs.LG — 2026年5月20日 21:57 (JST)

原文ハイライト

"AVSPO reduces advantage collapse by 58-63% relative to GRPO"

この記事をシェア
X はてブ LinkedIn