GRPOの「advantage collapse」問題診断とAVSPOによる改善策
科学論文リポジトリのarXiv cs.LGが2026年5月20日(現地時間)付けで報じたところによると、大規模言語モデル(LLMs)の推論能力向上に用いられるGroup Relative Policy Optimization(GRPO)アルゴリズムにおける課題「advantage collapse」の診断と軽減策に関する研究論文が発表された。本研究では、この失敗モードを定量化する診断指標Advantage Collapse Rate(ACR)を導入し、Adaptive Virtual Sample Policy Optimization(AVSPO)を提案。AVSPOはGRPOと比較してadvantage collapseを58-63%削減し、精度を4-6パーセンテージポイント向上させると報告されている。