#GroupRelativePolicyOptimization 関連記事

GRPOの「advantage collapse」問題診断とAVSPOによる改善策

科学論文リポジトリのarXiv cs.LGが2026年5月20日(現地時間)付けで報じたところによると、大規模言語モデル（LLMs）の推論能力向上に用いられるGroup Relative Policy Optimization（GRPO）アルゴリズムにおける課題「advantage collapse」の診断と軽減策に関する研究論文が発表された。本研究では、この失敗モードを定量化する診断指標Advantage Collapse Rate（ACR）を導入し、Adaptive Virtual Sample Policy Optimization（AVSPO）を提案。AVSPOはGRPOと比較してadvantage collapseを58-63%削減し、精度を4-6パーセンテージポイント向上させると報告されている。