#GRPO 関連記事 | AI Edgeline

arXiv、LLM向けに新強化学習「POPO」を提案正のロールアウトのみで学習

arXiv cs.CLは2026年5月7日(現地時間)、Mingwei Xu氏とHao Fang氏が、大規模言語モデル (LLM) の推論能力向上を目指す新しい強化学習フレームワーク「Positive-Only Policy Optimization (POPO)」を提案したと発表した。これは、検証可能な報酬を伴う強化学習 (RLVR) の領域において、既存手法Group Relative Policy Optimization (GRPO) の負のロールアウト問題を解決するもので、オンラインの正のロールアウトのみで学習を進める。

#GRPO

arXiv、LLM向けに新強化学習「POPO」を提案 正のロールアウトのみで学習

arXiv、LLM向けに新強化学習「POPO」を提案正のロールアウトのみで学習