arXiv cs.CLは2026年5月7日(現地時間)、Mingwei Xu氏とHao Fang氏が、大規模言語モデル (LLM) の推論能力向上を目指す新しい強化学習フレームワーク「Positive-Only Policy Optimization (POPO)」を提案したと発表した。これは、検証可能な報酬を伴う強化学習 (RLVR) の領域において、既存手法Group Relative Policy Optimization (GRPO) の負のロールアウト問題を解決するもので、オンラインの正のロールアウトのみで学習を進める。

検証可能な報酬を伴う強化学習 (RLVR) は、決定論的な検証を通じて、大規模言語モデル (LLM) の推論能力向上における主要なパラダイムとして確立されています。この分野では、Proximal Policy Optimization (PPO) から、グループ化された正および負のロールアウトを用いた単純な推定により複雑なアドバンテージ推定を削減するGroup Relative Policy Optimization (GRPO) への変化が見られています。

しかし、負のロールアウトは失敗の深刻度のグラデーションを持たない可能性があり、疎な二値報酬の環境下では、サンプリングされた少数の負の事例を罰しても意味のある報酬シグナルを十分にカバーすることは難しいという指摘があります。Mingwei Xu氏とHao Fang氏は、これらの課題に対処するため、Positive-Only Policy Optimization (POPO) を提案しました。このRLVRフレームワークは、オンラインの正のロールアウトのみを通じて学習を行うことが特徴です。

POPOは、正のロールアウトセットに対する有界な重要度サンプリングを利用し、勾配誘導に独立した負のロールアウトを使用しません。ロールアウトの再配分を通じて正の確率を強化することで、暗黙的な負の勾配が自然に現れることを示しています。さらに、POPOは方策最適化 (policy optimization) を安定させるために二つのメカニズムを採用しています。

一つ目は、安定した方策進化のために、モーメンタムベースの適応法則を持つシャム方策ネットワーク (siamese policy network) を適用すること。二つ目は、シャム表現空間において、KLダイバージェンスを有界な類似性ペナルティ項で置き換えることです。

著者らは、Qwenファミリーなどの公開されているテキストLLMモデルを用いて、あらゆるレベルの数学的ベンチマークで広範な実験を実施しました。実験の結果、POPOはGRPOに匹敵するか、それを上回る性能を達成することが示されました。特に、Qwen-Math-7Bを用いたAIME 2025ではPOPOが36.67%を達成し、GRPOの30.00%を上回る結果となりました。アブレーションスタディとスイープスタディにより、POPOの構成要素の必要性と堅牢性がさらに実証されています。


参考: arXiv cs.CL (アーカイブ) — 2026年5月8日 02:55 (JST)

この記事をシェア
X はてブ LinkedIn