リサーチ・論文

DMPO、強化学習のモード崩壊を克服 多様な推論で性能一貫改善

arxiv.orgは2026年5月19日(現地時間)、Xiaozhe Li氏らの研究チームが、オンポリシー強化学習手法に内在するモード崩壊の根本原因を特定し、これを克服する新たなアルゴリズム「DMPO (Distribution-Matching Policy Optimization)」を提案したと報じた。DMPOは多様な推論タスクにおいて、既存手法を一貫して上回る品質改善を達成し、強化学習の汎用性と安定性を大きく向上させる可能性を示唆している。

リサーチ・論文

AlphaGRPO、自己反省型マルチモーダル生成を強化:RL課題克服へ

arXivは2026年5月12日(現地時間)、「AlphaGRPO」に関する研究論文を公開した。同フレームワークは、強化学習ベースのマルチモーダル生成モデルが直面する報酬設計の複雑さやコールドスタート問題を解決する。Group Relative Policy Optimization (GRPO) をAR-Diffusion Unified Multimodal Models (UMMs) に適用し、追加のコールドスタート段階なしに生成能力を向上させる。これにより、モデルは高度な推論と自律的な品質向上を実現する。

リサーチ・論文

arXiv、LLM向けに新強化学習「POPO」を提案 正のロールアウトのみで学習

arXiv cs.CLは2026年5月7日(現地時間)、Mingwei Xu氏とHao Fang氏が、大規模言語モデル (LLM) の推論能力向上を目指す新しい強化学習フレームワーク「Positive-Only Policy Optimization (POPO)」を提案したと発表した。これは、検証可能な報酬を伴う強化学習 (RLVR) の領域において、既存手法Group Relative Policy Optimization (GRPO) の負のロールアウト問題を解決するもので、オンラインの正のロールアウトのみで学習を進める。