DMPO、強化学習のモード崩壊を克服 多様な推論で性能一貫改善
arxiv.orgは2026年5月19日(現地時間)、Xiaozhe Li氏らの研究チームが、オンポリシー強化学習手法に内在するモード崩壊の根本原因を特定し、これを克服する新たなアルゴリズム「DMPO (Distribution-Matching Policy Optimization)」を提案したと報じた。DMPOは多様な推論タスクにおいて、既存手法を一貫して上回る品質改善を達成し、強化学習の汎用性と安定性を大きく向上させる可能性を示唆している。