DMPO、強化学習のモード崩壊を克服　多様な推論で性能一貫改善

arxiv.orgは2026年5月19日(現地時間)、Xiaozhe Li氏らの研究チームが、オンポリシー強化学習手法に内在するモード崩壊の根本原因を特定し、これを克服する新たなアルゴリズム「DMPO (Distribution-Matching Policy Optimization)」を提案したと報じた。DMPOは多様な推論タスクにおいて、既存手法を一貫して上回る品質改善を達成し、強化学習の汎用性と安定性を大きく向上させる可能性を示唆している。

強化学習の分野において、モデルが特定の最適解に過度に集中し、多様な解の探索を怠る「モード崩壊」は、その性能と応用範囲を制限する主要な課題の一つとして認識されていました。特に、GRPOなどの一般的なオンポリシー強化学習手法は、このモード崩壊に悩まされており、その原因は逆KL最小化のモード探索特性に起因すると考えられています。

研究チームの指摘によると、逆KL最小化は、最初に発見された報酬の高い軌道を強化する傾向がある一方で、複数の多様な高報酬の解の分布を効果的に維持することができません。このメカニズムは、訓練プロセス中にエージェントが「近視眼的」になり、より広範な探索空間に存在する可能性のある、同等またはそれ以上の性能を持つ多様な解を見逃してしまうことに繋がります。結果として、システムの汎用性や未知の環境への適応能力が低下し、強化学習の潜在能力が十分に引き出せない状況が生じていました。

この根本的な課題に対処するため、研究チームはDMPO (Distribution-Matching Policy Optimization)と名付けた新たなアルゴリズムを提案しました。DMPOは、従来の逆KL最小化とは対照的に、順KL最小化の原理に基づいた近似を通じてモード崩壊を効果的に防ぎます。具体的には、DMPOは訓練中にサンプルされた軌道群に対して、その報酬に比例する形で「グループレベルのターゲット分布」を構築します。そして、エージェントのポリシ分布をこのターゲット分布に一致させるように最適化します。このアプローチにより、特定の高報酬軌道に固執することなく、報酬分布全体にわたる多様な軌道を均等に探索・維持することが可能となり、訓練全体を通じて持続的かつ広範な探索が促されます。

DMPOの有効性を検証するため、研究チームはNP困難な組み合わせ最適化のタスク群を用いて広範な実験を実施しました。評価は、テキストベースおよびビジョンベースの両方のNP-Benchベンチマークで行われました。結果として、DMPOはその性能において既存の最先端手法を顕著に上回ることが示されました。

詳細なデータによると、テキストベースのNP-BenchにおいてDMPOは43.9%のQuality Ratioを達成し、これは比較対象であるGRPOの40.1%に対して9%という相対的な改善に相当します。さらに、ビジョンベースのNP-Benchでは、DMPOが43.1%のQuality Ratioを記録し、GRPOの38.4%と比較して12%の相対的な改善を達成しました。これらの結果は、DMPOが複雑な推論タスクにおいて、既存手法よりも優れた性能を発揮する能力を持つことを明確に示しています。

また、研究チームはDMPOが単に特定のタスクで高性能を発揮するだけでなく、より汎用的な推論能力の向上にも寄与することを発見しました。数学的推論タスクでは2.0%の向上、さらに訓練時に遭遇しなかった「ドメイン外」のタスクにおいても2.3%の性能向上が確認されました。これらの数値は、DMPOが多様な解の探索を維持することで、エージェントがより頑健で一般的な推論能力を習得することに繋がるという仮説を強力に裏付けています。この成果は、強化学習が現実世界の複雑な問題解決に応用される際の信頼性と効率性を大きく高める可能性を秘めています。

参考: arxiv.org — 2026年5月24日 09:00 (JST)