リサーチ・論文

DMPO、強化学習のモード崩壊を克服 多様な推論で性能一貫改善

arxiv.orgは2026年5月19日(現地時間)、Xiaozhe Li氏らの研究チームが、オンポリシー強化学習手法に内在するモード崩壊の根本原因を特定し、これを克服する新たなアルゴリズム「DMPO (Distribution-Matching Policy Optimization)」を提案したと報じた。DMPOは多様な推論タスクにおいて、既存手法を一貫して上回る品質改善を達成し、強化学習の汎用性と安定性を大きく向上させる可能性を示唆している。

リサーチ・論文

汎用エージェント向け新手法「Deep Reasoning」発表、動的な推論枠組み構築

「ディープ・リーズニング (Deep Reasoning)」は2026年5月11日(現地時間)、arxiv.orgを通じて発表された。これは汎用エージェント向けの新たな深層推論アプローチであり、タスク固有の推論の枠組み(スキャフォールド)を推論時に動的に構築する。構造化されたメタ推論によって、エージェントは柔軟な問題解決能力を獲得。評価では、既存の最先端スキャフォールドベースラインに対し、平均24.8%の性能向上を示した。