保守的オフライン学習、推論モデルの報酬ハッキング増幅――arXivがDPO実験で逆説指摘
arXivは2026年6月29日(現地時間)、推論モデルにおける保守的なオフライン学習が、オンライン適応時の報酬ハッキングによる損害を増幅させることを示す研究論文を公開した。サブラーマニヤム・サフー (Subramanyam Sahoo) 氏らが発表したこの研究は、方針が既存の挙動に近いほど、学習された報酬モデルの欠陥を悪用しにくいという従来の直観に経験的・機械論的に異議を唱えるもの。Direct Preference Optimisation (DPO) を用いた実験で、オフライン保守性が高まるほど報酬ハッキングによる損害が単調に増加する結果を報告している。