オフライン推論学習の重み空間幾何学を分析、DPOが最高精度を達成
arXiv cs.LGは6月21日(現地時間)、大規模な教師モデルから小規模な学生モデルへ推論を蒸留する複数のオフライン強化学習損失関数に関する研究論文を発表した。本研究は、報酬重み付けファインチューニング (RFT)、報酬包含ファインチューニング (RIFT)、直接ファインチューニング (DFT)、オフライン汎用ポリシー最適化 (Offline GRPO)、直接選好最適化 (DPO) などの手法が、メカニズム的に異なるのか、または同様の重み更新に収束するのかを検証した。各手法の重み更新挙動と精度への影響を分析し、特にDPOが最高の精度を示す結果となった。