arXiv cs.LGは6月21日(現地時間)、大規模な教師モデルから小規模な学生モデルへ推論を蒸留する複数のオフライン強化学習損失関数に関する研究論文を発表した。本研究は、報酬重み付けファインチューニング (RFT)、報酬包含ファインチューニング (RIFT)、直接ファインチューニング (DFT)、オフライン汎用ポリシー最適化 (Offline GRPO)、直接選好最適化 (DPO) などの手法が、メカニズム的に異なるのか、または同様の重み更新に収束するのかを検証した。各手法の重み更新挙動と精度への影響を分析し、特にDPOが最高の精度を示す結果となった。
本研究では、単一のベースモデルであるクウェン3-4B (Qwen3-4B) から得られた同一の数学ロールアウトデータを使用し、6つの手法(教師ありファインチューニング (SFT)、RFT、DFT、RIFT、Offline GRPO、DPO)をattention-onlyのローラ (LoRA) で学習させた。
分析の結果、SFT、RFT、RIFTはコサイン類似度が0.97以上、トップ1主角度中央値が約7度と、ほぼ同一直線上の重みデルタを持つことが観察された。これらの手法はジーエスエム8K (GSM8K) ベンチマークにおいて87~88%の同程度の精度(n=1319、pairwise McNemar p >= 0.15)を示している。
一方、DFTは同一データを使用しているにもかかわらず、報酬重み付け手法よりも方向が乖離した。Offline GRPOはSFT方向に対して実質的な直交成分(グローバルで約67%、後半層で最大約86%)を追加したが、SFTの損失盆地内に留まった。
DPOはほぼ直交する部分空間に位置し、モード連結性の障壁を示し、後半層のCKAを約0.46に低下させた。DPOは本プロトコルにおいて、GSM8Kで93.5%(他の各手法と比較してMcNemar p < 10^-9)、エイム26 (AIME26) で30.0%(3.3~10.0%と比較)と、最高の精度を達成している。DPOの学習には他の手法より10倍小さい学習率が用いられており、更新ノルムと精度の差は損失関数とオプティマイザの選択を共同で反映している。学習率を合わせたDPOの比較は将来の研究課題とされている。
参考: arXiv cs.LG (アーカイブ) — 2026年6月24日 13:00 (JST)