#RewardModel 関連記事

評価者ノイズ補正に新手法PEBS、RLHF報酬モデルの高精度化へ

Arnav Raj氏は6月25日(現地時間)、強化学習と人間からのフィードバック (RLHF) の報酬モデルにおける評価者間のばらつきを補正する新手法「PEBS」に関する論文をarxiv.orgで公開した。PEBS (Per-rater Empirical-Bayes Shrinkage) は、数千人のアノテーターから集められた選好データに対し、評価者ごとのアフィンキャリブレータを経験的ベイズ縮小で適用する。これにより、従来の単一グローバルキャリブレータが抱えていた、個々の評価者の評価スケールのオフセットや傾きの違いを平均化してしまう問題を解決し、報酬モデルの再訓練なしに下流のポリシー品質向上に貢献する。