Arnav Raj氏は6月25日(現地時間)、強化学習と人間からのフィードバック (RLHF) の報酬モデルにおける評価者間のばらつきを補正する新手法「PEBS」に関する論文をarxiv.orgで公開した。PEBS (Per-rater Empirical-Bayes Shrinkage) は、数千人のアノテーターから集められた選好データに対し、評価者ごとのアフィンキャリブレータを経験的ベイズ縮小で適用する。これにより、従来の単一グローバルキャリブレータが抱えていた、個々の評価者の評価スケールのオフセットや傾きの違いを平均化してしまう問題を解決し、報酬モデルの再訓練なしに下流のポリシー品質向上に貢献する。

PEBS (Per-rater Empirical-Bayes Shrinkage) は、強化学習と人間からのフィードバック (RLHF) の報酬モデルのキャリブレーション精度を向上させる目的で開発された。この手法は、各評価者の評価データの一部を用いて評価者ごとのアフィンキャリブレータをフィットさせ、母集団平均に向けたMorris-James-Stein経験的ベイズ縮小を適用する。従来のRLHFにおける報酬モデルは、評価者間の評価スケールの違いを十分に考慮せず、平均化された単一のグローバルキャリブレータを使用する傾向があった。これにより、特定の評価者が厳しすぎる、あるいは寛容すぎるという個別の特性が報酬モデルに正確に反映されず、結果として生成AIのポリシー品質に悪影響を及ぼす可能性があった。

PEBSの主要な利点は、報酬ベースモデルを変更することなく、推論時に新しい評価に用いられる評価者レベルのマップのみを推定できる点にある。これは、既存のRLHFパイプラインに容易に統合できることを意味し、コストや開発時間の大幅な増加を伴わずにモデルの堅牢性と公平性を向上させることを可能にする。閉形式で提供されるこの手法は、実装の簡便さも特徴の一つである。

実験では、PRISMデータセットにおいて、PEBSはpooled population-slope baselineと比較して、ユーザー内held-out RMSEを8.58%削減した。また、PluriHarmsのハーム評価(Qwen-2.5 base, in-family)においても、同じpopulation-slope baselineに対し+9.66%のRMSE削減効果を示し、その有効性が実証された。これらの結果は、評価者ごとのばらつきを個別に補正することが、報酬モデルの予測精度と下流のポリシーパフォーマンス向上にいかに重要であるかを示唆している。

この評価者ノイズ補正手法は、生成AI、特に大規模言語モデル (LLM) の開発におけるRLHFアノテーション設計に構造的な含意を持つ。PEBSの導入により、アノテーター間の評価基準のばらつきを効果的に吸収し、より高精度で公平な報酬モデルを構築することが可能となる。これは、アノテーション作業の効率化とモデルの品質向上に直接的に寄与し、LLMの信頼性向上や新たな応用分野の開拓において重要な役割を果たすと見られる。本手法はICML 2026 Workshop on Pluralistic Alignmentで採択されたことが判明した。


参考: arxiv.org (アーカイブ) — 2026年6月27日 09:00 (JST)

この記事をシェア
X はてブ LinkedIn