安全性アラインメントを密度比マッチングに還元、新手法「BSO」を提唱
arxiv.orgは5月12日(現地時間)、言語モデルの安全性アラインメントにおいて、最適な安全ポリシーの尤度比が閉形式分解を認め、密度比マッチング問題に還元されることが示されたと報じた。これにより、複雑なパイプラインを必要とする従来の安全性アラインメント手法を代替する、単一ステージ損失関数「Bregman Safety Optimization(BSO)」が提案されている。このBSOは、補助モデルや多段階の手順を不要とし、安全性と有用性のトレードオフ改善に寄与する。