arxiv.orgは5月12日(現地時間)、言語モデルの安全性アラインメントにおいて、最適な安全ポリシーの尤度比が閉形式分解を認め、密度比マッチング問題に還元されることが示されたと報じた。これにより、複雑なパイプラインを必要とする従来の安全性アラインメント手法を代替する、単一ステージ損失関数「Bregman Safety Optimization(BSO)」が提案されている。このBSOは、補助モデルや多段階の手順を不要とし、安全性と有用性のトレードオフ改善に寄与する。

安全性アラインメントは、言語モデルが有用性と安全性の両方を満たすために不可欠なプロセスである。従来のアプローチでは、報酬モデルとコストモデルの分離、オンライン強化学習、そしてprimal-dual更新といった複雑なパイプラインが求められていた。また、近年の直接選好最適化(direct preference optimization)手法は訓練を簡素化するものの、安全性確保のためにはアドホックな多段階プロセスやヒューリスティックなマージン項を用いるなど、原理的な導出に欠ける側面があった。

Tien-Phat Nguyen氏ら著者陣は、最適な安全ポリシーの尤度比が閉形式分解を可能にし、安全性アラインメントが密度比マッチング問題として定式化できることを証明した。この理論に基づき、データとモデルの比率間のBregmanダイバージェンスを最小化することで、Bregman Safety Optimization(BSO)と呼ばれる単一ステージの損失関数群が構築される。このBSOは、凸ジェネレーターによって誘導され、理論的に最適な安全ポリシーを回復できることを示している。

Bregman Safety Optimization(BSO)は汎用的かつシンプルな設計を特徴とする。補助モデルが不要であり、標準的な選好最適化に加えてハイパーパラメータは一つのみである。さらに、既存の安全性配慮手法を特殊ケースとして包含することが可能である。安全性アラインメントのベンチマークにおける実験では、Bregman Safety Optimization(BSO)が一貫して安全性と有用性のトレードオフを改善することが確認された。


参考: arxiv.org — 2026年5月15日 09:00 (JST)

原文ハイライト

"BSO: Safety Alignment Is Density Ratio Matching"

この記事をシェア
X はてブ LinkedIn