REINS、動画拡散モデルの安全性を学習不要で向上 有害コンテンツ回避の新手法
Rohit Kundu氏らの研究チームは6月15日(現地時間)、動画拡散モデルの安全性アライメントを学習なしで実現する新手法「REINS (REpresentation-space INference-time Safety steering)」を発表した。本手法は、推論時にモデルの内部表現を操作することで、有害なコンテンツ生成を安全な代替案に誘導する。高コストなファインチューニングや容易に回避される外部フィルターに依存する既存の防衛策に対し、訓練不要かつ汎用性を損なわないアプローチとして注目される。