REINS、動画拡散モデルの安全性を学習不要で向上有害コンテンツ回避の新手法

Rohit Kundu氏らの研究チームは6月15日(現地時間)、動画拡散モデルの安全性アライメントを学習なしで実現する新手法「REINS (REpresentation-space INference-time Safety steering)」を発表した。本手法は、推論時にモデルの内部表現を操作することで、有害なコンテンツ生成を安全な代替案に誘導する。高コストなファインチューニングや容易に回避される外部フィルターに依存する既存の防衛策に対し、訓練不要かつ汎用性を損なわないアプローチとして注目される。

動画生成AIの進化と普及が加速するにつれて、望ましくないコンテンツ、特に暴力的、性的に露骨な動画生成リスクへの対処が喫緊の課題となっている。従来のモデル安全性アライメント手法は、多大な計算資源と時間投資を伴うモデルの再学習（ファインチューニング）や、生成後に不適切な内容を検出・除去する外部フィルターに依存してきた。しかし、これらのアプローチは、コストが高く汎用性に欠けたり、悪意あるユーザーによって容易に回避されたりするという課題を抱えていた。REINSは、こうした既存の課題に対し、学習不要でモデルの汎用的な性能を損なうことなく安全性アライメントを達成するという、根本的に異なる解決策を提示する。

REINSの中核をなすのは、安全性に関連する構造が動画拡散トランスフォーマーの隠れ状態アクティベーションに線形に符号化されているという発見である。研究チームは、二値安全性ラベルを用いたSupervised PCA（主成分分析）によって単一の方向を特定。この方向が、安全な生成経路と危険な生成経路を分離するのに十分であると結論付けた。この発見に基づき、REINSは推論時、中間トランスフォーマー層の隠れ状態にこの特定された方向を加えることで、モデルの重み更新や新たなコンセプトの列挙を行うことなく、有害なコンテンツの生成を意味的に関連する安全な代替案にリダイレクトする。この操作は計算オーバーヘッドを無視できるレベルに抑えられる。

機構分析により、安全性情報はトランスフォーマーの深さに応じて単調に蓄積されるものの、操舵の有効性は中間層（深さ約50%）でピークに達することが明らかになった。これは情報利用可能性と下流への伝播能力の間の根本的なトレードオフを示唆している。REINSは9種類の動画拡散モデル、複数のパラメータスケール（1.3Bから5B）、およびテキストから動画、画像から動画の両方の生成タスクで評価され、動画生成に関する安全性評価スイートとして最も広範な検証が実施されたと報告されている。

REINSが提示する「訓練不要」のアプローチは、既存の安全性アライメント手法、例えば強化学習と人間からのフィードバック（RLHF）などと比較して、運用上の大きなメリットを持つ。RLHFは、特定の振る舞いをモデルに学習させるために、大規模なデータセット収集や複雑な学習プロセスを必要とし、多大な時間と計算資源を消費する。これに対しREINSは、学習済みモデルに後から適用可能であり、モデル開発者が安全性アップデートを迅速に導入しやすくなる。動画生成AIの商業利用が加速する現代において、有害コンテンツのリスクは企業にとって深刻な事業リスクとなり得る。REINSのような手法は、モデルの基本性能を維持しつつ、倫理的かつ責任あるAI開発を促進するための実用的な選択肢を提供し、コンテンツモデレーションの負担軽減にも寄与すると見られる。

参考: arXiv cs.CV — 2026年6月17日 13:00 (JST)