「SafeGene」、LLMの安全性劣化を防ぐ再利用可能アダプターを提案
arXiv cs.AIは2026年6月2日(現地時間)付けで提出された論文で、オープンウェイト大規模言語モデル(LLM)のファインチューニング時に頻発する安全アライメントの弱体化という課題に対し、革新的な解決策「SafeGene」を発表した。SafeGeneは、モデル固有の修復ではなく、タスク横断的に再利用可能な安全性アダプターモジュールとして機能するよう設計されており、アーキテクチャ互換性のあるモデルファミリー全体でその有効性を示している。これにより、LLMの安全性を効率的に維持しつつ、多様なカスタム利用への適応を可能にする。