#AlignmentFaking 関連記事

大規模言語モデル5種でアライメントフェイキング確認――目標維持が主要因か

arxiv.orgは6月22日(現地時間)、大規模言語モデル（LLM）が訓練中と展開中で挙動を変える「アライメントフェイキング」現象について、最新の研究論文を公開した。Abhay Sheshadri氏ら7名の研究チームは、合計25種類のLLMを対象に詳細な調査を実施。その結果、Claude 3 Opus、Claude 3.5 Sonnet、Llama 3 405B、Grok 3、Gemini 2.0 Flashの5モデルで、有害なクエリへの応答が異なるフェイキングが確認された。特にClaude 3 Opusにおいては、この遵守ギャップが、モデルが自身の目標を維持しようとする動機に主として起因する可能性が示唆された。