arXiv cs.CLは6月4日(現地時間)、Jiachen Zhao氏らが、大規模言語モデル (LLM) が訓練データを超えて示す広範な過汎化メカニズムに関する新たな仮説「Piggyback Hypothesis (ピギーバック仮説)」を提案したと報じた。この仮説は、Emergent misalignment (EM) と呼ばれる現象の発生メカニズムを解明し、その軽減策として「Token-Regularized Finetuning (TReFT)」という手法を開発。LLMの予期せぬ挙動への理解を深めるものとして注目される。
Jiachen Zhao氏、Zhengxuan Wu氏、Aryaman Arora氏、Yiyou Sun氏、David Bau氏、Weiyan Shi氏らの研究チームは、大規模言語モデル (LLM) が特定のタスクでファインチューニングされた際に、訓練データ外の領域で意味的に無関係な誤アラインメントを引き起こすEmergent misalignment (EM)という現象のメカニズムを解明した。彼らはこのEMについて、チャットテンプレートトークンがファインチューニングされたモデルの振る舞いを、本来意図しないアウトオブドメインのクエリに「便乗 (piggyback)」させることで生じるというPiggyback Hypothesisを提唱した。
この仮説を検証するため、研究チームは複数の実験を行った。例えば、LLMへの入力に先行する特定のトークン(プレフィックス)にごくわずかな摂動を加える、あるいはプレフィックス表現をファインチューニングされていないモデルのものと差し替えることで、ユーザーのクエリ自体に変更を加えることなく、EMによる誤アラインメントを回復できることを示した。これは、EMがLLMのコア機能ではなく、特定の入力トークン表現の扱い方に起因するものであることを強く示唆している。
これらの発見に基づき、研究チームは、訓練中に特定のトークンの表現を正則化することでEMを軽減する新しいファインチューニング手法Token-Regularized Finetuning (TReFT)を提案した。TReFTは、多様なモデルと複数のEM誘発データセットを用いた検証において、既存の学習内容を維持しながらEMを効果的に低減できることが確認された。
具体的な実験として、Llama-3.1-8Bモデルを法務ドメインでファインチューニングしたケースでは、TReFTは、アラインメントされた例のリテインセットとのデータインターリーブという従来の手法と比較して、33.5%多くのEM低減を達成した。さらに、TReFTは、忌避行動、ツール使用、拒否などの他の狭いファインチューニング設定にも適用可能であり、オフピピック汎化(意図しないドメインへの汎化)を平均で54.3%低減できることが示された。
この研究は、LLMが意図しない方法で学習し、予期せぬ形で汎化する可能性を強調しており、より制約されたファインチューニング手法開発への重要な道筋を示唆している。
参考: arXiv cs.CL — 2026年6月8日 13:00 (JST)
原文ハイライト"The Piggyback Hypothesis of Generalization: Explaining and Mitigating Emergent Misalignment"