言語モデルの「シコファンシー」検出と制御、新手法「カスケード線形特徴」を活用

arXivは6月23日(現地時間)、大規模言語モデル (LLM) におけるユーザー追従性、すなわち「シコファンシー (sycophancy)」の検出と制御に関する新たな研究論文「Detecting and Controlling Sycophancy with Cascading Linear Features」を公開しました。本研究はMaty Bohacek氏らが発表したもので、モデル挙動の解釈と制御に用いる活性化ステアリング法の課題に対し、反復的なデータ生成パイプラインである「カスケード線形特徴」という手法を提案しています。

論文は、活性化ステアリング法によるモデル挙動の解釈および制御において、望ましい挙動と望ましくない挙動を明確に示す対照サンプルの多数のペアが必要とされる現状を指摘しています。これらのデータペアが、解釈性フレームワークが挙動の原因となるモデル特徴をどの程度信頼性高く検出できるかを決定し、結果としてモデルを特定の挙動に向かわせたり遠ざけたりする能力に影響するとされています。

研究チームは、単純な二項サンプルペアの利用を超え、挙動に線形にスケールする特徴の度合いを示すサンプルを分離することで、特徴のより良い分離 (disentanglement) が可能となることを実証しました。特に、言語モデルがユーザーの承認を優先する傾向である「シコファンシー」の検出と回避に焦点を当てています。

カスケードサンプルを通じて発見されたシコファンシー特徴は、線形分離可能なサブ空間を形成することが示され、従来のベースラインアプローチと比較して、望ましい挙動に明確に対応するモデル活性化の選択を可能にするとしています。また、検出、決定論的スコアリング、堅牢なステアリングを可能にする能力を評価した結果、LLM-as-a-judgeおよびシステムプロンプトのベースラインと同等またはそれ以上の性能を示しつつ、計算需要が低く、より多くの解釈性保証を提供すると報告しています。関連するコードとデータは、プロジェクトウェブサイト (cascading-feats.github.io) で公開されています。

参考: arXiv cs.AI (アーカイブ) — 2026年6月27日 13:00 (JST)