LLM新手法「MetaBackdoor」、位置エンコーディング悪用しテキスト非変更攻撃
arXiv cs.CRは2026年5月14日(現地時間)、大規模言語モデル (LLM) に対する新たなバックドア攻撃手法「MetaBackdoor」が発表されたと報じた。この手法は、従来のコンテンツベースのトリガーに依存せず、入力テキストの視覚的または意味的な変更を伴わずに、位置情報をトリガーとして悪用する。研究者らは、TransformerベースのLLMがトークンの位置をエンコードする特性に着目し、長さと相関する位置構造がモデルの内部計算に反映されることを利用して、検出が困難なバックドアを活性化させる可能性を示している。