LLM新手法「MetaBackdoor」、位置エンコーディング悪用しテキスト非変更攻撃

arXiv cs.CRは2026年5月14日(現地時間)、大規模言語モデル (LLM) に対する新たなバックドア攻撃手法「MetaBackdoor」が発表されたと報じた。この手法は、従来のコンテンツベースのトリガーに依存せず、入力テキストの視覚的または意味的な変更を伴わずに、位置情報をトリガーとして悪用する。研究者らは、TransformerベースのLLMがトークンの位置をエンコードする特性に着目し、長さと相関する位置構造がモデルの内部計算に反映されることを利用して、検出が困難なバックドアを活性化させる可能性を示している。

この研究は、Rui Wen氏、Mark Russinovich氏、Andrew Paverd氏、Jun Sakuma氏、Ahmed Salem氏らによって行われた。

既存のLLMバックドア攻撃が入力テキストの明示的な変更を必要とするのに対し、MetaBackdoorは、テキストコンテンツ自体を変更することなく、位置情報をトリガーとして利用する新しいクラスの攻撃として提案されている。研究者らは、TransformerベースのLLMが順序付けられたシーケンスを処理するためにトークンの位置を必然的にエンコードするという洞察を提示した。その結果、長さと相関する位置構造がモデルの内部計算に反映され、効果的な非コンテンツトリガー信号として機能することが示された。

単純な長さベースの位置トリガーであっても、ステルスなバックドアを活性化させるのに十分であることが実証されたと研究者らは述べている。先行する攻撃とは異なり、MetaBackdoorは視覚的および意味的にクリーンな入力で動作し、新しい種類の機能を実現すると研究者らは指摘している。研究では、長さ条件が満たされると、バックドアが仕掛けられたLLMがプロプライエタリなシステムプロンプトを含む機密性の高い内部情報を開示するように誘導できることが示されている。

さらに、自己活性化シナリオも示された。通常のマルチターン対話が会話コンテキストをトリガー領域に移動させ、攻撃者がトリガーテキストを提供することなく、悪意のあるツール呼び出し動作を誘導する可能性があるという。MetaBackdoorはコンテンツベースのバックドアと直交しており、それらと組み合わせて、より精密で検出が困難な活性化条件を作成することも可能であるとされている。

この研究結果は、位置エンコーディングがこれまで見過ごされてきた攻撃対象であることを明らかにし、LLMバックドアの脅威モデルを拡大したと指摘されている。疑わしいテキストの検出に焦点を当てる防御策に対して課題を提起するとされており、現代のLLMアーキテクチャにおける位置トリガーを明示的に考慮する新しい防御戦略の必要性を強調していると指摘されている。

参考: arXiv cs.CR (アーカイブ) — 2026年5月15日 02:56 (JST)