arXiv、LLMのプロンプトインジェクション対策の不可能性を数学的に証明

学術論文公開サイトarXiv cs.CRは2026年6月25日(現地時間)に提出された研究論文で、大規模言語モデル (LLM) 統合アプリケーションにおけるプロンプトインジェクションのセキュリティリスクに関する研究結果を明らかにした。この論文は、共有埋め込みアーキテクチャにおいて制御とデータの分離が強制されない限り、プロンプトインジェクションに対する完全な防御が数学的に不可能であると結論付けている。

Dewank Pant、Shruti Lohani、Avijit Kumarの各氏が執筆した論文On the Inseparability of Instructions and Data in Shared-Embedding Sequence Modelsは、プロンプトインジェクションに対するこれまでの防御策が全て破られてきたのは偶然ではないと指摘する。

論文では、プロンプト化されたシステムをPrompted Action Modelsとして形式化し、出力が制御権限を持つアクション（拒否決定、ツール承認、ポリシールーティング、メモリ書き込みなど）を含むと定義している。また、こうした振る舞いが信頼できない入力の意味のみに依存し、そのエンコード方法に依存しないという特性をSemantic-Faithful Control (SFC)と定義した。

その上で、SFCが共有パイプライン内で達成不可能であることを3つの結果によって証明している。1つ目は、共有表現が信頼されたコンテンツと信頼できないコンテンツを統計的に分離不能にするprovenance-recovery impossibilityだ。2つ目は、信頼できないトークンが、出力決定に使用されるものと同じアテンション値集約を通じて、制御関連の計算に入り込むcontrol-path exposureである。3つ目は、有限のトレーニングでは無限のセマンティック同等クラスにわたる不変性を保証できないfinite-coverage invariance gapである。

この研究結果は、既存の防御策のギャップではなく、構造的な問題であると位置付けられている。これは、フォン・ノイマン型コンピューターにおけるコードとデータの混同から生じるバッファオーバーフローの脆弱性と類似しており、その対策には数十年を要した。プロンプトインジェクションも同様に、パイプライン内の分類やアライメントの改善だけでは排除できず、命令とデータチャネルのアーキテクチャレベルでの分離が求められるとしている。

参考: arXiv cs.CR (アーカイブ) — 2026年6月29日 13:00 (JST)