LLMのプロンプトインジェクション対策、モデルのロール認識が鍵

Simon Willison's Weblogは2026年6月22日(現地時間)、チャールズ・イェ (Charles Ye) 氏らが発表した論文「Prompt Injection as Role Confusion」についての解説記事を公開した。この研究は、大規模言語モデル (LLM) が自身の特権的なシステムメッセージと信頼できないユーザー入力を区別する際の課題に焦点を当てている。モデルがテキストの内容よりも書き方を重視する傾向にあるため、プロンプトインジェクションへの脆弱性が指摘されている。

この論文では、<system>、<think>、<assistant>といったロールタグで囲まれたモデルの内部テキストと、<user>で囲まれたユーザー入力をLLMが効果的に識別することの困難さが調査された。チャールズ・イェ氏、ジャスミン・クイ (Jasmine Cui) 氏、ディラン・ハドフィールド＝メネル (Dylan Hadfield-Menell) 氏らが研究結果を発表した。

研究の結果、LLMはテキストの実際の内容よりもスタイルを重視する可能性が示唆された。この特性は、モデルの初期トレーニングを無効にする「ジェイルブレイク」を引き起こす懸念がある。具体例として、gpt-oss-20bのようなモデルが、内部思考ブロックと同じ書き方で続くテキストによって混乱し、不適切な指示に従う事例が挙げられた。

論文では「デスタイリング」と呼ばれる手法が有効であると報告されている。これは、ロールタグ内で期待されるフォーマットとは異なる形でテキストを書き換えることで、モデルのテキスト分類に大きな影響を与える。この手法により、攻撃の成功率が平均で61%から10%に低下したとされている。

研究者らはこの根底にあるメカニズムを「ロールコンフュージョン」と呼び、現在のモデルにおけるプロンプトインジェクション対策の主要な課題であると指摘している。LLMが真のロール認識を達成しない限り、インジェクション防御は継続的な課題となると見られている。

参考: Simon Willison’s Weblog — 2026年6月23日 08:59 (JST)