Zhewen Tan氏ら研究者グループは2026年5月22日(現地時間)、大規模言語モデル (LLM) エージェントの記憶を事後的に監査するためのフレームワーク「MemAudit」を提案した。これは、エージェントの記憶に注入された悪意のある記録が有害な行動を引き起こした後、どの記憶がその悪影響の原因であるかを特定することを目的とする。学術論文公開サイトarXiv cs.AIが報じた論文によれば、既存の防御策が対処できていなかった事後的な問題解決に寄与する。
大規模言語モデル (LLM) エージェントは、過去の対話を永続的な記憶に保存し、関連するデモンストレーションを取得することで、長期にわたるタスク実行能力を向上させている。しかし、この記憶メカニズムは、実用上のセキュリティ脆弱性を生み出す。すなわち、悪意あるユーザーが通常の対話を通じて悪意ある記録をエージェントの記憶に注入し、その記録が後にエージェントの推論や行動を誘導する可能性がある。
既存の防御策は、プロンプトフィルタリングや出力ブロックといったオンライン介入に主に焦点を当てている。そのため、有害な行動が既に観察された後に、どの記憶が悪影響の原因であるかという事後的な問題には対処していないのが現状だ。
MemAuditは、この課題に対し、二つの補完的な信号を組み合わせることでアプローチする。一つは、有害な出力に対する各記憶の因果的寄与を測定する反実仮想記憶影響スコア (counterfactual memory influence score)である。もう一つは、より広範な記憶ストア内で構造的に異常な記憶を識別する記憶一貫性グラフ (memory consistency graph)だ。
このフレームワークは、直接的な記憶バンクの変更ではなく、通常の対話を通じて悪意ある記録が生成・保存される「MINJA」という、クエリのみの記憶注入攻撃に対して評価された。評価の結果、MemAuditはQA(質問応答)および reasoning-agent(推論エージェント)の両方の設定において、現実的な事後監査シナリオでの攻撃成功率を大幅に削減することが示された。具体的には、QA攻撃の成功率が70%から0%に、RAP攻撃の成功率が83.3%から0%に減少した。
参考: arXiv cs.AI (アーカイブ) — 2026年5月23日 00:03 (JST)
原文ハイライト"Post-hoc Auditing of Poisoned Agent Memory"