自律AIエージェントの安全層「AgentWall」論文発表、実行時リスクに対応

アシュウィン・アラビンド氏は2026年3月24日(現地時間)、ローカルAIエージェント向けのランタイム安全性および可観測性レイヤー「AgentWall」に関する論文をarXiv cs.AIで発表した。同氏は、自律型AIエージェントの安全性に関する課題に対処するため、エージェントの行動がホスト環境に到達する前に傍受し、ポリシーに基づいて評価する手法を提案。AgentWallは、機密性の高い操作に人間の承認を求め、実行トレイルを記録する機能を備える。

自律型AIエージェントは、受動的なテキスト生成器から、シェルコマンド実行、ファイル変更、API呼び出し、ウェブ閲覧が可能なアクティブな実行者へと移行している。この変化に伴い、安全ではない、または敵対的に操作された行動が現実世界に具体的な影響を及ぼす可能性が高まっている。

既存のAI安全性に関する研究は、モデルアライメントや入力フィルタリングに主眼が置かれてきた。しかし、エージェントの意図が実際の機械上で実行される瞬間の問題、特に開発者が自身のファイルシステム、認証情報、インフラ上でエージェントを実行するローカル環境におけるランタイム制御の欠如には、十分に対処できていなかった。AgentWallは、こうした課題に対応するために導入されたソリューションである。

AgentWallの主な機能は、エージェントが提案するあらゆる行動がホスト環境に到達する前に傍受し、明示的な宣言的ポリシーに基づいて評価することにある。さらに、機密性の高い操作については人間の承認を求めるメカニズムが組み込まれており、監査とリプレイのために完全な実行トレイルが記録される。

実装面では、ポリシー適用型MCPプロキシおよびネイティブOpenClawプラグインとして提供されている。これにより、Claude Desktop、Cursor、Windsurf、Claude Code、OpenClawといった複数のプラットフォームで、単一のインストールコマンドで動作することが可能だ。

論文では、AgentWallの設計思想、アーキテクチャ、想定される脅威モデル、およびポリシーモデルが詳細に提示された。実施された14のベンチマークテストでは、サブミリ秒のオーバーヘッドで92.9%という高いポリシー適用精度が実証されている。AgentWallはオープンソースとして公開されている。

参考: arXiv cs.AI — 2026年5月19日 13:00 (JST)