エージェント型LLM「オープンクロー」脆弱性、攻撃対象と侵害確率の拡大を指摘

arXiv cs.CRは2026年6月12日(現地時間)、エージェント型大規模言語モデル (LLM) システム「オープンクロー (OpenClaw)」のセキュリティ脆弱性に関する分析論文を公開した。この論文は、複数のエージェントが連携して動作するシステムにおいて、攻撃対象領域が拡大し、単一エージェントの場合と比較して侵害確率が大幅に上昇する可能性を指摘している。さらに、プロンプトインジェクションがシステム全体に不安定性を伝播させる状況も報告されており、エージェント型システムの潜在的リスクに警鐘を鳴らした。

この研究は、LLMが出力を通じてシェルコマンドやブラウザ自動化、外部ツール呼び出しといった特権操作を実行できるエージェント型システムに焦点を当てている。分析対象となったオープンクロー (OpenClaw) は、LLMの出力がコマンド実行やツール、サービスとの対話を可能にする自己ホスト型のマルチエージェントシステムである。

分析の結果、単一エージェントの場合の侵害確率は0.24であったのに対し、7つのエージェントが存在するシステムでは、いずれかの単一エージェントが侵害を提案した場合、侵害確率は0.86にまで上昇することが判明した。これはモデル自体の変化ではなく、出力の集約によってリスクが増大することを示唆している。また、プロンプトインジェクションはシステム全体に不安定性を伝播させると報告された。攻撃対象領域のエントロピーは0.42から0.71へ、平均特権ドリフトは0.03から0.21へとそれぞれ増加し、悪用経路の広範な分布と意図しない権限獲得を示唆しているとみられる。特権エスカレーションの曲率が0.08であることから、攻撃者の能力が増加するにつれて特権の拡大が加速する傾向にあると指摘されている。

防御策として、ポリシーゲーティングと実行フィルタリングが有効であると報告された。これらの防御策は、侵害確率を0.10、境界障害を0.10、特権ドリフトを0.02削減し、統計的に有意な効果を示したという。注入緩和の成功率は、GPT-5.2で0.37、Llama-4-Maverickで0.35、DeepSeek-R1で0.31と、モデルによって差がある。システムは依然として脆弱性を持つものの、緩和策の効果は測定可能である。ただし、緩和策の導入により、タスクユーティリティは0.93から0.89へわずかに低下し、中央値レイテンシは420ミリ秒から468ミリ秒へと増加したと付け加えている。

参考: arXiv cs.CR — 2026年6月16日 13:00 (JST)