Claw-like AIエージェント向け新セキュリティ評価、最大70%の攻撃成功率を記録

arXiv cs.CRは2026年6月29日(現地時間)、常に稼働し認証情報やツールへ持続的なアクセス権を持つClaw-like AIエージェントのセキュリティに関する研究論文を公開した。システムレベルの責任を担うこれらのエージェントについて、既存ベンチマークでは評価しきれていなかった横断的な障害モードを測定するため、新たなベンチマーク「SafeClawArena」を開発。最大で70%の攻撃成功率を記録し、現在の防御策の不十分さを指摘した。

研究論文Understanding and Evaluating Claw-like Agent Security Through a Computer-Systems Lensでは、OpenClawなどのClaw-like AIエージェントが、パッケージのインストール、状態の維持、サブタスクのスケジューリング、I/Oの仲介といったシステムレベルの責務を負うため、セキュリティ上の欠陥が他のエージェントよりも重大になると説明されている。既存のベンチマークがモデル応答やツール呼び出しに焦点を当てている一方で、コンポーネント間の障害モードは十分に測定されていなかった。

この課題に対し、研究者らはClaw-likeエージェントをエージェント型コンピューターシステムと見なし、ゲートウェイランタイムをOSのような仲介役、Skillsをユーザーインストール型アプリケーション、Pluginsをランタイム権限を持つロード可能な拡張機能として位置づけた。この観点から開発された新ベンチマーク「SafeClawArena」は、Skill Supply-Chain Integrity、Persistent State Exploitation、Cross-Boundary Data Flow、Indirect Prompt Injectionの4つの攻撃面全体にわたる406の敵対的タスクで構成されている。これらのタスクは、実際のAIエージェントプラットフォームのコンテナ化されたレプリカ内で実行され、自動化された汚染追跡を通じて9つの出力チャネルで評価された。

評価にはOpenClaw、NemoClaw、SeClawの3つのプラットフォームと5つの最先端の大規模言語モデル (LLM) が用いられた。その結果、最高攻撃成功率は70%に達し、悪意のあるPluginsはLLMの種類にかかわらず100%の成功率を示した。SeClawの導入により、GPT-5.4’sの攻撃成功率は70%から22%に低下したものの、これは能動的な防御策よりもユーティリティとセキュリティのトレードオフによる部分が大きいと分析されている。一方、Claude-Opus-4.6はどのプラットフォームでも約22%の底値を示した。これらの結果は、現在の防御策の不十分さを露呈しており、将来の強化に向けた方向性を示唆している。

参考: arXiv cs.CR (アーカイブ) — 2026年7月1日 13:00 (JST)