LLMエージェント新評価指標「SafeClawBench」発表

arXivは6月16日(現地時間)、ツール利用型の大規模言語モデル（LLM）エージェントが持つ潜在的なセキュリティ問題を評価する新たなベンチマーク「SafeClawBench」に関する論文を公開した。従来の評価手法が攻撃成功率を単一の指標で捉えていたのに対し、本研究は意味的攻撃受容、監査可能な損害の証拠、およびサンドボックス環境で観測されるツールやシステム状態への実害という、三段階でセキュリティリスクを計測するフレームワークを提唱している。

本論文は、大規模言語モデル（LLM）エージェントが、単に安全でないテキストを生成するにとどまらず、保護されたオブジェクトの開示、永続メモリへの書き込み、メッセージ送信、データベース変更、さらには有害なコードやツール効果のトリガーといった、より深刻なセキュリティ障害を引き起こす可能性を指摘している。これまでの評価手法では、これらの多段階にわたる攻撃が単一の成功率に集約されていたため、モデルが攻撃意図に同意したのか、あるいは実際に観測可能な損害を引き起こしたのかを区別することが困難であった。

SafeClawBenchは、直接的および間接的プロンプトインジェクション、ツールリターンインジェクション、メモリポイズニング、メモリ抽出、曖昧さによる安全でない推論という6つの攻撃ファミリーにわたる600の対敵タスクを提供する。この評価は、ユーツァン・ティアン（Yuchuan Tian）氏ら8名の研究者によって実施された。

5つのエージェントエンドポイントと4つのプロンプトレベルポリシーの下での評価結果から、これらのエンドポイントが異なる種類の障害モードを捕捉することが判明した。追加のプロンプト保護がない場合、意味的障害率はモデルによって9.0%から44.2%と大きく変動した。監査された損害の証拠は意味的障害よりも狭い範囲であり、別の実行可能プロトコルでは、意味的コアコールをパスしたにもかかわらず、一部の一致したタスクIDがサンドボックス内で損害を生成した。

具体的には、12,000行のマッチング分析において、観測された347件のサンドボックス損害のうち291件が、意味的チェックをパスした行で発生している。プロンプトポリシーはエンドポイントの結果を変化させるものの、その効果はモデルとプロトコルの両方に依存するという。SafeClawBenchは、テキストの準拠、証拠に基づく損害、実行可能な状態変化を混同することなく、エージェントモデルとプロンプトポリシーの条件を比較するための再現可能なフレームワークを提供する。このデータセットはオープンソースとして利用可能である。

従来のLLMエージェント向けベンチマークは、主にモデルが攻撃的プロンプトを受け入れるか否かの「意味的」側面や、特定のツールを誤用するかどうかを評価する傾向にあった。これに対し、SafeClawBenchは、攻撃受容、監査証拠、サンドボックス環境での実態的損害という多角的な視点からセキュリティリスクを定量的に評価することで、より包括的な脆弱性分析を可能にしている。

この新しい評価フレームワークは、LLMエージェントの開発者やセキュリティ担当者に対し、単なるテキスト出力の安全性にとどまらず、ツール利用を通じたシステム状態の変化やデータ流出といった現実世界での脅威を考慮に入れる必要性を示唆する。モデルの振る舞いを多段階で検証することは、潜在的なリスクを早期に特定し、具体的な防御策を講じるための重要な指針となる。

参考: arXiv cs.CR (アーカイブ) — 2026年6月18日 13:00 (JST)