LLMエージェント新評価指標「SafeClawBench」発表
arXivは6月16日(現地時間)、ツール利用型の大規模言語モデル(LLM)エージェントが持つ潜在的なセキュリティ問題を評価する新たなベンチマーク「SafeClawBench」に関する論文を公開した。従来の評価手法が攻撃成功率を単一の指標で捉えていたのに対し、本研究は意味的攻撃受容、監査可能な損害の証拠、およびサンドボックス環境で観測されるツールやシステム状態への実害という、三段階でセキュリティリスクを計測するフレームワークを提唱している。