arXiv cs.AIは2026年6月23日(現地時間)、大規模言語モデル (LLMs) を活用したエージェントAIシステムの動的レッドチーム評価に関する論文「リフトベンチ (RIFT-Bench)」を発表した。本研究は、従来のLLMの脆弱性を超える新たな攻撃ベクトルを持つ自律的AIのセキュリティ評価を統一することを目的としている。既存の評価手法が特定のシステムやドメインに限定される課題に対し、グラフ表現駆動型のアプローチを導入し、多様なエージェントアーキテクチャ間での統一的な評価を可能にする。

リフトベンチ (RIFT-Bench) は、新しい階層表現に基づいて二つの自動フェーズで動作する評価フレームワークである。最初の「Discovery」フェーズでは、評価対象となるAIシステムの内部構造と連携を詳細に抽出し、その潜在的な攻撃可能領域を特定する。続く「Scanning」フェーズでは、Discoveryフェーズで特定された構造に基づき、適応的で多様な敵対的攻撃を自動的に展開する。この二段階のアプローチにより、RIFT-Benchは対象システムの脆弱性を深く掘り下げ、包括的な評価レポートを生成することが可能となる。

研究チームは、この評価パイプラインの有効性を検証するため、45のエージェントシステムに適用した。その結果、異なる実装や異種のエージェントアーキテクチャに対しても効果的に一般化できることが実証された。従来の評価手法が特定のシナリオやシステムに特化していたのに対し、RIFT-BenchはエージェントAIの多様な進化に対応できる汎用性と柔軟性を提供する。これにより、エージェントAIの設計段階から運用段階まで、ライフサイクル全体にわたるセキュリティリスクの特定と軽減を支援する。

また、RIFT-Benchは、システムの脆弱性や攻撃の評価だけでなく、特定されたリスクに対する緩和戦略の直接評価もサポートする。これは、セキュリティ対策の効果を定量的に測定し、改善サイクルを加速させる上で極めて重要である。これらの機能を通じて、リフトベンチ (RIFT-Bench) は、エージェントAIシステムのセキュリティ評価においてスケーラブルな基盤を提供し、より堅牢で安全なAIシステムの開発と運用に貢献することが期待される。本研究は、進化するAIシステムの複雑なセキュリティ課題に対し、統一された評価手法の必要性に応えるものだ。


参考: arXiv cs.AI — 2026年6月24日 13:00 (JST)

この記事をシェア
X はてブ LinkedIn