長時間稼働AIエージェント評価に新ベンチマーク
arXiv cs.AIは2026年6月3日(現地時間)、AIエージェントの長時間タスク性能を測る新オープンソースベンチマーク「SentinelBench (SentinelBench)」が発表されたと報じた。従来のAIエージェントが連続的アクションに焦点を当てる中、SentinelBenchは、環境を監視し、外部イベントに持続的に対応する戦略を評価する。これにより、タスク完了率、反応時間、リソース使用量といった多角的な指標に基づき、応答性とコストのトレードオフを効率的に評価できる。