長時間稼働AIエージェント評価に新ベンチマーク

arXiv cs.AIは2026年6月3日(現地時間)、AIエージェントの長時間タスク性能を測る新オープンソースベンチマーク「SentinelBench (SentinelBench)」が発表されたと報じた。従来のAIエージェントが連続的アクションに焦点を当てる中、SentinelBenchは、環境を監視し、外部イベントに持続的に対応する戦略を評価する。これにより、タスク完了率、反応時間、リソース使用量といった多角的な指標に基づき、応答性とコストのトレードオフを効率的に評価できる。

本研究は、マテウス・クンツラー・マルダナー氏ら8人の著者によって発表された。AIエージェントの分野において、これまでの研究は主に、決められた一連の行動を高速に実行するエージェントの能力に焦点を当ててきた。しかし、現実世界のシナリオでは、エージェントはしばしば、予測不可能な変化が生じる環境を長期間にわたって監視し、これらの変化に適切かつ効率的に反応する必要がある。このような持続的な監視と反応を要するタスクの性能を評価するための標準的なベンチマークがこれまで不足しており、その必要性が指摘されてきた。

SentinelBenchは、こうしたギャップを埋めることを目的として設計されており、AIエージェントがロングランニングモニタリングエージェントとして機能するための能力を測定する。このベンチマークは、メール、カレンダー、金融取引、プロフェッショナルネットワーキング、エンターテイメントプラットフォームといった現実世界のユースケースを模倣した10種類の合成ウェブ環境にわたる100のタスクで構成されている。各環境は、エージェントが操作できるライブウェブインターフェースを提供しており、事前にスクリプト化されたイベントシーケンスを再生することで、動的に状態が変化するウェブページをエージェントがナビゲートし、それに基づいて推論し、適切な行動をとることが求められる。これにより、エージェントは単一の目標達成だけでなく、環境の変化にリアルタイムで適応する能力を試されることになる。

SentinelBenchで評価される主要な指標は、タスクの完了率、イベントに対する反応時間、そしてタスク実行中のリソース使用量である。これらの指標を通じて、エージェントの応答性（イベントへの迅速な反応能力）と効率性（必要なリソースの量）の間のトレードオフを定量的に評価することが可能となる。これは、実用的なAIエージェントを開発する上で極めて重要な要素であり、開発者は最適なエージェント設計を決定する際の指針を得ることができる。

研究者らは、パフォーマンスのベースラインを確立するために、3つの異なるモデルと2つの異なるブラウザエージェントハーネスを使用して広範なテストを実施した。これらの実験結果は、AIエージェントの設計選択、例えば使用する基盤モデルやブラウザインタラクションの戦略が、前述の主要な評価指標に劇的な影響を与える可能性があることを明確に示している。具体的には、SentinelBenchが、エージェントの行動や設計における微妙かつ意味のある違いを識別し、その性能差を明確に区別できることが実証された。

このベンチマークの導入は、将来のAIエージェントの研究開発において重要なツールとなることが期待されている。長時間稼働タスクにおけるAIエージェントの信頼性、効率性、そして適応性を向上させるための新たな方向性を示し、より高度で実用的なAIシステムの実現に貢献する。

参考: arXiv cs.AI (アーカイブ) — 2026年6月6日 13:00 (JST)