言語モデルエージェント長期課題遂行能力を評価する新ベンチマーク「CEO-Bench」発表
arXiv cs.AI (アーカイヴ シーエスドットエーアイ) は2026年6月16日(現地時間)、言語モデルエージェントの長期間にわたる課題解決能力を評価する新しいベンチマーク「CEO-Bench (シーイーオー・ベンチ)」に関する論文を公開した。このベンチマークは、不確実性下での長期目標達成、ノイズの多い環境からの情報取得、変化する世界への適応、複数の要素を統合して目標を達成する能力を複合的に測定する。スタートアップ企業を500日間運営するシミュレーションを通じて、エージェントの複雑な意思決定能力を検証する。