言語モデルエージェント長期課題遂行能力を評価する新ベンチマーク「CEO-Bench」発表

arXiv cs.AI (アーカイヴシーエスドットエーアイ) は2026年6月16日(現地時間)、言語モデルエージェントの長期間にわたる課題解決能力を評価する新しいベンチマーク「CEO-Bench (シーイーオー・ベンチ)」に関する論文を公開した。このベンチマークは、不確実性下での長期目標達成、ノイズの多い環境からの情報取得、変化する世界への適応、複数の要素を統合して目標を達成する能力を複合的に測定する。スタートアップ企業を500日間運営するシミュレーションを通じて、エージェントの複雑な意思決定能力を検証する。

CEO-Bench (シーイーオー・ベンチ) は、エージェントが架空の企業を経営するシミュレーション環境を提供する。エージェントはプログラム可能なPythonインターフェースを介して、価格設定、マーケティング、予算編成といった多岐にわたる企業の側面を管理する。この環境において、エージェントは現実の最高経営責任者 (CEO) と同様の課題に直面し、ノイズの多い相互接続されたビジネスデータベースを分析し、そこから市場の動向を読み解く戦略を導き出す必要がある。また、プログラミングスキルを駆使して多数の意思決定を調整し、長期的な企業目標の達成を目指すことが成功には不可欠となる。

具体的には、強力なエージェントは顧客コホートをシミュレーションして将来のキャッシュフローを予測したり、過去の交渉履歴を分析して顧客の隠れた嗜好を発見したりするような、洗練されたコードを記述することが求められる。これは、単なる短期的なタスク実行能力を超え、複雑なデータから洞察を得て、継続的に戦略を調整する高度な知能を要求する。ベンチマークの評価期間である500日間は、市場の変動や競合他社の動きに対応しながら、持続的な成長を維持するための適応能力が試される。

しかし、現在のところ、ほとんどの最先端言語モデルエージェントはこのCEO-Bench環境で苦戦している。現時点ではClaude Opus (クロード・オーパス) とGPT (ジーピーティー) の一部モデルのみが、初期残高である100万ドルを超える成果を一時的に示した。しかし、これらのモデルでさえ、500日間のシミュレーション期間を通じて継続的な利益を生み出し、企業の持続的成長を実現するには至っていない。これは、長期的なビジョンと戦略的思考、そして変化に適応する柔軟性が、現在のAIエージェントにとって大きな課題であることを浮き彫りにしている。

CEO-Benchは、単一のタスクや短期間の目標達成能力にとどまらず、時間経過とともに持続的かつ適応的な進歩を推進するために必要な知能を測定する重要な一歩となる。

参考: arXiv cs.AI — 2026年6月18日 13:00 (JST)