エポック・エーアイ (Epoch AI) は7月1日(現地時間)、新たなベンチマーク「EBRベンチ (EBR-bench)」の結果を公開しました。これは、複雑なボードゲーム「アースボーン・レンジャーズ (Earthborne Rangers)」をAIシステムに繰り返しプレイさせ、その経験からの学習能力を測定したものです。主要なフロンティアAIシステム全てにおいて、繰り返し経験しても改善する証拠がほとんど見られなかったと報告されています。
エポック・エーアイ (Epoch AI) は、AIシステムが挑戦的なタスクを繰り返し実行し、間違いから学習することでオンザフライで改善できるかという問いに対し、EBRベンチ (EBR-bench) を用いて検証を実施しました。AIシステムにはゲームのルールブック、カードデータベース、およびマップが提供され、最終プレイの20パーセントでのスコア最大化が目標とされました。システムはノートを取り、間違いから学ぶよう促されたものの、ゲームへの関与を通じて学習している証拠はほとんど見られなかったとされています。
現行のフロンティアAIシステムは、初回のプレイで未経験の人間よりも高いパフォーマンスを示し、過去1年間でGPT-5.5やOpus 4.8がGPT-5やOpus 4.1を上回るなど、初期スコアは向上しています。しかし、この向上はオンザフライでの学習によるものではなく、初期性能の高さに起因すると報告されました。
AIエージェントが犯す主な戦術的ミスは、ゲーム内のメカニズムである「疲労 (fatigue)」の管理にあると指摘されています。これは他のゲームの「ダメージ」に類似し、プレイヤーのデッキからカードを疲労スタックに移動させることで表現されます。AIエージェントはしばしば無謀に目標を追求し、不必要な疲労を蓄積したり、リソースを十分に活用できなかったりします。GPT-5.5とOpus 4.8は平均2.1の疲労を1ラウンドで被り、これは約7.7ラウンドのプレイを可能にするに過ぎません。これは専門の人間プレイヤーの0.6の疲労と15ラウンドに比べて大幅に低い水準です。
また、エージェントは戦略的なオプションの探索も不足していると分析されています。プレイ開始前にプレイヤーは24枚のカードデッキを構築しますが、AIシステムはデッキの多様性を十分に探索しない傾向があるとのことです。探索は限定的であり、最新モデルがより多様なデッキアーキタイプを探索する明確な傾向は確認されていません。
エポック・エーアイは、「max elicitation」設定で、詳細な戦術的・戦略的アドバイスを含むガイドをAIエージェントに提供する実験も行いました。この設定では、モデルに応じて21の目標のうち2〜3.5の追加目標を達成するなど、控えめな改善が見られました。しかし、これは「答えの鍵」を渡したことに等しいとエポック・エーアイは評価しています。
この研究結果は、大規模言語モデルのようなフロンティアAIがオフラインデータからの学習には極めて優れる一方で、動的な環境でのリアルタイムな試行錯誤を通じた適応能力には依然として課題が残ることを示唆しています。強化学習や少数ショット学習といった手法が進化する中でも、AIシステムが人間のように経験から自律的に戦略を調整し、進化させるまでにはさらなるブレークスルーが必要と見られます。企業がAIソリューションを導入する際には、初期性能の高さだけでなく、継続的な運用環境での学習と適応メカニズムの設計が重要になると考えられます。現在のAIは、与えられたルールやデータに基づいて知識を適用する能力は高いものの、未知の状況下で「経験知」を獲得し、行動を根本から改善する能力にはまだ限界があるといえるでしょう。
参考: epoch.ai — 2026年7月1日 09:00 (JST)