arXiv cs.CVは2026年6月8日(現地時間)、Vision-language model (VLM) エージェントの性能評価を目的とした新たなリアルタイムベンチマーク「OmniGameArena (オムニゲームアリーナ)」および評価プロトコル「Improvement Dynamics Curve (IDC)」を発表した。Unreal Engine 5 (UE5) で開発された12種類のゲームで構成されるこのベンチマークは、従来の評価が抱えていた複数の課題に対処するとされる。
Vision-language model (VLM) エージェントは、対話型ゲーム環境での利用が拡大している。しかし、従来のゲームベンチマークは、エージェントとゲームの組み合わせごとに単一の初回試行スコアを報告する傾向があり、シングルエージェントのSoloプレイに主眼が置かれていた。
また、商用VLM、オープンウェイトVLM、特化型ゲームポリシーといった異種のエージェントクラスを公平に評価するための統一プロトコルも不足していた。
「OmniGameArena」は、これらの課題に対応するために開発された。Unreal Engine 5 (UE5) を用いて新規に構築された12種類のゲームで構成され、内訳はSoloプレイが7種類、PvP(プレイヤー対プレイヤー)が3種類、Coop(協力プレイ)が2種類となっている。これらのゲームには統一されたアクションインターフェースが導入されている。
同時に導入されたImprovement Dynamics Curve (IDC)は、ツールを使用するリフレクターLLMが、複数ラウンドにわたって限定的なスキルプロンプトを自律的に洗練させるエージェント的リフレクションハーネスである。IDCは、コールドスタートのリーダーボードスコアに加えて、以下の2つの追加観測値を提供する。一つは、スコアがリフレクションラウンドを通じてどのように進化するか、もう一つは、学習されたスキルが未公開のタスクバリアントでどのように振る舞うかである。
研究では、コールドスタートのリーダーボードにおける12のVLMエージェントと、IDCの下での4つのトップエージェントについて、これらの観測値が報告されている。
参考: arXiv cs.CV (アーカイブ) — 2026年6月9日 02:59 (JST)
原文ハイライト"A Unified UE5 Benchmark for VLM Game Agents with Improvement Dynamics"