arXiv cs.CLは5月11日(現地時間)、Shuangrui Ding氏らが、大規模言語モデル (LLM) およびビジョン言語モデル (VLM) を活用するエージェントの実環境での長期的な性能を評価するための新たなベンチマーク「WildClawBench」を発表した。このベンチマークは、実際のCLI環境下で実ツールにアクセスし、タスクを遂行するエージェントの能力を測定する。人間が作成した60のバイリンガルかつマルチモーダルなタスクで構成され、各タスクは平均8分の実行時間と20以上のツール呼び出しを含む。

既存のエージェントベンチマークの多くは、合成サンドボックスや短期間のタスク、モックサービスAPI、最終回答チェックに依存しており、エージェントが展開されるランタイム環境で現実的な長期間の作業を完了できるかどうかが課題として残されていた。

WildClawBenchは、この課題に対応するため、再現可能なDockerコンテナ内で実際のCLIエージェントハーネス(OpenClaw、Claude Code、Codex、Hermes Agentなど)をホストし、モックサービスではなく実ツールへのアクセスを可能にする。採点は、決定論的なルールベースのチェック、環境状態の監査による副作用の確認、意味検証のためのLLM/VLMジャッジを組み合わせたハイブリッド方式を採用している。

このベンチマークを用いて19のフロンティアモデルを評価した結果、OpenClaw環境下で最高の性能を示したのはClaude Opus 4.7で、全体の62.2%のスコアを達成した。しかし、他のすべてのモデルは60%を下回っており、ハーネスの切り替えだけで単一モデルのスコアが最大18ポイント変動するケースも確認された。これらの結果は、長期間にわたる実ランタイムエージェントの評価が、現在のフロンティアモデルにとってまだ解決されていない課題であることを示唆している。

研究チームは、再現性のある評価を支援するため、WildClawBenchのタスク、コード、およびコンテナ化されたツールを公開している。


参考: arXiv cs.CL (アーカイブ) — 2026年5月12日 02:49 (JST)

原文ハイライト

"WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation"

この記事をシェア
X はてブ LinkedIn