WildClawBench、LLM/VLMエージェントの長期評価ベンチマークを公開
arXiv cs.CLは5月11日(現地時間)、Shuangrui Ding氏らが、大規模言語モデル (LLM) およびビジョン言語モデル (VLM) を活用するエージェントの実環境での長期的な性能を評価するための新たなベンチマーク「WildClawBench」を発表した。このベンチマークは、実際のCLI環境下で実ツールにアクセスし、タスクを遂行するエージェントの能力を測定する。人間が作成した60のバイリンガルかつマルチモーダルなタスクで構成され、各タスクは平均8分の実行時間と20以上のツール呼び出しを含む。