macOS向け新ベンチマーク「MacArena」公開、CUA評価の課題解決へ

ヴィクター・ミューリン (Victor Muryn) 氏らの研究チームは6月4日(現地時間)、macOS環境でコンピュータ使用エージェント (Computer-use agents: CUAs) を評価するための新しいベンチマーク「MacArena」を導入したと発表した。同日付けで学術論文プレプリントサーバarXiv cs.LGに報じられた。既存のmacOS向けベンチマークが対応アプリケーションやタスク範囲が限定的であり、Apple Siliconとの互換性がないといった課題を解決し、より包括的な評価基準を提示する。

「MacArena」は、合計421の手動で検証されたタスクを50のアプリケーションにわたって提供する。これには、既存のOSWorldタスクの移植版、macOSWorldから取り入れられたコンテンツ、そして49の新しいmacOSネイティブタスクが含まれる。全てのタスクは、Apple Silicon上のAppleのネイティブVirtualization frameworkで実行される。

研究チームは、macOS環境がLinuxベースのベンチマークでは捉えきれない独自のグラフィカルユーザーインターフェース (GUIs) の課題を提示すると主張している。彼らの評価では、既存のベンチマークで高いモデル性能を示すことが、タスク分布への慣れを反映している可能性があり、真のクロスプラットフォームGUI能力を示すものではないと指摘する。

特に、移植されたタスクとmacOSネイティブタスクではモデルのランキングが逆転する結果が示された。主要なモデルがMacArenaのサブセットにおいて26%以上の遅れをとり、macOS環境が現在のGUIエージェントにとってより困難な環境であることを示唆している。この研究は、ICML 2026で開催されるSecond Workshop on Agents in the Wild: Safety, Security, and Beyond (AIWILD) に採択されている。

参考: arXiv cs.LG (アーカイブ) — 2026年6月8日 13:00 (JST)