arXiv cs.AIは2026年5月12日(現地時間)、コンピュータ利用エージェント (CUA) の操作最適化技術「ToolCUA」を発表した。ToolCUAは、グラフィカルユーザーインターフェース (GUI) 操作とAPIベースのファイル操作などの高レベルツール呼び出しが混在する環境において、最適な実行パスを学習するエンドツーエンドのエージェントである。従来のCUAがGUIとツールの連携で直面していた課題を解決し、OSWorld-MCPにおいてベースライン比で約66%改善の46.85%精度を達成。同規模モデル間で新たな最先端を示し、多様なデジタルタスク自動化への応用可能性を高める。

ToolCUAは、コンピュータ利用エージェント (CUA) が直面するGUI操作と高レベルツール呼び出しのハイブリッドな連携課題に対処するため開発された。従来のCUAは、GUIアクションを継続するかツールに切り替えるかの判断に不確実性を抱え、最適ではない実行パスにつながる問題があった。これは、高品質な複合GUI-Tool軌道の不足、実際のツール軌道収集のコストと脆弱性、およびGUI-Toolパス選択に対する軌道レベルの監督の欠如に起因する。多くのGUIベースエージェントはツール使用に不慣れであり、既存のツール強化エージェントもGUI操作の複雑さに対応できていなかった。

ToolCUAは、こうした問題を解決するため、段階的なトレーニングパラダイムを通じて最適なGUI-Toolパス選択を学習するよう設計されている。まず、豊富な静的GUI軌道を再利用し、根拠のあるツールライブラリを合成することで、手作業や実際のツール軌道収集なしに多様なGUI-Tool軌道を可能にするInterleaved GUI-Tool Trajectory Scaling Pipelineを導入した。これにより、従来の軌道収集のコストと脆弱性を克服した。次に、GUI-Tool切り替え点での意思決定を改善するため、ウォームアップSFTとシングルターンのRLを組み合わせたTool-Bootstrapped GUI RFTを実行する。最終的に、Tool-Efficient Path Rewardによってガイドされるオンラインエージェント型RLでToolCUAを最適化し、適切なツール使用とより短い実行パスを促進している。

著者であるシューハオ・フー (Xuhao Hu) 氏らは、OSWorld-MCP上での評価において、ToolCUAが46.85%の精度を達成し、ベースラインと比較して約66%の相対的改善を示したと報告している。これは、従来のCUAアプローチと比較して、タスク達成効率と信頼性の大幅な向上を意味する。これにより、同規模のモデル間で新たな最先端 (state of the art) を確立した。また、GUIのみの設定と比較して3.9%の改善も達成し、GUIとツールの効果的な連携が全体の性能向上に寄与することを示している。これらの結果は、ハイブリッドな操作空間でのトレーニングが、実世界のデジタルエージェントにとって極めて有望なパラダイムであることを示唆している。

ToolCUAの技術は、企業内の複雑なワークフロー自動化に広く応用できる可能性を秘めている。例えば、複数のアプリケーションを横断するデータ入力、レポート作成、システム設定変更などの業務において、従来のRPA(Robotic Process Automation)では対応が難しかった動的なGUI要素や、API経由での外部ツール連携が求められるタスクを、より柔軟かつ効率的に自動化することが可能になる。これにより、オペレーターの負担軽減や業務効率化、ヒューマンエラー削減に貢献し、企業のDX(デジタルトランスフォーメーション)推進における新たな選択肢となることが期待される。また、開発者が複雑なスクリプトを記述することなく、エージェントが自律的に最適な操作パスを学習・実行できるようになるため、開発コストと時間の大幅な削減にもつながる。


参考: arXiv cs.AI (アーカイブ) — 2026年5月13日 02:57 (JST)

原文ハイライト

"Towards Optimal GUI-Tool Path Orchestration for Computer Use Agents"

この記事をシェア
X はてブ LinkedIn