PEEU、小規模MLLMでGUIエージェント計画能力を向上

arXiv cs.CLは6月25日(現地時間)、GUIエージェントのタスク計画能力を強化する新手法「プランニング・エクスペリエンス・エクスプロレーション・アンド・ユーティリゼーション (PEEU)」に関する論文を公開した。本手法は、自律的な環境探索と後方経験の活用を通じ、小規模マルチモーダル大規模言語モデル (MLLM) の計画能力とウェブサイト横断的汎化の限界に対処する。実験では、PEEUを適用した7Bモデルが30.6%の精度を達成し、大規模なQwen2.5-VL-32Bモデルを上回る性能を示した。

マルチモーダルウェブエージェントは、反復的なGUIタスクにおいて人間の操作を支援するが、複雑なタスクを実行可能なアクションに分解するためには、効果的なタスク計画が不可欠である。商用モデルと比較して、小規模なオープンソースのMLLMはコスト効率とプライバシー保護に優れる一方、計画能力が低く、ウェブサイトを跨ぐ汎化能力が限られているという課題があった。

PEEUはこの課題に対処するため、環境を自律的に探索して経験を発見し、後方経験を活用して厳密に整合性の取れた高レベルの訓練データを合成する。研究では、性能を推進する汎化行動を定量的に分析するため、タスク・デコンポジション・ヒエラルキカル・アナリシス・フレームワーク (TDHAF)を提案した。このフレームワークは、低、中、高レベルの3段階のタスク粒度において、構成的な汎化を体系的に研究する。

分析の結果、低レベルの原子的なスキルを習得しても高レベルの計画能力が保証されるわけではないことが判明した。一方で、高レベルのタスク訓練は、ドメイン外 (OOD) 汎化においてより強力な効果をもたらすことが示された。

実世界のベンチマークにおける実験では、PEEUの優れた有効性が実証された。PEEUを適用した7Bモデルは30.6%の精度を達成し、はるかに大規模なQwen2.5-VL-32Bモデルを上回る結果となった。これらの結果は、高レベルの後方タスクを構築し、経験を活用することが、小規模なMLLMのOOD計画能力にとって重要であることを示唆している。

参考: arXiv cs.CL (アーカイブ) — 2026年6月26日 02:44 (JST)