Dingbang Wu氏らは2026年5月25日(現地時間)、ブラウザホスト型の新しいシミュレーションプラットフォーム「MobileGym(モバイルジム)」を発表した。これは学術論文公開サイトarXiv cs.AIで報じられた。このプラットフォームは、日常的なモバイル利用に焦点を当て、プロプライエタリなバックエンドを複製することなく、インタラクションの忠実性を追求する。構造化されたJSON状態に基づき、検証可能な結果シグナルとスケーラブルなオンライン強化学習 (RL) を実現する。

MobileGymは、完全な環境状態を構造化JSONとして捕捉、設定、フォーク、比較できる。単一のサーバーで数百の並列インスタンスをホスト可能であり、インスタンスあたり約400 MBのメモリ消費、約3秒のコールドスタートで動作する。

レイヤード状態モデルと宣言型タスク定義フレームワークにより、大規模な状態プログラマビリティとタスク作成が実用的となる。また、単一のプログラムによる判定メカニズムは、決定論的な評価判定と密なRL報酬の両方を提供する。

MobileGymに付随するベンチマーク「MobileGym-Bench」は、28のアプリを対象に416のパラメータ化されたタスクテンプレートを提供している。これには256のテストテンプレートと160のトレーニングテンプレートが含まれる。決定論的な判定機能と、自由テキストマッチングの失敗を回避する構造化されたAnswerSheetプロトコルを備えている。

シミュレーションから実世界への移行 (Sim-to-Real) に関するケーススタディでは、Qwen3-VL-4B-Instruct上でのGRPOが256タスクのテストセットで12.8パーセンテージポイントの性能向上を示した。59タスクの実デバイスシグナルサブセットにおいては、実デバイスでの実行がシミュレーション側でのトレーニングゲインの95.1%を維持した。

本研究論文の著者は、Dingbang Wu (ディンバン・ウー)氏、Rui Hao (ルイ・ハオ)氏、Haiyang Wang (ハイヤン・ワン)氏、Shuzhe Wu (シュゼ・ウー)氏、Han Xiao (ハン・シャオ)氏ら11名が名を連ねる。


参考: arXiv cs.AI — 2026年5月26日 02:59 (JST)

原文ハイライト

"A Verifiable and Highly Parallel Simulation Platform for Mobile GUI Agent Research"

この記事をシェア
X はてブ LinkedIn