arXivがDeMaVLA発表、変形物体操作のVLA基盤モデルを提案

arXiv cs.ROが2026年5月29日(現地時間)付けで、汎用的な変形物体操作のためのVision-Language-Action (VLA) 基盤モデル「DeMaVLA」に関する論文を公開した。DeMaVLAは、多様な物体や環境下での操作スキル習得を家庭用ロボットに提供することを目指す。既存のシステムが物体カテゴリごとに個別のポリシーを訓練するのに対し、DeMaVLAはVLMバックボーンとアクションエキスパートを組み合わせ、フローマッチングを用いて連続的なアクション生成を定式化する。

家庭用ロボットには、多様な物体、タスク条件、および家庭環境全体で再利用可能な操作スキルを獲得できるVision-Language-Action (VLA) 基盤モデルが求められている。特に、変形可能な物体の折り畳みは、多様なカテゴリ、形状、素材、シーンの衣料品をランダムな初期状態から扱う必要があり、代表的な課題として挙げられる。

既存のVLAシステムでは、異なる物体カテゴリごとに個別のポリシーを訓練することが一般的であり、単純な多タスク訓練はタスク干渉や性能低下を引き起こす問題があった。

DeMaVLAは、カテゴリ固有の折り畳みポリシーの限界を超えることを目指し、汎用的な変形可能な操作を可能にするVLA基盤モデルとして導入された。このモデルは、VLMバックボーンにアクションエキスパートを組み込み、フローマッチングを活用して連続的なアクション生成を定式化している。効率性を高めるため、アクションエキスパートは、VLMバックボーンとのレイヤーごとのアライメントを維持しながら、トランスフォーマー層を一つおきに枝刈りすることで構築され、訓練および推論コストの削減に寄与する。

DeMaVLAはまず、約5,000時間に及ぶ厳選された実世界の双腕デモンストレーションで事前訓練され、一般的な操作の事前知識を獲得する。その後、人間参加型データアグリゲーション (DAgger) パイプラインを通じて、自己収集されたデモンストレーションと、実ロボットの失敗から得られた修正軌跡を組み合わせた混合折り畳みデータで事後訓練される。

実験の結果、DeMaVLAはRoboTwinにおいて競争力のある性能を示し、論文執筆者が構築した家庭用折り畳みベンチマークでは強力な実世界での結果を達成した。これらの成果は、スケーラブルな実世界データ、効率的なアクション生成、および修正学習が、変形可能な物体操作における汎用VLAポリシーにとって価値があることを示している。

参考: arXiv cs.RO — 2026年5月29日 22:20 (JST)