arXiv cs.ROは2026年6月4日(現地時間)付けで、Dong Jing氏ら7人の著者による論文「TempoVLA: Learning Speed-Controllable Vision-Language-Action Policies」を発表した。この論文は、ロボットのVision-Language-Action (VLA) モデルにおいて、操作実行速度を明示的な条件で制御可能とする「TempoVLA」を提案している。TempoVLAは、既存のVLAモデルが持つ単一の固定速度の制約を克服し、ロボット操作における低リスク段階での高速実行と、高リスク接触段階での低速かつ精密な動作の両立を目指す。

ロボット操作では、低リスクな移動フェーズでは迅速な実行が求められ、高リスクな接触段階では低速で正確な動きが必要となる。しかし、従来のVision-Language-Action (VLA) モデルは、学習デモンストレーションから単一の固定速度のみを継承していた。

先行研究におけるVLAの加速努力は、モデル圧縮、KV-キャッシュ再利用、強化学習などを通じて、ポリシーを一つの固定速度から別の速度へ移行させるものであり、減速についてはほとんど探求されていなかった。TempoVLAは、予測される各アクションの大きさがロボットの動作速度を既に決定しているという観察に基づき、実行速度を直接制御する経路を見出した。

TempoVLAは二つの結合されたコンポーネントで構成される。一つはデータ側のVariable-Speed Trajectory Augmentation (VSTA) であり、これは動作のセマンティクスを保持しながらアクションをマージまたは分割することで、デモンストレーションを任意の目標速度にリタイムする。もう一つはモデル側のコンディショニングメカニズムであり、速度情報をポリシーに供給する。

統計によると、VSTAは無視できるほどの動作エラーで要求された速度に到達する。シミュレーションおよび実世界タスクでの実験では、TempoVLAが両方向で柔軟な速度制御を達成することが示された。また、VSTAはデータ利用率の向上を通じて、デフォルトの1倍性能も高める。さらに、大規模なマルチモーダルモデルと連携することで、TempoVLAは低リスクフェーズでは加速し、高リスクフェーズでは減速するという動的な速度制御を実現する。


参考: arXiv cs.RO — 2026年6月5日 02:59 (JST)

原文ハイライト

"TempoVLA: Learning Speed-Controllable Vision-Language-Action Policies"

この記事をシェア
X はてブ LinkedIn