Mingtong Zhang (ミン・トン・チャン) 氏とDhruv Shah (ドゥルーブ・シャー) 氏は6月16日(現地時間)、汎用ロボットポリシー向けの新たな生成器-検証器フレームワーク「VERITAS (ベリタス)」を提案した。このフレームワークは、推論時にポリシーの操縦と自律的な改善を可能にし、追加の訓練なしでロボットの行動性能を高めるとともに、既存の汎用ポリシーに対して一貫して優れた性能を示すことが期待される。
arXiv cs.ROが公開した論文で、Mingtong Zhang (ミン・トン・チャン) 氏とDhruv Shah (ドゥルーブ・シャー) 氏が詳述した「VERITAS (ベリタス)」は、事前に訓練された汎用ロボットポリシーを「ジェネレーター」として活用し、これに勾配フリーの「ビジュアルベリファイア」を組み合わせて、推論時にロボットの行動を評価する仕組みを構築する。
このアプローチの最大の特徴は、追加のデモンストレーションデータを用いた訓練なしで、通常の汎用ポリシーを上回る性能を発揮することにあると論文は指摘する。VERITASは、ロボットがタスクを実行する際に、視覚情報に基づいてその行動の正しさを検証し、必要に応じてポリシーの調整をリアルタイムで行うことで、よりロバストで信頼性の高い動作を実現する。
さらに、検証済みのロールアウトは、オフラインでのポリシー改善に効果的な教師信号として機能する。これは、システムが自己生成した軌跡の中から、検証によって「正しい」と判断されたもののみを選別し、そのデータを用いてポリシーをファインチューニングすることで、継続的な性能向上を達成するプロセスを指す。特筆すべきは、検証済みのロールアウトを用いた後訓練が、人間の介入を必要とせずに専門家によるデモンストレーションに匹敵する効率を実現する点である。これにより、ロボットは自律的に学習サイクルを回し、時間とともにその能力を高めていくことが可能となる。
著者らは、この推論時検証のメカニズムが、ロボットポリシーの展開中における性能改善に向けた、実用的かつ拡張性の高い方策であると強調している。VERITASが提供する生成器-検証器の組み合わせは、既存の強化学習フレームワークを補完し、実際の運用環境におけるロボットの信頼性と適応性を大幅に向上させる可能性を秘めていると見られる。これにより、将来的に汎用ロボットのより広範な分野での応用が促進されることが期待される。
参考: arXiv cs.RO (アーカイブ) — 2026年6月17日 02:59 (JST)