VegAS、検証器活用でエンボディドAIのロバスト性向上

VegASは2026年5月12日(現地時間)、arXiv cs.AIにて論文として公開された。汎用エンボディドエージェントのロバスト性向上を目的としたフレームワークで、MLLMベースエージェントが困難なシナリオで示す脆弱性を克服するため、明示的な検証ステップを導入する。推論時に複数の候補行動を評価し、最も信頼性の高い選択肢を選び出すことで、既存の強力な連鎖思考（CoT）ベースラインに対し最大36%の性能向上を達成。LLM駆動のデータ合成戦略で検証器を訓練する点が、従来の推論時計算手法との差別化となる。

汎用エンボディドエージェントは、複雑な実世界タスク解決の長期的な課題に取り組んでいる。近年、Multimodal Large Language Models (MLLM) の登場により、その視覚-言語知識と連鎖思考（CoT）推論能力は飛躍的に向上した。しかし、これまでの研究では、特に未知の状況や困難なシナリオにおいて、MLLMベースのエージェントが予測不能な脆弱性を示す点が指摘されてきた。

この課題に対処するため、Verifier-Guided Action Selection (VegAS) が提案された。これは、MLLMベースのエンボディドエージェントのロバスト性を向上させる目的で設計されたテスト時フレームワークであり、明示的な検証ステップを組み込んでいる。既存の推論時計算手法が複数の推論パスや行動候補から多数決や内部スコアに基づいて最終決定を下すのに対し、VegASは生成された候補行動のアンサンブルに対して、専用に訓練された検証器を適用する点が特徴だ。

VegASの仕組みは、推論時において単一の行動にコミットせず、まず候補となる行動のアンサンブルをサンプリングする。その後、Generative Verifierと呼ばれる検証器が各候補行動の実行可能性と信頼性を評価し、最も適切な選択肢を特定する。このプロセスは、基盤となる行動ポリシー自体には変更を加えないため、既存のエージェントアーキテクチャに容易に統合できる。

研究初期段階では、そのままのMLLMを検証器として使用しても性能改善が見られないことが判明した。これは、MLLMが一般的なタスクでは高性能を発揮するものの、特定の失敗シナリオを識別・評価する能力には限界があることを示唆する。この知見に基づき、LLM駆動のデータ合成戦略が開発された。この戦略は、訓練時に検証器が潜在的なエラーの多様な分布に晒されるよう、失敗ケースの多様なカリキュラムを自動的に構築する。これにより、検証器は一般的な正解判定だけでなく、問題のある行動パターンを的確に検出する能力を獲得する。

このアプローチは、パスの多数決やモデルの内部確率に基づく選択と異なり、明示的に失敗例を学習した外部の評価基準を導入する点で優位性を持つ。これにより、特にタスクが複雑化し、潜在的なエラーパターンが増加する状況において、エージェントの意思決定の信頼性を一層高めることが可能となる。

HabitatおよびALFRED環境にわたるエンボディド推論ベンチマークを用いた評価では、VegASが一貫して汎化性能を向上させることが示された。特に、複数のオブジェクトが関与し、長期的な計画を要する最も困難なタスクにおいて、強力なCoTベースラインと比較して最大36%の相対的性能向上を達成している。この研究成果はCVPR 2026 (Findings) で発表された。

実務的な観点からは、VegASの導入はエンボディドAIシステム、特にロボティクスや仮想環境内の自律エージェントの信頼性向上に大きく貢献する。例えば、工場内の自動搬送ロボットや家庭用アシスタントロボットにおいて、予測不能な状況下での誤動作リスクを低減し、より安全で確実なオペレーションを実現する可能性を秘めている。この技術は、既存のMLLMベースのエージェントに検証ステップを追加するだけで適用可能であり、システムの堅牢性を高める有力な選択肢となる。

参考: arXiv cs.AI — 2026年5月14日 13:00 (JST)