論文投稿サイトarXivのコンピュータビジョン部門は6月2日(現地時間)、研究論文を公開し、ワールドモデルとマルチモーダル大規模言語モデル (MLLMs) が静的な視覚情報からの将来予測において相補的な能力を発揮すると発表した。既存のワールドモデルによる視覚的シミュレーションは、見た目のもっともらしさがある一方で、実際のタスクにおいては不正確となる課題があった。研究チームはこの課題を「制御された具体的推論」として定式化。これに対応するため、真の未来情報を訓練時に活用する新手法「Privileged-Future On-Policy Self-Distillation (PF-OPSD)」を提案した。
ワールドモデルは、将来の具体的な視覚的ロールアウト(シミュレーション)を生成する能力を持つ一方、マルチモーダル大規模言語モデル (MLLMs) は、質問、目標、ルールに関する抽象的推論を得意とする。これら二つのモデルは、それぞれ異なる種類の推論に強みを持つため、将来予測の精度向上において互いに補完し合う関係にあると研究チームは指摘する。
しかし、ワールドモデルによって生成されるロールアウトは確率的であるため、視覚的に妥当性があっても、実際のタスクにおいては誤りとなる可能性があった。このため、視覚シミュレーションがいつ有用で、そのロールアウトが信頼できるか、そして最終的な回答にどのように影響させるべきかを判断する仕組みが求められていた。
研究チームは、この課題を制御された具体的推論 (controlled concrete reasoning)として定式化した。これは、モデルが抽象的推論と並行して、視覚的な将来シミュレーションを呼び出し、検証し、最終的な回答へと統合することを学習する問題として定義されている。この設定を検証するため、研究チームは「VRQABench」と「OpenWorldQA」という二つのベンチマークを構築した。VRQABenchは制御可能な空間的見通しを、OpenWorldQAはオープンエンドな物理的予測のためにそれぞれ用いられ、いずれも人間によって検証されたデータセットである。
提案された手法は、Privileged-Future On-Policy Self-Distillation (PF-OPSD)と名付けられた。PF-OPSDは、訓練時に教師側の特権的なコンテキストとして真の将来の動画と回答のみを使用し、オンポリシーの具体的推論の軌跡を評価する。一方で、実際に展開される学生モデルは、テスト時に真の将来を観測することなく機能するよう設計されている。
実験の結果、PF-OPSDはVRQABenchにおいてベースラインと比較して10.6%の性能向上を記録し、OpenWorldQAでは10.9%の改善を示した。加えて、ノイズの多い、あるいは矛盾するロールアウトに対する堅牢性も向上している。この研究に用いられたコードとデータセットは、提供されたウェブリンクで公開されている。本論文の著者はユーチェン・チョウ氏、ウェイ・タオ氏、イーウェン・グオ氏、ジアンビン・シェン氏である。
参考: arXiv cs.CV — 2026年6月2日 22:07 (JST)
原文ハイライト"World Models Meet Language Models: On the Complementarity of Concrete and Abstract Reasoning"