arXiv、ワールドモデルとMLLM連携で将来予測の新手法を発表
論文投稿サイトarXivのコンピュータビジョン部門は6月2日(現地時間)、研究論文を公開し、ワールドモデルとマルチモーダル大規模言語モデル (MLLMs) が静的な視覚情報からの将来予測において相補的な能力を発揮すると発表した。既存のワールドモデルによる視覚的シミュレーションは、見た目のもっともらしさがある一方で、実際のタスクにおいては不正確となる課題があった。研究チームはこの課題を「制御された具体的推論」として定式化。これに対応するため、真の未来情報を訓練時に活用する新手法「Privileged-Future On-Policy Self-Distillation (PF-OPSD)」を提案した。