スタンフォードAIラボ (SAIL) は2026年6月3日(現地時間)よりコロラド州デンバーで開催されるコンピュータビジョンとパターン認識に関する国際会議「The Conference on Computer Vision and Pattern Recognition (CVPR) 2026」において、多数の研究成果を発表した。これには自己回帰型動画拡散モデルや制御可能な動画生成、小規模マルチモーダルモデルにおける知覚と推論のボトルネックに関する研究などが含まれる。
SAILがCVPR 2026で発表する論文は多岐にわたる。動画生成関連では、自己回帰型動画拡散モデルにおけるドリフト緩和手法「BAgger」、時間とカメラポーズを独立して制御する「BulletTime」、動的オブジェクトの世界を振り付けるChoreographing a World of Dynamic Objectsなどが挙げられる。また、インタラクティブな動画生成を用いた人間中心の世界シミュレーションGenerated Realityも発表された。
知覚と推論の分野では、小規模マルチモーダルモデルの課題を探るDownscaling Intelligence、視覚世界モデルを用いた物理的制御を伴うオブジェクト理解Physical Object Understanding with a Physically Controllable World Modelがある。脳MRI基盤モデルへの幾何学的ガイド付き疎なオートエンコーダアノテーションを適用する「GeoSAE」は、CV4Clinic (Computer Vision for Real-world Clinical Translation) 2026ワークショップで発表された。
ロボット学習およびビジョン言語アクション (VLA) モデルにおいては、自己中心的な人間およびロボットデータのためのVLAファインチューニング「Ego-Pi」、人間のデモンストレーションから全身モバイルマニピュレーションを学習する「HoMMI」が示された。Scaling Verification Can Be More Effective than Scaling Policy Learning for Vision-Language-Action Alignmentは、CVPR 2026 Scalable Robot Learning Systems WorkshopでBest Paper Finalistに選出された。
参考: ai.stanford.edu (アーカイブ) — 2026年6月3日 16:00 (JST)
原文ハイライト"Scaling Verification Can Be More Effective than Scaling Policy Learning for Vision-Language-Action Alignment"