ActCam、ゼロショット動画生成で新手法発表カメラと3Dモーションの統合制御実現

arXiv cs.CVは2026年5月7日(現地時間)、オンライン科学論文リポジトリで、ビデオ生成のためのゼロショット手法「ActCam」を発表した。ActCamは、キャラクターの動きとカメラの軌道を同時に制御することで、高度なシネマトグラフィー表現を可能にする。この新手法は、駆動ビデオから抽出したキャラクターモーションを任意の新しいシーンに転送し、カメラの内部および外部パラメーターをフレームごとに詳細に制御できる特長を持つ。

ActCamは、シーンの深度 (scene depth) とキャラクターのポーズ (character pose) を条件付けとして受け入れる、事前学習済みの画像-動画拡散モデル (image-to-video diffusion model) を基盤としている。

動きのあるソースビデオとターゲットのカメラモーションが与えられると、ActCamはフレーム間で幾何学的に一貫性を保つポーズと深度の条件を生成する。

サンプリングプロセスは、2段階のコンディショニングスケジュールで実行される。初期のデノイズステップでは、ポーズと疎な深度 (sparse depth) の両方を条件付けすることで、シーン構造の強制を行う。その後のステップでは深度の条件付けを解除し、ポーズのみのガイダンスによって高周波の詳細が洗練される。これにより、生成に対する過度な制約を避けつつ、より詳細な動画生成が可能となる。

研究者らは、様々なキャラクターの動きと挑戦的な視点変更を含む複数のベンチマークにおいてActCamを評価した。その結果、従来のポーズのみの制御や他のポーズ・カメラ手法と比較し、ActCamがカメラへの追従性とモーションの忠実性を向上させることが示された。特に大きな視点変更の条件下では、ActCamが人間の評価でより好まれる傾向にあることが確認された。これらの評価結果は、注意深くカメラに整合させた条件付けと段階的なガイダンスが、学習なしで強力なジョイントカメラおよびモーション制御を可能にすることを示している。この研究のプロジェクトページは this https URL である。

参考: arXiv cs.CV (アーカイブ) — 2026年5月8日 02:59 (JST)