Jiaxin Wu氏らの研究チームは2026年5月14日(現地時間)、生成型ビデオモデルの幾何学的コヒーレンス(整合性)を定量的に評価する新たなフレームワーク「PDI-Bench (Perspective Distortion Index)」を発表した。従来の評価手法が人間による判断や学習済みグレーダーに依存し、主観的で幾何学的失敗の診断が不十分であった課題に対し、PDI-Benchは生成動画からオブジェクト中心の観測値を取得し、3Dワールド空間座標に変換。これにより、スケール深度整合など3つの失敗次元を捉える射影幾何学的残差を算出し、客観的な評価を可能にする。

PDI-Benchは、生成された動画クリップを取り込み、その詳細な幾何学的特性を解析する。まず、セグメンテーション(領域分割)と点追跡(point tracking)の手法を用いて、動画内のオブジェクトを中心とした観測値を取得する。このプロセスには、最先端のモデルであるSAM 2、MegaSaM、CoTracker3などが活用され、動画内の各オブジェクトの境界と動きを正確に捉える。

次に、これらの2次元の観測値は、単眼再構成(monocular reconstruction)技術によって3Dワールド空間座標へと変換される。この3D変換により、生成された動画が現実世界の物理法則にどれだけ合致するかを評価するための基盤が構築される。PDI-Benchは、この3Dデータに基づいて、以下の3つの主要な失敗次元を捉える射影幾何学的残差を算出する。

  1. スケール深度整合 (Scale-Depth Alignment): オブジェクトのサイズと奥行きの関係が一貫しているかを評価する。例えば、遠くにあるオブジェクトが不自然に大きく見えたり、手前にあるオブジェクトが小さく見えたりするような矛盾を検出する。
  2. 3Dモーション一貫性 (3D Motion Consistency): オブジェクトが3D空間内で物理的に妥当な動きをしているかを評価する。不自然な動きや突然のテレポートのような、現実には起こり得ない動きを特定する。
  3. 3D構造剛性 (3D Structural Rigidity): オブジェクトの形状が3D空間内で一貫して保持されているかを評価する。変形してはいけないオブジェクトが不自然に伸縮したり、崩れたりする現象を捉える。

これらの残差を計算することで、PDI-Benchは生成動画の幾何学的整合性に対する客観的かつ診断的な評価を提供する。

研究チームは、この体系的な評価を支援するため、「PDI-Dataset」を構築した。このデータセットは、上記の幾何学的制約を特に強調するように設計された多様なシナリオを網羅している。例えば、カメラの動き、オブジェクトの相互作用、複雑な環境といった要素が、生成モデルの幾何学的エラーを露呈しやすいように工夫されている。

PDI-Benchを用いて最先端のビデオジェネレーターを評価した結果、従来の一般的な知覚メトリクス(perceptual metrics)では捉えられない、一貫した幾何学固有の失敗モードが明らかになったとarXiv cs.CVは報じている。これは、生成された動画が視覚的にはもっともらしく見えても、その裏にある物理的な整合性に深刻な問題がある可能性を示唆している。PDI-Benchが提供するこのような詳細な「診断信号」は、物理的に根拠のあるビデオ生成技術、ひいては物理ワールドモデル(physical world model)の進歩に不可欠な指針となる。


参考: arXiv cs.CV (アーカイブ) — 2026年5月15日 02:59 (JST)

原文ハイライト

"perceptual metrics"

この記事をシェア
X はてブ LinkedIn