長尺動画生成の一貫性を測る新ベンチマーク「EntityBench」を発表

Ruozhen He氏、Meng Wei氏、Ziyan Yang氏、Vicente Ordonez氏らの研究者グループは2026年5月14日(現地時間)、長尺マルチショット動画生成におけるエンティティ（登場人物、オブジェクト、場所）の一貫性を評価する新ベンチマーク「EntityBench（エンティティベンチ）」を導入した。従来の評価手法が抱えるエンティティカバレッジの限定性や単純な一貫性メトリクスといった課題により、標準化された比較が困難な状況を打開する。研究者らは、この一貫性を向上させる記憶増強生成システム「EntityMem（エンティティメム）」も合わせて提案している。

長尺マルチショット動画生成において、動画全体にわたる登場人物、オブジェクト、場所といったエンティティの一貫性を維持することは、写実的な表現を実現する上で極めて重要である。既存の評価手法では、エンティティの網羅性が限定的であることや、一貫性を測るメトリクスが単純であるため、異なる生成モデル間の性能比較が困難であった。

「EntityBench」は、この課題を解決するために開発された。実際の物語メディアから派生した計140エピソード、2,491ショットで構成されており、最大50ショット、13のクロスショット登場人物、8のクロスショット場所、22のクロスショットオブジェクトをカバーする。特に、最大48ショットにわたるエンティティの再出現ギャップを追跡するための明示的なショットごとのエンティティスケジュールが特徴である。これにより、エンティティが動画の途中で出現したり消失したりする複雑なシナリオでの一貫性評価が可能となる。ベンチマークの難易度は、動画の長さ、エンティティの複雑さ、再出現頻度に基づいてイージー、ミディアム、ハードの3段階に分類されており、広範なテストケースに対応する。

評価スイートは、以下の3つの主要な柱で構成されている。

ショット内品質（Intra-shot Quality）: 個々のショットにおける画質や視覚的リアリズムを評価する。
プロンプト追従性（Prompt Fidelity）: 生成された動画が、入力されたテキストプロンプトの内容にどの程度忠実に従っているかを評価する。
クロスショット一貫性（Cross-shot Consistency）: 最も重要な要素であり、複数のショット間でエンティティがどれだけ一貫して維持されているかを評価する。特に、正確に生成されたエンティティの出現のみをクロスショットスコアリングに含める「忠実度ゲート」を導入しており、不正確な生成が評価に与える影響を排除し、より厳密な一貫性評価を実現している。

EntityMem（エンティティメム）は、研究者グループが提案する記憶増強生成システムである。このシステムは、動画生成を開始する前に、検証済みのエンティティごとの視覚的参照を永続的な記憶バンクに保存する。この記憶バンクを参照することで、長尺動画生成においてもエンティティの一貫性を維持することを目指す。実験の結果、既存の手法ではエンティティの再出現距離が長くなるにつれて、クロスショットエンティティの一貫性が著しく低下することが明らかになった。これに対し、EntityMemは、評価された手法の中で最高の登場人物忠実度（Cohen’s d = +2.33）と出現率を示し、長距離でのエンティティ一貫性において顕著な改善を達成できることが実証された。これらの成果は、長尺動画生成の品質向上に大きく貢献するものと期待される。

関連するコードとデータは、公開された情報源を通じて入手可能となっている。

参考: arXiv cs.CV (アーカイブ) — 2026年5月15日 02:59 (JST)