Jiazheng Xing氏らの研究チームは5月29日(現地時間)、ビデオ統一モデル向けの新たなフレームワーク「ルーモス・ネクサス(Lumos-Nexus)」を提案した。同フレームワークは、推論駆動型の生成能力を向上させつつ、視覚的忠実度を大幅に強化することを目的としている。大規模な高忠実度ジェネレーターを既存のトレーニングループに統合する際に生じる計算上の課題に対し、独創的な解決策を提供する。
ビデオ統一モデルの分野では、指示に基づいたビデオ合成において既存のコネクタベースモデルが強力な性能を発揮しています。しかし、これらのモデルには重大な課題が存在します。特に、大規模で高忠実度なジェネレーターをトレーニングループに組み込もうとすると、その計算コストが飛躍的に増大し、結果として達成可能な視覚品質が制限されるという問題に直面していました。これは、最新のビデオ生成技術が持つ潜在能力を最大限に引き出す上での大きな障壁となっていました。
「ルーモス・ネクサス」は、この課題に対処するために独自の2段階設計を採用しています。最初の「トレーニング段階」では、軽量なジェネレーターのみが理解ブロックと整列(アライン)されます。このプロセスを通じて、モデルは推論駆動型の意味論的制御を取り込む学習を行います。これにより、複雑な高忠実度ジェネレーターを直接トレーニングする際の膨大な計算資源の消費を回避しながら、基礎的な意味理解能力を効率的に獲得します。
次に「推論段階」では、Unified Progressive Frequency Bridging (UPFB)という革新的な技術が導入されます。UPFBは、生成プロセスを共有された潜在空間内の高性能な事前学習済みジェネレーターに段階的に引き継ぐ仕組みです。具体的には、初期段階で生成された粗い表現から、徐々に詳細で洗練された高周波情報が付加されていくプロセスを経て、最終的に高忠実度なビデオが生成されます。この段階的な移行により、計算コストを抑えつつ、推論品質を損なうことなく、極めてリアルなビデオ出力を実現することが可能になります。
研究チームはまた、推論駆動型ビデオ生成モデルの評価に不可欠なベンチマークの不足を補うため、「VR-Bench」を導入しました。VR-Benchは、モデルがユーザーから推論された意図を一貫性があり、かつ意味的に整合性の取れたビデオコンテンツへと変換する能力を客観的に評価するために設計されています。この新しいベンチマークは、モデルの「理解力」と「表現力」を多角的に検証する上で重要な役割を果たします。
広範な実験的検証により、「ルーモス・ネクサス」の優位性が証明されました。VBenchを用いた評価では、視覚的リアリズムと時間的コヒーレンス(時間的な一貫性)において、既存の手法と比較して実質的な向上が達成されたことが示されています。さらに、VR-Bench上でも強力な推論ベースの生成性能を発揮し、モデルがユーザーの意図を正確に捉え、それを高品質なビデオとして具現化できる能力を明確に示しました。研究の成果を社会に還元するため、本研究に関するコードとモデルは既に公開されています。
参考: arXiv cs.CV (アーカイブ) — 2026年5月30日 02:59 (JST)
原文ハイライト"Efficient Frequency Bridging with Homogeneous Latent Space for Video Unified Models"