ビデオ統一モデルの新基軸:ルーモス・ネクサスが効率的なフレームワークを提案
Jiazheng Xing氏らの研究チームは5月29日(現地時間)、ビデオ統一モデル向けの新たなフレームワーク「ルーモス・ネクサス(Lumos-Nexus)」を提案した。同フレームワークは、推論駆動型の生成能力を向上させつつ、視覚的忠実度を大幅に強化することを目的としている。大規模な高忠実度ジェネレーターを既存のトレーニングループに統合する際に生じる計算上の課題に対し、独創的な解決策を提供する。
Tag
2 件の関連記事
Jiazheng Xing氏らの研究チームは5月29日(現地時間)、ビデオ統一モデル向けの新たなフレームワーク「ルーモス・ネクサス(Lumos-Nexus)」を提案した。同フレームワークは、推論駆動型の生成能力を向上させつつ、視覚的忠実度を大幅に強化することを目的としている。大規模な高忠実度ジェネレーターを既存のトレーニングループに統合する際に生じる計算上の課題に対し、独創的な解決策を提供する。
arXiv cs.CVは5月28日(現地時間)、ビデオ拡散モデルにおけるキーバリュー(KV)キャッシュのメモリ効率とスループットを改善する新手法「ビデオMLA(VideoMLA)」を発表した。この研究は、Multi-Head Latent Attention (MLA)をビデオ拡散に導入し、パーヘッドのキーと値を共有の低ランクコンテンツ潜在とデカップリングされた3D-RoPE位置キーに置き換えることで、キャッシュ層ごとのトークンごとのKVメモリを92.7%削減すると報告している。