arXiv cs.CVは5月28日(現地時間)、ビデオ拡散モデルにおけるキーバリュー(KV)キャッシュのメモリ効率とスループットを改善する新手法「ビデオMLA(VideoMLA)」を発表した。この研究は、Multi-Head Latent Attention (MLA)をビデオ拡散に導入し、パーヘッドのキーと値を共有の低ランクコンテンツ潜在とデカップリングされた3D-RoPE位置キーに置き換えることで、キャッシュ層ごとのトークンごとのKVメモリを92.7%削減すると報告している。
ビデオMLA(VideoMLA)は、Multi-Head Latent Attention (MLA)をビデオ拡散に適用した初の研究として提示された。これまでビデオ拡散における長期ロールアウト因果ビデオ拡散は、固定サイズのsliding-window キーバリュー(KV)キャッシュに収束しており、そのレイアウト内での技術革新は、トークンの配置や位置エンコーディングの変更に留まっていた。
研究者らは、ビデオMLAが、言語モデルでMLAを動機付けるのに用いられるスペクトル仮定がビデオ拡散では成立しないにもかかわらず成功する理由についても調査している。事前学習済みのビデオアテンションは低ランクではなく、99%のエネルギー有効ランクは実用的な潜在次元を大幅に上回るという。ビデオMLAは、直接的なスペクトル近似では大きな再構築エラーが予測される圧縮率においても品質を維持した。
この研究は、MLAのボトルネックが、事前学習されたスペクトルではなく有効ランクを決定すると示している。スペクトル初期化とランダム初期化の両方が、初期化からほぼ完全なランクバジェットを占め、トレーニングはこのバジェット内で適応しながら維持する。
ベンチマークのVBencHでは、ビデオMLAは短期間のストリーミングビデオ拡散ベースラインに匹敵する性能を示し、評価された手法の中で長期間において最高の総合スコアを達成した。さらに、単一のB200 GPUでスループットを1.23倍向上させると報告されている。
参考: arXiv cs.CV — 2026年5月29日 02:59 (JST)