#VBench 関連記事 | AI Edgeline

ビデオ統一モデルの新基軸：ルーモス・ネクサスが効率的なフレームワークを提案

Jiazheng Xing氏らの研究チームは5月29日(現地時間)、ビデオ統一モデル向けの新たなフレームワーク「ルーモス・ネクサス（Lumos-Nexus）」を提案した。同フレームワークは、推論駆動型の生成能力を向上させつつ、視覚的忠実度を大幅に強化することを目的としている。大規模な高忠実度ジェネレーターを既存のトレーニングループに統合する際に生じる計算上の課題に対し、独創的な解決策を提供する。

リサーチ・論文 5月30日 19:20

ビデオMLA、KVキャッシュを低ランク化しメモリ削減

arXiv cs.CVは5月28日(現地時間)、ビデオ拡散モデルにおけるキーバリュー（KV）キャッシュのメモリ効率とスループットを改善する新手法「ビデオMLA（VideoMLA）」を発表した。この研究は、Multi-Head Latent Attention (MLA)をビデオ拡散に導入し、パーヘッドのキーと値を共有の低ランクコンテンツ潜在とデカップリングされた3D-RoPE位置キーに置き換えることで、キャッシュ層ごとのトークンごとのKVメモリを92.7%削減すると報告している。