#VideoMLA 関連記事

ビデオMLA、KVキャッシュを低ランク化しメモリ削減

arXiv cs.CVは5月28日(現地時間)、ビデオ拡散モデルにおけるキーバリュー（KV）キャッシュのメモリ効率とスループットを改善する新手法「ビデオMLA（VideoMLA）」を発表した。この研究は、Multi-Head Latent Attention (MLA)をビデオ拡散に導入し、パーヘッドのキーと値を共有の低ランクコンテンツ潜在とデカップリングされた3D-RoPE位置キーに置き換えることで、キャッシュ層ごとのトークンごとのKVメモリを92.7%削減すると報告している。