ビデオMLA、KVキャッシュを低ランク化しメモリ削減
arXiv cs.CVは5月28日(現地時間)、ビデオ拡散モデルにおけるキーバリュー(KV)キャッシュのメモリ効率とスループットを改善する新手法「ビデオMLA(VideoMLA)」を発表した。この研究は、Multi-Head Latent Attention (MLA)をビデオ拡散に導入し、パーヘッドのキーと値を共有の低ランクコンテンツ潜在とデカップリングされた3D-RoPE位置キーに置き換えることで、キャッシュ層ごとのトークンごとのKVメモリを92.7%削減すると報告している。