Apple ML Research、KVキャッシュ削減新手法「Stochastic KV Routing」を発表
Apple Machine Learning Researchは2026年5月(現地時間)、Transformer言語モデルのKey-Values (KV) キャッシュのメモリ要件を削減する新手法「Stochastic KV Routing (ストキャスティック KV ルーティング)」を発表した。この研究は、オートレグレッシブ生成におけるKVキャッシュの大きなメモリフットプリントとサービングコストへの対処を目指す。従来のKVキャッシュ削減手法が時間軸での最適化に焦点を当てていたのに対し、本手法は深さの次元での最適化を提案する点で特徴を持つ。これにより、メモリ効率の向上と計算コストの削減が期待される。