KVEraser、LLMのKVキャッシュ文脈消去を効率化する学習手法を提案

Mufei Li氏らは2026年6月15日(現地時間)、大規模言語モデル (LLM) のKVキャッシュにおける文脈消去を効率化する新しい学習済み手法「KVEraser」を提案する論文をarXiv cs.CLで発表した。既存の正確な消去手法では、一度処理された文脈の削除に伴い、その後の全トークンを再計算する必要があり、計算コストが削除されたスパンの長さに依存せずサフィックス長に比例するという課題があった。KVEraserは、この課題に対し、局所的な編集で効率的な性能を実現する。

Mufei Li氏、Shikun Liu氏、Dongqi Fu氏、Haoyu Wang氏、Yinglong Xia氏、Hong Li氏、Hong Yan氏、Pan Li氏らは、KVEraserを効率的な局所的文脈消去のための学習済みKVキャッシュ編集手法と位置付ける。この手法は、処理された文脈と削除対象のスパンが与えられた際、消去される区間のKVステートのみを学習済みステアリングステートに置き換え、残りのキャッシュは変更せずに再利用する。

KVEraserは、転送可能な消去メカニズムを学習するため、2段階のトレーニングパイプラインを構築した。まず、汎用スパン隣接事前学習 (generic span-neighbor pre-training) によって消去されたスパンの影響を抑制する方法を学習させ、次にタスク固有のファインチューニングによってこの能力を下流のシナリオに適応させる。

実験の結果、KVEraserは1Kから32Kまでのコンテキスト長にわたるドメイン内タスクにおいて、消去後の性能でフル再計算とほぼ同等の結果を示した。レイテンシに関しては、フル再計算が17.6倍の増加を示したのに対し、KVEraserは24%の増加に留まった。また、有害な事実の妨害を含む未見の長文QAタスクに対しても汎化し、近似ベースラインの中で最高の性能を達成し、フル再計算に比べて3〜4倍の高速化を実現したという。

本研究は、ICML 2026 Workshop on the Impact of Memorization on Trustworthy Foundation Modelsでオーラル発表される予定である。

参考: arXiv cs.CL (アーカイブ) — 2026年6月16日 02:53 (JST)