大規模言語モデルのKVキャッシュ、編集・構成可能な特性を提示

arXivは2026年6月14日(現地時間)、Bojie Li氏らによる論文「Models Take Notes at Prefill: KV Cache Can Be Editable and Composable」を公開した。同研究は、大規模言語モデル（LLM）のキーバリュー（KV）キャッシュが、これまで考えられていたよりも編集可能で構成可能であるという新たな知見を提示している。既存のプレフィックスキャッシングにおける課題を指摘し、モデルがプリフィル時に既に「結論」をメモするメカニズムを解明した。

論文は、従来のプレフィックスキャッシングでは、完全に一致する共有プレフィックスに対してのみ再利用が行われ、フィールドが一つ変更されるとダウンストリームキャッシュ全体が無効になる点を指摘している。フィールド自身のキー・バリューベクトルを上書きしても、モデルは古い値に基づいて動作し続けるという。

この原因として、モデルがプリフィル時に既にフィールド条件付きの結論をダウンストリームの「メモ (notes)」として書き込んでおり、フィールド自身のキー・バリューが決定に寄与するのは1%未満であることが4つのモデルファミリーを通じて因果的に立証されたとしている。

この「メモされた結論のノートブック」という見方から、二つの機能が導き出される。一つは「編集可能性」である。明確な誤り訂正 (erratum) によってメモを修正できる。チェイン・オブ・ソート (chain-of-thought) と組み合わせると、フィールドのみを編集するだけで決定を回復でき（8Bモデルで1.00、計算コスト約1%）、CoTなしでは無視されるという。もう一つは「構成可能性」である。メモは位置ポータブルであり、プリコンパイルされたスキルをRoPEを用いて再配置し、任意のコンテキストに組み込むことができる。これは完全な再計算と区別できないレベルで（ロジットコサイン類似度0.90〜0.999、12モデル）、初トークンまでの時間がO(L)で達成され、従来のO(L^2)に比して高速である。

統一された編集・構成エージェントは、最大で14.9倍低いレイテンシで再計算と同等の決定を維持する。このアプローチは、トークンごとのアテンションKVキャッシュ全般に適用可能であり、スケール、量子化、Mixture-of-Experts、マルチモーダルキャッシュなど、幅広い状況で検証されている。誤り訂正が追加専用 (append-only) であるため、プロダクション環境のプレフィックスキャッシングと両立する。オンラインvLLMベンチマークではプレフィックスキャッシュのアライメントを98.5%のヒット率で維持し、P90初トークンまでの時間を53〜398倍削減したとしている。

参考: arXiv cs.LG — 2026年6月17日 13:00 (JST)