arxiv.orgは6月2日(現地時間)、Lorenz K. Muller氏らが発表した論文で、大規模言語モデル (LLM) の推論タスクにおけるKV-キャッシュ量子化の新手法「KVarN」が提示されたと報じた。このキャリブレーション不要の手法は、自己回帰デコーディング中の量子化誤差蓄積を抑制する。MATH500、AIME24、HumanEvalなどの生成ベンチマークでは、2ビット精度での新たなState-of-the-Art (SOTA) を確立した。

大規模言語モデル (LLM) は、その高性能と汎用性により急速に進化しているが、運用上の大きな課題の一つにメモリ消費量の増大が挙げられる。特に、テキスト生成の過程で過去のキー (K) とバリュー (V) を記憶するKV-キャッシュは、生成されるトークン数に比例してメモリを消費し、長期間のデコーディングにおいてメモリボトルネックを引き起こす要因となっている。この課題に対応するため、KV-キャッシュの量子化手法が研究されているが、既存のアプローチには限界があった。

従来のKV-キャッシュ量子化手法は、多くの場合、大規模なプリフィル段階に似た設定で評価されてきた。しかし、LLMが実際にテキストを生成する自己回帰デコーディングの段階では、量子化誤差の挙動が大きく異なることが指摘されてきた。論文によると、自己回帰デコーディングにおいては、量子化誤差がタイムステップをまたいで蓄積し、これが主に不正確なトークンスケールに起因することが詳細に分析されている。

この問題に対し、Lorenz K. Muller氏らが提案した「KVarN」は、キャリブレーションを必要としない量子化手法として注目される。KVarNは、ハダマール回転を適用した後、KおよびV行列の両軸にわたる二重スケール分散正規化を適用する。この二重のプロセスが組み合わされることで、推論中に発生しうる外れ値となるトークンスケール誤差が効果的に修正され、その結果、自己回帰デコーディングにおける誤差蓄積が既存のベースライン手法と比較して大幅に削減されるという。

KVarNの性能は、MATH500、AIME24、HumanEvalといった主要な生成ベンチマークで厳密に評価された。これらのテストにおいて、KVarNは2ビット精度でのKV-キャッシュ量子化において、新たなstate-of-the-art (SOTA) を確立した。これは、特に低ビット精度で大規模言語モデルを効率的に運用しようとする研究者や開発者にとって重要な進展となると評価されている。さらに、KVarNメソッドのvLLM実装も提供されており、研究コミュニティが容易に検証し、自身のプロジェクトに組み込むことが可能となっている。

本研究は、大規模言語モデルの効率的な推論に寄与する。論文の著者は、Lorenz K. Muller氏、Philippe Bich氏、Chiara Boretti氏、Hyun-Min Chang氏、Jiawei Zhuang氏、Lukas Cavigelli氏である。


参考: arxiv.org — 2026年6月2日 09:00 (JST)

この記事をシェア
X はてブ LinkedIn