KVarN、KV-キャッシュ量子化で新SOTA樹立 推論タスク誤差を抑制
arxiv.orgは6月2日(現地時間)、Lorenz K. Muller氏らが発表した論文で、大規模言語モデル (LLM) の推論タスクにおけるKV-キャッシュ量子化の新手法「KVarN」が提示されたと報じた。このキャリブレーション不要の手法は、自己回帰デコーディング中の量子化誤差蓄積を抑制する。MATH500、AIME24、HumanEvalなどの生成ベンチマークでは、2ビット精度での新たなState-of-the-Art (SOTA) を確立した。