LLM長文生成効率化、新手法を提案データ記憶で計算コスト削減

arXiv cs.CLは2026年5月18日(現地時間)、ヤスユキ・オコシ (Yasuyuki Okoshi) 氏らが、大規模言語モデル (LLM) における長文コンテキスト生成の効率化を目指す新たな手法「attention-state memory」を提案したと報じた。この手法はトレーニングを必要とせず、長文コンテキスト利用時の計算コスト削減と性能向上を両立させるという。LLaMA-3.1-8Bを用いた評価では、既存手法と比較して精度が向上し、レイテンシ削減も確認された。LLMの推論効率化に寄与する技術として注目される。

現代のLLMアプリケーションは、推論時においてモデルの振る舞いを制御するため、長いconditioning prefixesに依存する傾向があります。しかし、このprefix-augmented inferenceには構造的な二つの制限が存在します。一つは、生成が進むにつれてprefixの影響が薄れる点、もう一つは、prefixに対するattention computationがその長さに比例してスケールする点です。既存のアプローチとしては、prefixを圧縮しつつattentionに保持する方法や、勾配ベースの学習を通じてモデルパラメータに内部化する方法があります。

これらの既存手法には課題も指摘されています。前者は推論時に依然としてprefixへのattentionを必要とし、後者は学習負荷が高く、prefixの更新に不向きです。

これらの課題に対処するため、ヤスユキ・オコシ氏らはattention-state memoryと呼ばれるトレーニング不要のアプローチを提案しています。この手法は、prefixとクエリトークン間の事前に計算されたattention statesを、軽量なlookup-based memoryとして外部化するものです。

ManyICLBenchにおいてLLaMA-3.1-8Bを用いて評価した結果、このattention-state memoryは、1Kから8Kのメモリバジェットにおいてin-context learningよりも精度を向上させました。また、8Kのバジェットではattention latencyを1.36倍削減しています。さらに、NBA benchmarkでは、メモリフットプリントを20%しか使用しないにもかかわらず、full-attention RAGの性能を上回る結果を示しました。本論文の著者には、ヤスユキ・オコシ氏、ハオ・マーク・チェン (Hao Mark Chen) 氏、グアンシ・ルー (Guanxi Lu) 氏、ホンシャン・ファン (Hongxiang Fan) 氏、マサト・モトムラ (Masato Motomura) 氏、ダイチ・フジキ (Daichi Fujiki) 氏が含まれています。

参考: arXiv cs.CL — 2026年5月18日 20:12 (JST)