Gemma 4など主要LLMがKV共有でメモリ半減、長文処理効率化を加速
Sebastian Raschka博士は5月16日(現地時間)、オープンウェイトの大規模言語モデル(LLM)における長文コンテキスト処理効率化を巡るアーキテクチャ設計の進展を報告した。GoogleのGemma 4をはじめ、Laguna XS.2、ZAYA1-8B、DeepSeek V4などの主要モデルがKV共有や圧縮アテンションといった新手法を導入し、LLM推論時のメモリ消費と計算コストの大幅な削減に成功している。博士は、推論モデルやエージェント利用の拡大に伴い、この分野の技術革新の重要性が一層高まっていると指摘した。