オンラインプレプリントリポジトリarXivは2026年6月4日(現地時間)、大規模言語モデル(LLM)における長文脈推論のデコーディング効率を改善する新手法「cross-layer sparse attention (CLSA)」を提案する論文を公開した。Yutao Sun、Yanqi Zhang、Li Dong、Jianyong Wang、Furu Weiの各氏が発表したCLSAは、KV共有アーキテクチャを基盤とし、複数のデコーダ層間でKVキャッシュとルーティングインデックスを共有することで、推論の主要なボトルネックを改善する。
現代のLLMにおける長文脈推論は、特に思考の連鎖を長く生成する推論負荷の高い設定において、デコーディング効率が課題となっている。この領域では、既存の疎なアテンション手法が効率と品質のトレードオフに直面してきた。
具体的には、構造化されたブロック疎な手法は高速化に優れるものの品質損失が生じやすく、トークン疎な手法は高精度である一方でルーティングコストが高く、結果としてエンドツーエンドの速度向上が限定的であった。こうした状況に対し、CLSAは新たなアプローチを提供する。
提案されたCLSAは、YOCOなどのKV共有アーキテクチャ上に構築されている。その核心は、単にデコーダ層間でKVキャッシュを共有するだけでなく、ルーティングインデックスも共有することにある。この手法では、単一のインデクサがトークンレベルのトップk選択を一度計算し、その結果得られたインデックスを複数の層で再利用する。これにより、トークン疎なアテンションが持つきめ細かい選択性を維持しつつ、ルーティングに伴うオーバーヘッドを大幅に償却することが可能になる。
CLSAアーキテクチャは、プリフィル、KVキャッシュストレージ、長文脈デコーディングを含む、LLM推論における主要なボトルネックすべてを改善すると報告されている。短文脈および長文脈ベンチマークでの実験結果は、CLSAが正確かつ効率的であることを明確に示している。
特に、128Kコンテキストにおいては、最大で7.6倍のデコーディング速度向上と、17.1倍の全体スループット向上を達成した。これらの実験結果は、モデル品質と推論効率を同時に進歩させる、長文脈LLM向けのより包括的なアーキテクチャソリューションの可能性を示唆している。
参考: arXiv cs.CL — 2026年6月5日 02:54 (JST)
原文ハイライト"You Only Index Once: Cross-Layer Sparse Attention with Shared Routing"