Hierarchical Global Attention、長尺コンテキスト処理のGPU効率化技術発表

論文『Hierarchical Global Attention (HGA)』は6月29日(現地時間)、arXiv cs.LG上で公開されました。HGAは、事前学習済み大規模言語モデルの密な因果アテンションを代替する技術です。既存のチェックポイントパラメータを維持し、再トレーニングなしでの導入を可能にすることで、限られたGPUメモリで超長尺コンテキストを効率的に処理する新たな道を開きます。

本論文では、階層型グローバルアテンション (Hierarchical Global Attention: HGA) をQwen3-30B-A3B-Instruct-2507-FP8に適用した際、単一のRTX 5090 (32GB) 上で64Kトークンのコンテキスト長で動作することを確認しています。これは、トークンレベルのK/Vストレージがこのハードウェアでは現実的ではない状況下での動作となります。

HGAは、従来のスパースアテンション手法とは異なるアプローチを採用しています。まず、コンパクトなRoPE-awareサマリーを用いて関連チャンクを取得します。その後、最も関連性の高いグループのみをルーティングすることで選択を絞り込み、正確なトークンレベルのアテンションを行います。この階層的検索により、取得されるトークン数が大幅に削減されると同時に、取得されたトークンセットに対する正確なアテンションが維持されます。

結果として、ホストRAMまたはNVMeストレージに完全な過去トークンK/Vが存在する一方で、アテンション処理中は小規模なルーティングされたワーキングセットのみがGPUメモリに転送されます。これにより、GPUメモリ消費は主にモデルの重みとルーティングされたワーキングセットに依存し、総コンテキスト長には依存しません。テストされた4Kから64Kトークンまでの全てのコンテキスト長において、ルーティングされたアテンションは密なアテンションと比較して約0.01〜0.02ナッツの範囲内に収まり、使用されるスパース性は約3%でした。

この技術は、GPU上でのアテンション計算速度向上やK/Vキャッシュ効率化といった従来のアプローチとは一線を画します。既存手法が計算効率を追求するのに対し、HGAはGPUメモリが限られる環境で極めて長いコンテキストを扱えるように、K/Vストレージ自体をホストメモリにオフロードし、必要な部分のみをGPUに転送する機構を組み込んでいます。これにより、安価な大容量ホストメモリを活用して大規模な長尺コンテキストモデルの推論が可能になります。

参考: arXiv cs.LG (アーカイブ) — 2026年7月1日 13:00 (JST)