Yuxiang Huang氏ら研究者グループは2026年5月18日(現地時間)、Differentiable and Adaptive Sparse Hierarchical Attention (DashAttention) と呼ばれる新たな階層型Attention手法を提案した。これは大規模言語モデル (LLMs) における長文コンテキスト処理の効率と精度を飛躍的に高めることを目指す。従来の階層型Attentionが抱えるトップk選択による勾配フロー阻害の課題を解決し、スパースステージとデンスステージ間の滑らかな勾配伝播を可能にする。これにより、LLMの長文モデリング能力の向上と、計算効率の大幅な改善が期待される。

従来の階層型Attention手法、例えばNSAやInfLLMv2などは、粗いAttentionスコアに基づいて関連性の高いトップk個のキーバリュー (KV) ブロックを選択し、その後に選択されたトークンに対してきめ細かなsoftmax Attentionを適用する。しかし、このトップk操作は、任意のクエリに対する関連トークンの数が固定されることを前提としており、スパースステージとデンスステージ間の勾配フローを阻害するという根本的な課題を抱えていた。

DashAttentionは、この課題を克服するために、最初のステージでアダプティブなスパースα-entmax変換を活用する。このアプローチにより、現在のクエリに応じて可変数のブロックを選択することが可能となる。結果として、2番目のステージのsoftmax Attentionに事前情報を効果的に提供し、階層全体を完全に微分可能に保つことができる。他の多くの階層型Attention手法とは異なり、DashAttentionは非分散性 (non-dispersive) の特性を持ち、これが優れた長文コンテキストモデリング能力に直結するとされている。

大規模言語モデル (LLMs) を用いた広範な実験では、DashAttentionが75%という高いスパース性条件下においても、フルAttentionに匹敵する高精度を達成していることが示された。特に高スパース性においては、既存のNSAやInfLLMv2といった手法と比較して、より優れたパレートフロンティアを示している。さらに、DashAttentionは効率的なGPU対応実装がTriton上で提供されており、推論時における速度においてもFlashAttention-3を上回る高速化を実現した。これらの結果から、DashAttentionは大規模言語モデルの長文コンテキストをモデル化するための、費用対効果の高い戦略として位置づけられている。


参考: arXiv cs.CL — 2026年5月19日 02:59 (JST)

原文ハイライト

"DashAttention: Differentiable and Adaptive Sparse Hierarchical Attention"

この記事をシェア
X はてブ LinkedIn