Gated DeltaNet-2を発表、線形アテンションで消去・書き込み機能を分離

Ali Hatamizadeh (アリ・ハタミザデー) 氏、Yejin Choi (イェジン・チョイ) 氏、Jan Kautz (ヤン・カウツ) 氏らの研究チームは、2026年5月21日(現地時間)にarXiv cs.AIで、線形アテンションの新たなモデル「Gated DeltaNet-2」を発表した。このモデルは、既存の「Gated DeltaNet」および「Kimi Delta Attention (KDA)」において共通する、情報消去と新規書き込みが単一のスカラーゲートで制御されるという制約に対処している。

Gated DeltaNet-2は、線形アテンションにおいてチャネルごとの消去ゲート「b_t」とチャネルごとの書き込みゲート「w_t」を導入することで、これらの役割を分離する。これにより、既存のGated DeltaNetやKDAが抱えていた、キー側での古いコンテンツの消去量とバリュー側での新しいコンテンツのコミット量がスカラーで結びつけられている点を解消した。

このモデルは、アダプティブな忘却とチャネルごとの減衰を継承しつつ、Gated DeltaNetとKDAの両方を一般化する。両方のゲートが同じスカラーに収束するとKDAに、減衰も収束するとGated DeltaNetにそれぞれ還元される設計だ。研究チームは、高速な重み更新ビュー、非対称な消去因子にチャネルごとの減衰を吸収するチャンクワイズWYアルゴリズム、および効率的な並列学習を維持するゲート認識の逆伝播を導出している。

1.3Bパラメータで100B FineWeb-Eduトークンを用いて学習されたGated DeltaNet-2は、Mamba-2、Gated DeltaNet、KDA、Mamba-3のバリアントと比較し、言語モデリング、常識推論、検索において最も強力な全体的結果を達成した。その優位性は、特に長文コンテキストのRULER needle-in-a-haystackベンチマークで顕著であり、評価されたマルチキー検索設定を改善し、リカレントおよびハイブリッド設定の両方で堅牢な性能を維持している。関連コードは公開されている。

参考: arXiv cs.AI (アーカイブ) — 2026年5月22日 02:44 (JST)