arXiv cs.LGが2026年6月3日(現地時間)付けで報じたところによると、Ali Kayyam、Anusha Madan Gopal、M Anthony Lewisの3氏による研究論文が、トランスフォーマーにおけるQuery, Key, Value (QKV) の3つの射影について体系的な評価を行い、射影共有の有効性を示した。この研究では、射影の一部を省略する変形が、QKVトランスフォーマーと同等かそれ以上の性能を発揮し、特にオンデバイス推論でのキャッシュ削減に寄与する可能性が示されている。

トランスフォーマーは様々なAIタスクにおいて標準的なソリューションとなっており、その中核にはQKVアテンションの定式化がある。しかし、これら3つの射影の個々の貢献や、一部を省略した場合の影響については十分に理解が進んでいなかった。

研究チームは、a) Q-K=V(共有キー・バリュー)、b) Q=K-V(共有クエリ・キー)、c) Q=K=V(単一射影)という3種類の射影共有制約を体系的に評価した。実験は合成タスク、ビジョン(MNIST、CIFAR、TinyImageNet、anomaly)、および言語モデル(300Mおよび1.2Bパラメータモデルを10Bトークンで学習)にわたって実施された。

その結果、提案されたトランスフォーマーの変形は、既存のQKVトランスフォーマーと同等、あるいは場合によってはそれ以上の性能を示した。特に言語モデルにおいて、Q-K=Vの射影共有は、わずか3.1%のパープレキシティ劣化で50%のKVキャッシュ削減を達成した。さらに、この射影共有はヘッド共有(GQA/MQA)と相補的であることが判明した。Q-K=VとGQA-4の組み合わせでは87.5%のキャッシュ削減、Q-K=VとMQAの組み合わせでは96.9%のキャッシュ削減が実現され、これにより実用的なオンデバイス推論の可能性が広がるとされる。

研究では、Q-K=Vが品質を維持する理由として、キーとバリューが類似の表現空間を占め、アテンションが低ランク体制で動作することを指摘している。一方、Q=K-Vはアテンションの方向性を損なうとされた。これらの結果は、射影共有がアテンションにおける重み共有の未踏の事例であり、特にエッジ展開において推論メモリに直接的かつ定量可能なメリットをもたらすことを体系的に特徴付けるものとしており、論文はICML 2026で採択された。関連コードは公開されている。


参考: arXiv cs.LG (アーカイブ) — 2026年6月4日 13:00 (JST)

原文ハイライト

"our transformers perform on par or occasionally better than the QKV transformer."

この記事をシェア
X はてブ LinkedIn