arXiv cs.LGは2026年6月25日(現地時間)、論文「Prism Transformer: Progressive Head Schedules for Hierarchical Attention Processing」を発表した。従来のTransformerモデルにおけるMulti-head attentionの均一なヘッド割り当てが、性能を阻害する構造的ボトルネックであることを指摘。この課題に対し、Shubham Aggarwal氏が新たなアーキテクチャ「Prism Transformer」を提案した。同モデルは層間でヘッド数を単調に増加させるプログレッシブなヘッドスケジュールを採用し、パラメーターと計算量を増やさずにモデルの潜在能力を効果的に引き出す。
従来のMulti-head attentionは、各層で隠れ次元をすべてのヘッドに均等に分割し、モデルの深さ全体にわたって同一の表現部分空間次元を強制していました。論文では、この均一な割り当てがTransformerモデルにおける根本的な構造的ボトルネックであると指摘しています。特に、初期層のヘッドが制限された次元空間で機能するため、複雑な高次元の文脈パターンを十分に捉えきれない点が課題とされていました。
Prism Transformerは、この静的で均一なヘッド構成をプログレッシブなヘッドスケジュールに置き換えます。具体的には、層を跨いでヘッド数を単調に増加させることで、自然に局所から大域への表現階層を確立します。初期層では、より少なく、非常に幅広のヘッドを利用して複雑な局所的構成パターンを捕捉します。一方、深い層では、多くの狭いヘッドを展開してこれらのパターンを特化された言語特徴へと分解する仕組みです。
この構造的変更は、パラメーター中立かつ計算中立であることが特徴です。標準のTransformerと同一の重み行列とFLOP予算を維持するため、トレーニングや推論において一切のオーバーヘッドを発生させません。
Prism Transformerは、3つのモデルスケール(124M、354M、757M)において、均一なベースラインモデルを一貫して上回る性能を示しました。検証損失の一貫した削減を実現し、さらにPIQA、HellaSwag、ARC-Easy、WinoGrandeを含む下流のゼロショットベンチマークにおいても、一貫した性能向上が確認されています。これらの結果は、非均一な部分空間割り当てが、標準のTransformer予算内でモデルの潜在的な能力を引き出し、より効果的なモデル能力の利用を可能にすることを示しています。
参考: arXiv cs.LG (アーカイブ) — 2026年6月29日 13:00 (JST)