arXiv cs.CLが2026年6月1日(現地時間)付けで報じたところによると、大規模言語モデル(LLM)の学習後圧縮に関する新たな研究論文が公開された。エリア・クネガッティ (Elia Cunegatti) 氏らは、既存の圧縮手法が持つ「フルレイヤー粒度」と「連続選択」という設計上の制約は過度に制限的であると指摘。この課題を克服するため、サブモジュールレベルでの圧縮を可能にする新手法「SubFit (Submodule-level Fitted residual replacement)」を導入した。
既存のLLM圧縮手法では、モデル全体のアーキテクチャ要素を削除するか、適合モジュールに置き換えることで圧縮を行う。しかし、これらの手法はAttentionとFeedForward出力間で冗長性が均等に分布しないことや、削除可能なコンポーネントが連続した深さ範囲に集中する必要がないことを考慮していないと、論文は述べている。
SubFitは、AttentionおよびFeedForwardサブモジュールを非連続的に選択し、それぞれに軽量な適合残差バイパスを付与することで、サブモジュールレベルでLLMを圧縮する。この手法は学習後に行われ、キャリブレーションデータのみを必要とする。
研究では、5つのベースLLMと5つの命令チューニング済みLLM、12.5%から37.5%の5つのスパース性レベル、および4つの既存の置換ベースのベースライン手法を用いてSubFitを評価した。その結果、SubFitは評価されたスパース性レベル全体で最良のパープレキシティと精度(perplexity-accuracy)のトレードオフを達成し、積極的な圧縮下でより大きな改善を示した。
具体的には、25%のスパース性において、SubFitは密な下流タスク精度を84.6%維持し、パープレキシティ劣化を2.42倍に抑えた。これに対し、最も強力なベースライン手法では精度81.6%維持、パープレキシティ劣化4.34倍であった。さらに、SubFitは測定可能な推論速度の向上とKVキャッシュの削減も実現した。関連コードはこのURLで公開されている。
参考: arXiv cs.CL (アーカイブ) — 2026年6月2日 02:52 (JST)
原文ハイライト"SubFit achieves the best aggregate perplexity-accuracy trade-off across the evaluated sparsity levels"