arXiv cs.LGは2026年5月7日(現地時間)、Minbin Huang氏らがMixture-of-Experts (MoE) アーキテクチャの新しい設計「UniPool」を提案したと報じた。UniPoolは、従来層ごとに独立していたエキスパートセットをグローバルな共有プールとして扱い、各層のルーターからアクセスさせる構造を持つ。この設計変更により、LLaMAアーキテクチャの多様なモデルスケールにおいて、既存のMoEと比較して検証損失とパープレキシティの改善が確認された。

Minbin Huang氏らによる論文は、現代のMixture-of-Experts (MoE) アーキテクチャがエキスパート容量を層ごとの厳格なルールで割り当て、各トランスフォーマー層が個別のエキスパートセットを持つという慣習を指摘している。この慣習は、深度スケーリングとエキスパートパラメータの線形成長を結びつけ、すべての層が孤立したエキスパート容量を必要とすると仮定する。

しかし、近年の分析と著者らのルーティングプローブは、この割り当てルールに疑問を投げかけている。複数のプロダクションMoEモデルにおいて、深い層の学習済みtop-kルーターを均一なランダムルーティングに置き換えても、ダウンストリーム精度が1.0〜1.6ポイントしか低下しないことが示された。この冗長性に基づき、UniPoolはエキスパート容量をグローバルなアーキテクチャ予算として扱い、層ごとのエキスパート所有権を単一の共有プールに置き換える。この共有プールへは独立した層ごとのルーターがアクセスする。

共有環境下での安定かつバランスの取れた訓練を可能にするため、UniPoolはプール全体のエキスパート利用率をバランスさせるプールレベルの補助損失を導入し、共有エキスパートプールへのスパースでスケール安定なルーティングを提供するためにNormRouterを採用した。The Pileの300億トークンで訓練されたLLaMAアーキテクチャの5つのモデルスケール(182M、469M、650M、830M、978Mパラメータ)において、UniPoolは既存のバニラMoEベースラインと比較して、検証損失とパープレキシティを一貫して改善した。これらのスケール全体で、UniPoolはバニラMoEと比較して検証損失を最大0.0386削減している。

この損失改善に加え、結果はプールサイズを明示的な深度スケーリングハイパーパラメータとして特定している。バニラのエキスパートパラメータ予算の41.6%〜66.7%のみを使用する縮小プール版UniPoolは、テストされたスケールで層ごとのMoEと同等かそれ以上の性能を示した。これは、共有プール設計の下では、エキスパートパラメータが深度と共に線形に成長する必要はなく、劣線形成長でもバニラMoEより効率的かつ効果的であることを示唆している。さらなる分析では、UniPoolの利点がよりきめ細かいエキスパート分解と組み合わさることで得られることが示されている。


参考: arXiv cs.LG — 2026年5月8日 02:59 (JST)

この記事をシェア
X はてブ LinkedIn