DECO、Sparse MoEで性能向上エンドデバイスAIの計算効率改善

arXiv cs.LGは5月11日(現地時間)、Chenyang Song氏らの研究チームが開発した「DECO」を報じた。これはエンドデバイス向けSparse Mixture-of-Experts (MoE) アーキテクチャで、MoEモデルが抱えるストレージやメモリアクセスボトルネックの解消を目指す。DECOは高パフォーマンス、低計算コスト、小さなストレージオーバーヘッドを同時に実現し、限られたリソースのエッジAI環境での高速化に貢献するとされる。報告によると、Dense Transformerと同等の性能を維持しつつ、最大3.00倍の高速化を達成。この技術はAI実用化を加速する上で重要な一歩とみられる。

DECOは、同一の総パラメータ予算と学習トークンにおいて、従来のDense Transformer（全てのパラメータを密に利用する伝統的なAIモデル）に匹敵する性能を目的として設計されたSparse Mixture-of-Experts (MoE) アーキテクチャである。MoEモデルは、複数の専門家モデル（エキスパート）の中から入力データに適したものを選択して処理することで効率を高めるが、通常は総パラメータ数が増大し、大規模なストレージとメモリアクセスが課題となる。DECOは、この課題を克服し、限られたリソースのエンドデバイスで高性能を実現する。

このアーキテクチャの主要な特徴の一つは、微分可能で柔軟なReLUベースのルーティングの採用にある。ReLU（Rectified Linear Unit）は、入力が正の場合はそのまま出力し、負の場合はゼロを出力するシンプルな活性化関数だ。このルーティングは、学習可能なエキスパートごとのスケーリングを介して、ルーティングされたエキスパートと共有エキスパートの貢献を適応的にバランスさせることが可能となり、モデルの効率性と性能の両面で重要な役割を果たすとされる。

さらに、DECOアーキテクチャでは、新たに開発された活性化関数「NormSiLU」が導入されている。NormSiLUは、SiLU演算子の前にインプットを正規化するプロセスを経ることで、ルーティングされたエキスパートの活性化比率において、より安定した傾向と、より高い固有のスパースレベルを生み出す。この改善は、モデルの安定性と計算効率の向上に寄与するとみられる。研究チームはまた、ReLUベースのルーティングと共に非ゲート型MLPエキスパートを使用することに経験的な利点があることも実証しており、これはMoEアーキテクチャ全体の簡素化に向けた新たな可能性を示唆している。

実験結果は、DECOの有効性を明確に示している。具体的には、DECOはエキスパートのわずか20%のみを活性化する構成で、Dense性能に匹敵する高いパフォーマンスを実現し、既存のMoEベースラインモデルを上回る結果を示した。この効率性は、限られたリソースのエンドデバイスにおいて特に有利となる。加えて、DECOに特化して最適化されたアクセラレーションカーネルを導入することで、実際のハードウェア上での推論において、Dense推論と比較して3.00倍という大幅な速度向上を達成した。

エンドデバイスでのAI高速化は、製造業における検査装置でのリアルタイム異常検知、コンシューマー向けIoTデバイスでのオンデバイス処理とプライバシー保護、携帯型医療機器におけるリアルタイム診断アシストなど、多くの分野で実務的なインパクトをもたらす可能性がある。クラウドへのデータ送信や処理の依存を減らすことで、低遅延化、高セキュリティ、ユーザープライバシーの強化に繋がり、幅広い業界でのAI活用を推進する一助となるとみられる。

本研究は、AIモデルの設計における根本的な課題への革新的なアプローチを示しており、特にリソース制約のある環境でのAI展開を大きく加速させる可能性がある。研究チームは、関連するコードとチェックポイントを今後公開する予定としている。

参考: arXiv cs.LG — 2026年5月12日 02:58 (JST)