論文公開サイトarXiv cs.CLが2026年5月7日(現地時間)付けで報じたところによると、大規模言語モデル (Large language models) のモジュール性を高める新しいMixture-of-Experts (MoE) モデル「EMO」が発表された。EMOは、事前学習中に文書の境界のみを用いて、人間の定義する事前知識なしで首尾一貫した専門家グループを形成する。これにより、メモリ制約のある環境での大規模疎モデルの実用性が向上する可能性が示されている。

EMOは、通常モノリシックシステムとしてデプロイされる大規模言語モデルが、特定の機能のみを必要とする場合でもモデル全体を要求するという課題に対応する。既存のMoEでは、特定のドメイン向けに専門家の一部のみに推論を制限すると、性能が著しく低下するという課題があった。

Ryan Wang氏、Akshita Bhagia氏、Sewon Min氏らによるEMOの主要なアイデアは、類似ドメインのトークンが類似の専門家群に依存するように促す点にある。文書内のトークンが共通のドメインを共有するという性質を利用し、EMOは同じ文書内のトークンを共有プールから専門家を選択するように制約する一方、異なる文書には異なるプールを使用することを許可する。

研究チームは、1兆トークンを用いて1Bアクティブ、14BトータルのEMOを事前学習した。その結果、EMOはフルモデルとして標準的なMoEの性能に匹敵した。さらに重要な点として、EMOは専門家の選択的な利用を可能にする。専門家のわずか25%を保持した場合でも、絶対的な性能低下は1%に留まり、12.5%の保持では3%の低下だった。これは、同様の設定で機能しなくなる標準的なMoEとは対照的な結果である。

また、EMOにおける専門家サブセットは、標準的なMoEで観察される低レベルの構文的な専門化とは異なり、数学やコードといったセマンティックレベルのドメインで専門化することが判明した。これらの結果は、大規模で疎なモデルのモジュール式かつメモリ効率の高いデプロイメントへの道筋を示し、構成可能なアーキテクチャの新たな機会を開くものと見られる。


参考: arXiv cs.CL (アーカイブ) — 2026年5月8日 02:59 (JST)

原文ハイライト

"retaining only 25% (12.5%) of experts incurs just a 1% (3%) absolute drop"

この記事をシェア
X はてブ LinkedIn