EMO: 事前学習でモジュール性が創発するMoEモデル発表

Allen Institute for AIは2026年5月8日(現地時間)、人間が定義した事前知識に頼らず、データから直接モジュール構造が創発するよう事前学習された新しい専門家混合 (MoE) モデル「EMO」を公開した。EMOは、特定のタスクにおいて総専門家のわずか12.5%を使用するだけでほぼフルモデルの性能を維持できる。同時に、全専門家を使用する際には強力な汎用モデルとしても機能する。

大規模言語モデルは通常、単一の統一されたシステムとして訓練・展開される。しかし、コード生成や数学的推論、ドメイン固有の知識など、特定の機能のみが必要となるアプリケーションも存在する。フロンティア言語モデルが数兆パラメータに達する中、フルモデルの利用や適応は多くのユーザーにとって非実用的となり、不要な計算コストやメモリ消費が発生している。

専門家混合 (MoE) モデルは、この制約を緩和する自然な方法と考えられている。MoEは各層で多数の小さなフィードフォワードネットワーク（専門家）を含み、入力トークンごとに少数の専門家のみを活性化する。しかし、既存のMoEでは専門家が低レベルの語彙パターンに特化しがちであり、タスクで少数の専門家のみを使用すると性能が著しく低下するという課題があった。

EMOは、モジュール性を第一級の目的として訓練されたMoEモデルである。このモデルは1Bアクティブ、14B総パラメータ（8アクティブ専門家、128総専門家）で構成され、1兆トークンで訓練された。EMOは、特定のドメイン（数学、コード、生物医学など）に対し、任意のサイズの少数の専門家サブセットを選択して使用しても、ほぼフルモデルの性能を維持できることを示している。

EMOは、ルーターが文書内のトークンに対して共通の専門家プールを選択させることで、訓練中にモジュール構造を創発させる。これにより、文書全体で一貫した専門家利用が強制され、専門家グループがドメイン特化することを促す。また、負荷分散をグローバルなスケールで適用することで、訓練の安定性を確保した。

汎用ベンチマークにおいては、EMOは標準的なMoEモデルと同等の性能を示し、モジュール性目標がフルモデル性能を損なわないことを実証した。EMOが専門家の25%（32専門家サブセット）を使用した場合でも、約1%の性能低下に留まることを示した。これは、単一のモデルが構成可能なアーキテクチャに変換され、大規模で疎なMoEにおいてメモリ対精度トレードオフを改善し、柔軟な展開を可能にする。

参考: Hugging Face Blog (アーカイブ) — 2026年5月8日 17:01 (JST)