リサーチ・論文

Mellum 2技術レポート公開、MoE言語モデルでソフトウェア開発に特化

オープンウェイトのMellum 2 (メラム2)は5月29日(現地時間)、その言語モデルに関する技術レポートを公開した。このモデルは120億パラメータのMixture-of-Experts (MoE)モデルであり、トークンあたり25億のアクティブパラメータを持つ。Mellum 2はソフトウェアエンジニアリングに特化した汎用言語モデルとして設計され、コード生成・編集、デバッグ、多段階推論、ツール利用と関数呼び出し、エージェントコーディング、対話型プログラミング支援といった幅広い領域をカバーする。

リサーチ・論文

DECO、Sparse MoEで性能向上 エンドデバイスAIの計算効率改善

arXiv cs.LGは5月11日(現地時間)、Chenyang Song氏らの研究チームが開発した「DECO」を報じた。これはエンドデバイス向けSparse Mixture-of-Experts (MoE) アーキテクチャで、MoEモデルが抱えるストレージやメモリアクセスボトルネックの解消を目指す。DECOは高パフォーマンス、低計算コスト、小さなストレージオーバーヘッドを同時に実現し、限られたリソースのエッジAI環境での高速化に貢献するとされる。報告によると、Dense Transformerと同等の性能を維持しつつ、最大3.00倍の高速化を達成。この技術はAI実用化を加速する上で重要な一歩とみられる。

ベンダー・製品

EMO: 事前学習でモジュール性が創発するMoEモデル発表

Allen Institute for AIは2026年5月8日(現地時間)、人間が定義した事前知識に頼らず、データから直接モジュール構造が創発するよう事前学習された新しい専門家混合 (MoE) モデル「EMO」を公開した。EMOは、特定のタスクにおいて総専門家のわずか12.5%を使用するだけでほぼフルモデルの性能を維持できる。同時に、全専門家を使用する際には強力な汎用モデルとしても機能する。

リサーチ・論文

Zyphra、80億パラメーターMoEモデル「ZAYA1-8B」を発表 推論能力を強化

Zyphraは2026年5月7日(現地時間)、推論に特化した混合エキスパートモデル (MoE)「ZAYA1-8B」の技術レポートを発表した。同モデルは7億のアクティブパラメーターと80億の総パラメーターで構成され、ZyphraのMoE++アーキテクチャを基盤としている。AMDのコンピューティングプラットフォームで訓練され、10億未満のアクティブパラメーターながら、数学やコーディングのベンチマークでDeepSeek-R1-0528を上回る、または同等の性能を示したと報告されている。

リサーチ・論文

MoE向け新アーキテクチャ「UniPool」、グローバル共有エキスパートプール導入

arXiv cs.LGは2026年5月7日(現地時間)、Minbin Huang氏らがMixture-of-Experts (MoE) アーキテクチャの新しい設計「UniPool」を提案したと報じた。UniPoolは、従来層ごとに独立していたエキスパートセットをグローバルな共有プールとして扱い、各層のルーターからアクセスさせる構造を持つ。この設計変更により、LLaMAアーキテクチャの多様なモデルスケールにおいて、既存のMoEと比較して検証損失とパープレキシティの改善が確認された。

リサーチ・論文

EMOがモジュール性高いMoE実現 大規模モデルの選択的専門家利用に道

論文公開サイトarXiv cs.CLが2026年5月7日(現地時間)付けで報じたところによると、大規模言語モデル (Large language models) のモジュール性を高める新しいMixture-of-Experts (MoE) モデル「EMO」が発表された。EMOは、事前学習中に文書の境界のみを用いて、人間の定義する事前知識なしで首尾一貫した専門家グループを形成する。これにより、メモリ制約のある環境での大規模疎モデルの実用性が向上する可能性が示されている。