Mellum 2技術レポート公開、MoE言語モデルでソフトウェア開発に特化

オープンウェイトのMellum 2 (メラム2)は5月29日(現地時間)、その言語モデルに関する技術レポートを公開した。このモデルは120億パラメータのMixture-of-Experts (MoE)モデルであり、トークンあたり25億のアクティブパラメータを持つ。Mellum 2はソフトウェアエンジニアリングに特化した汎用言語モデルとして設計され、コード生成・編集、デバッグ、多段階推論、ツール利用と関数呼び出し、エージェントコーディング、対話型プログラミング支援といった幅広い領域をカバーする。

Mellum 2は、完成に焦点を当てた40億パラメータの密なMellumモデルの後継である。そのアーキテクチャはMixture-of-Experts (MoE、64エキスパート、8アクティブ)を基盤とし、Grouped-Query Attention (GQA、4 KVヘッド)、4層ごとに3層に適用されるSliding Window Attention、および補助的な事前学習目的と投機的デコーディングのための組み込みドラフトモデルを兼ねる単一のMulti-Token Predictionヘッドを組み合わせる。これらの設計上の選択は、コモディティGPU上での推論効率を制約としてアブレーションにより検証された。

事前学習は約10.6兆トークンにわたり、3段階のカリキュラムを通じて行われた。このカリキュラムは、多様なウェブデータから厳選されたコードおよび数学コンテンツへと混合比率を段階的にシフトさせる。最適化はFP8ハイブリッド精度とMuonによって行われ、線形減衰を伴うWarmup-Hold-Decayスケジュールが採用された。事前学習されたベースモデルは、layer-selective YaRNを介して128Kのコンテキストウィンドウに拡張された。

その後、モデルは教師ありファインチューニングとRLVRの2段階で後学習された。これにより、直接回答するInstructモデルと、最終回答の前に明示的な推論トレースを出力するThinkingモデルの2つのバリアントがリリースされた。コード生成、数学と推論、ツール利用、知識、安全性ベンチマークにおいて、Mellum 2は40億から140億パラメータのオープンウェイトベースラインと同等の競争力を持つ性能を示しつつ、25億パラメータの密モデルのトークンあたりの計算コストで動作する。ベース、Instruct、Thinkingの各チェックポイントは、アーキテクチャ決定、データパイプライン、および訓練レシピに関するこのレポートと共に、Apache 2.0ライセンスの下で公開された。この技術レポートは、学術論文公開サイトarXiv cs.CLで公表された。

参考: arXiv cs.CL (アーカイブ) — 2026年5月29日 22:01 (JST)