JetBrainsは2026年5月31日(現地時間)、自然言語とコードでゼロから学習した12BパラメータのMixture-of-Experts (MoE) モデル「Mellum2」を発表した。このモデルは、トークンごとに2.5Bのパラメータのみをアクティブにするため、高スループットかつ低レイテンシーの推論に効率的である。Apache 2.0ライセンスのもとで公開された。
Mellum2は、低レイテンシーのテキストとコードのワークロード向けに最適化されたオープンなMixture-of-Expertsモデルとして提供される。このモデルは、コード補完モデルとして始まったMellumの基盤を、自然言語およびソフトウェアエンジニアリングのより広範なタスクに拡張しつつ、効率的な推論とデプロイのしやすさに重点を置いている。
ベンチマーク評価によると、Mellum2は同規模のオープンモデルと比較して競争力のある性能を示し、推論速度は2倍以上高速である。これにより、高スループットのプロダクションワークロードに適している。モデルのパラメータ総数は12Bだが、トークンごとに2.5BのパラメータのみがアクティブになるMoEアーキテクチャを採用しており、推論効率を高め、リアルタイムワークロードにおけるサービスコストを削減する。
Mellum2の主要なユースケースには、プロンプト分類やツール選択を含むマルチモデルシステムでのルーティングおよびオーケストレーション、コンテキスト圧縮や要約などのRAG (Retrieval-Augmented Generation) パイプライン、計画や検証といったエージェントのサブタスクが含まれる。また、オープンかつ効率的であるため、プロプライエタリなコードや内部データに関わる自己ホスト型環境でのプライベートデプロイメントも可能である。JetBrainsはMellum2を、大規模AIシステム内で高頻度タスク向けに最適化された「フォーカルモデル」と位置づけている。
参考: Hugging Face Blog (アーカイブ) — 2026年6月1日 15:40 (JST)
原文ハイライト"Mellum2 is intentionally focused on text and code rather than multimodal tasks."