【速報】Together AI、MiniMax M3の推論効率化技術とホスティングを発表

Together AIは2026年6月1日(現地時間)、MiniMaxの最新モデルM3について、同社がプリファードクラウドパートナーとして効率的な推論を実現したと発表した。同社の推論およびカーネルチームは、KV-Block-Major sparse attention kernelなどの主要な最適化により、異なる同時実行レベルで81%から125%のスループット向上を達成した。MiniMax M3はオープンウェイトモデルとして公開後、Together AIが開発者向けエンドポイントとしてホストする。

Together AIがMiniMax M3のために実現した主要な最適化には、KV-Block-Major sparse attention kernel、MiniMax Sparse Attention (MSA) 向けに統合されたpaged attention、高度に最適化されたindex scoring kernel、およびRustベースのマルチモーダル前処理ゲートウェイが含まれる。

MiniMax M3は、1Mトークンのコンテキストウィンドウ、ネイティブマルチモーダリティ、エージェントワークフローサポート、最先端のコーディング性能を兼ね備えたオールインワンモデルである。MiniMax Sparse Attention (MSA) は、MiniMax M2.7で課題となっていたアテンション計算のボトルネックに対処するために設計された。これにより、プリフェッチステージで9倍以上、デコードステージで15倍以上の高速化を達成する。

M3は、視覚コンポーネントと新しい画像および動画前処理機能も搭載し、マルチモーダルサポートを提供する。Together AIはMiniMaxのエンジニアリングチームと緊密に連携し、1Mコンテキスト長のサポートや画像・動画処理の複雑さといった新たな課題に取り組んだ。

参考: Together AI Blog (アーカイブ) — 2026年6月2日 09:00 (JST)