Microsoftは6月2日(現地時間)、開発者会議Buildにおいて、推論に特化した「MAI-Thinking-1」を筆頭とする7種類の新しいMAIモデルを発表した。これらMAIモデル群は、MicrosoftとInflectionの契約から2年で開発されたゼロからの事前学習モデルであり、推論、コード生成、画像処理、音声文字変換、および音声関連機能を幅広くカバーする。同社は自身をAIプラットフォーム企業とフロンティアモデルラボの両方として位置づけている。

MicrosoftはBuildを通じ、広範な製品発表と新しいMAIモデル群に関する詳細な情報開示を行った。同社は、これら7つのMAIモデルが、MicrosoftとInflectionの契約から2年で開発された、ゼロからの事前学習モデルであると発表した。

主力モデルである「MAI-Thinking-1」は、Microsoftのムスタファ・スレイマン氏の投稿によれば、クリーンなデータ系統と第三者モデルからの蒸留なしに構築された、Microsoft初の推論モデルと紹介された。35BアクティブパラメータのMoE(Mixture of Experts)アーキテクチャを持ち、256Kのコンテキストウィンドウを特徴とする。このモデルは、Microsoftが主張するところによれば、AIME 2025で97%、SWE-Bench Proで53%の性能を達成している。

コーディングモデルのMAI-Code-1-Flashは、ムスタファ・スレイマン氏によるMicrosoftの公式メッセージによれば、わずか5BパラメータでありながらSWE-Bench Proにおいて51%の性能を達成し、VS CodeとGitHub Copilot CLI向けに提供される。画像モデルの「MAI-Image-2.5」とそのFlash variantは、Microsoftが主張するところによれば、画像編集リーダーボードで2位にランクインした。

音声文字変換モデルのMAI-Transcribe-1.5は、ArtificialAnlysの報告によれば、約276倍のリアルタイム処理速度と2.4%のAA-WER(Average Absolute Word Error Rate)を記録し、日本語を含む43言語に対応する。価格はMicrosoft Foundry経由で1,000分あたり6ドルとされている。

また、MicrosoftはローカルAIとエージェントネイティブWindows、およびAIエージェント向けの新しい検索APIスタックであるWeb IQの導入も強調した。


参考: Latent Space — 2026年6月3日 14:49 (JST)

この記事をシェア
X はてブ LinkedIn