マイクロソフト、新MAIモデル3種発表へ Build 2026で

Microsoftは6月2日(現地時間)、開発者会議「Build 2026」で、新たなMAIモデル3種「MAI-Image 2.5」「MAI-Transcribe 1.5」「MAI-Voice 2」を発表する見通しです。これらのモデルは、同社のMicrosoft AI（MAI）ポートフォリオを拡充し、マルチモーダルおよび音声中心のサービスを強化するとされます。サンフランシスコで開催される同会議で、その詳細が明らかにされると予想されています。

MAI-Image 2.5は、テキストから画像を生成するモデルの最新版で、画像忠実度、解像度、プロンプト解釈の改善が示唆されています。特定の照明条件やカメラアングル、芸術スタイルなどのニュアンスをより正確に反映したビジュアルを生成する能力が向上したと報じられています。さらに、リアルタイムアプリケーション向けに遅延の削減が期待され、インペインティング（Inpainting）やアウトペインティング（Outpainting）機能の改善も報じられています。

MAI-Transcribe 1.5は、音声認識（Speech-to-Text）モデルの更新版です。複数の言語や挑戦的な音響環境において、より高い精度を目指しています。新たなアーキテクチャとして、異なる言語や方言、ノイズプロファイルに応じて専門のサブネットワークを動的に選択するミクスチャー・オブ・エキスパート（mixture-of-experts）アプローチを採用。多くの言語で遅延を200ミリ秒未満に短縮し、リアルタイム処理を強化します。医療、法律、技術分野の専門用語に特化した認識機能も提供され、エッジデバイス上での動作も可能となり、データ主権が重視される環境や低帯域幅の環境に対応すると見られています。

MAI-Voice 2は、テキスト読み上げ（Text-to-Speech: TTS）モデルのアップグレード版です。感情豊かな音声生成が可能となり、文章の感情的な起伏を理解し、トーン、ペース、ピッチを調整して悲しみ、興奮、皮肉、緊急性などを表現するとされます。笑い声、ため息、思慮深い間など、非言語的な手がかりも付与される可能性があります。企業向けには、わずか数分の録音からブランディングされた音声を生成する機能も提供され、モデルサイズも40%縮小されると報じられています。

これらの3つの核となるモデルの同時発表は、MicrosoftのAI戦略において重要な意味を持つと見られます。Microsoftは、Azure AIサービスやCopilot、Windowsにこれらの技術を統合し、開発者エコシステム全体への展開を目指しています。

参考: windowsnews.ai (アーカイブ) — 2026年5月31日 10:06 (JST)