マイクロソフトは2026年6月2日(現地時間)、二つの新しいテキスト大規模言語モデル (LLM) である「MAI-Thinking-1」と「MAI-Code-1-Flash」を発表した。MAI-Thinking-1は推論能力に特化し、一部のアーリーパートナー向けに提供される。MAI-Code-1-FlashはGitHub CopilotとVisual Studio Codeでの高性能かつ低コストな利用を目的として開発され、GitHub Copilotの個人ユーザーへ順次展開される見通し。
MAI-Thinking-1は1兆パラメーター、うち350億がアクティブなモデルであり、同社はブラインド評価においてSonnet 4.6よりも高い評価を受けたと主張している。このモデルは、企業グレードのクリーンで商用ライセンスされたデータのみを用いて、サードパーティモデルからの蒸留なしにゼロから学習されたと説明されている。
一方、MAI-Code-1-Flashは1370億パラメーター、うち50億がアクティブなモデルで、マイクロソフトがクリーンかつ適切にライセンスされたデータを使用してエンドツーエンドで構築したとされている。
ブログ記事の著者は当初、モデルサイズに関して誤解があったことを訂正し、後に公開されたMAI-Thinking-1の技術論文ではトレーニングデータについて詳細が記述されていることに言及した。それによると、トレーニングデータの大半はプロプライエタリなウェブクロールから得られ、約1.2兆ページがクロールおよび解析された。このプロセスでは、成人向けコンテンツや海賊版関連ドメインを除去するフィルタリングが適用され、コーパスは約7940億ページに減少した。さらに、ウェブ上のAI生成コンテンツを検出するモデルと手動検査により、AI生成コンテンツが多いドメインはトレーニングコーパスから除外された。Common Crawlも同様のパイプラインで処理され、フィルタリングと重複排除後に242億ページが含まれている。
参考: Simon Willison’s Weblog — 2026年6月3日 07:21 (JST)
原文ハイライト"built end-to-end by Microsoft using clean and appropriately licensed data"