LLM開発半年でモデル競争激化、コーディングAI進化とパーソナルAI台頭

サイモン・ウィリソン氏のブログは2026年5月19日(現地時間)、PyCon US 2026でのライトニングトークの内容をまとめた記事を公開した。記事は、過去6ヶ月間の大規模言語モデル (LLM) の発展に焦点を当て、特に2025年11月を転換点と位置付ける。モデル性能の激しい変遷、コーディングエージェントの品質向上、そして「Claws」と呼ばれるパーソナルAIアシスタントカテゴリの台頭について解説されている。

サイモン・ウィリソン氏の記事によると、2025年11月は大規模言語モデル (LLM) における転換点とされ、特にコーディング分野で重要な月だった。この時期、「最高のモデル」とされるものが、3つの主要プロバイダー間でClaude Sonnet 4.5、GPT-5.1、Gemini 3、GPT-5.1 Codex Max、そしてClaude Opus 4.5へと5回入れ替わった。

11月のもう一つの大きな動きとして、コーディングエージェントの品質が著しく向上した点が挙げられる。OpenAIとAnthropicは2025年の大部分を費やし、Reinforcement Learning from Verifiable Rewardsを用いてモデルが生成するコードの品質向上に取り組んだ。その結果、コーディングエージェントは「しばしば機能する」状態から「ほぼ機能する」状態へと進化し、日常業務で実用的に使えるレベルに達したという。

同じ11月には、ピート氏 (Pete) による「Warelay」というリポジトリへの最初のコミットがあった。このプロジェクトは後に「OpenClaw」と改名され、わずか3ヶ月足らずで注目を集め、「Claws」と呼ばれるパーソナルAIアシスタントのカテゴリを代表する存在となった。この動きに伴い、Clawsを実行するためのMac Miniがシリコンバレー (Silicon Valley) で売り切れる現象も見られた。

2月にはGemini 3.1 Proが登場し、さらにGoogleのジェフ・ディーン氏 (Jeff Dean) がアニメーション動画を公開した。直近の1ヶ月では、GoogleがGemma 4シリーズを発表し、これは米国企業が提供する「オープンウェイトモデル」の中で最も高性能であると評された。また、中国のAI研究機関GLMが1.5TB規模のオープンウェイトモデルGLM-5.1をリリースした。Qwenも他の優れた中国製オープンウェイトモデルを発表し、その中にはノートパソコンで動作するQwen3.6-35B-A3Bのようなモデルも含まれる。

過去6ヶ月間の主要なテーマは、コーディングエージェントの性能向上と、フロンティアモデルよりは劣るものの、ノートパソコンで利用可能なモデルが予想をはるかに上回る性能を示し始めたことであると、ウィリソン氏はまとめている。

参考: Simon Willison’s Weblog (アーカイブ) — 2026年5月19日 10:09 (JST)