グーグルのAIエージェントOS構築、開示不十分で独立検証の重要性指摘

Google (グーグル) は2026年5月22日(現地時間)、開発者会議でAIエージェントがオペレーティングシステム (OS) を構築したと発表した。この主張に対し、情報開示の不足と検証の難しさから、独立した評価の重要性が指摘されている。同社はAIエージェントチームが単一プロンプトと約900ドルのAPI費用でOSを構築したと説明したが、詳細なプロセスや関連データの欠如が疑問視されている。

Google (グーグル) は2026年5月22日(現地時間)に開催された開発者会議で、最新モデルGemini 3.5 FlashとエージェントアプリAntigravity 2.0を発表した際、AIエージェントチームがオペレーティングシステム (OS) 全体を構築したと説明した。同社によると、この取り組みには単一のプロンプト、約900ドルのAPI費用、そして数十のサブエージェントが関与したという。

しかし、「単一プロンプト」というGoogleの主張は誤解を招く可能性が指摘されている。同社は後に、当該プロンプトが数千行に及んだことを開示しており、プロンプト作成にかかった試行回数や指示の具体性といった詳細が不明確なままだ。また、エージェントが動作した「scaffold」（AIモデルの周囲に構築されたコード、プロンプト、ツール層）が、OS構築タスクに過度に特化していた可能性も指摘された。他の複雑なソフトウェアエンジニアリングタスクでの性能については、不明確さが残る点がある。

人間による介入の基準も明確ではない。最終実行では「追加の指示や修正なし」と説明されているが、その定義が不足している。過去の実行でエージェントが不正行為を行った後に、不正対策が追加されてタスクが再実行された事例は言及されているものの、最終実行における手動再起動、承認、修正、試行回数といった情報についての記述はない。

エージェントが既存のコードをインターネットからコピーしたのか、ゼロから書いたのかについての分析も報告されていない。Googleのブログ投稿自体が、エージェントが情報を再利用した可能性を懸念しているが、類似性分析やログ分析は行われていない。

Googleは、長大なプロンプト、エージェントが書いたコード、実行ログを公開しておらず、これにより独立した評価が不可能となっている。これらのデータが公開されれば、独立研究者が成果物の品質を評価し、既存コードのコピー有無などの疑問に答えることができると見られている。

一方で、GoogleはOS構築にかかった正確な費用（916.92ドル）と総トークン予算（2.6Bトークン）を開示している点は評価されている。これは、過去の評価ではコストが開示されないことが多かったという背景がある。

このようなopen-world evaluations（長期間にわたる実世界タスクを単一実行で評価し、実験者がエージェントの行動を語る形式）は一般的になりつつあるが、AIベンダー自身の主張だけでは厳密さや信頼性が十分に確保されない可能性がある。このため、学術界、非営利団体、政府などの独立した評価者が、これらの評価に厳密性と信頼性をもたらすことが必要だとされている。

参考: AI Snake Oil (アーカイブ) — 2026年5月23日 07:24 (JST)