One Useful Thingは6月30日(現地時間)、AIモデルの性能向上に伴い、その活用方法が従来のチャットボットによる共同作業から、自律的な「エージェント」への作業割り当てへと変化していると報じた。メトル (METR) や英国政府AIセキュリティ研究所 (UK’s official government AI Security Institute) などの評価では、AIの能力は指数関数的な速度で向上しており、オープンAIOpenAI 社内では従業員の約4分の1が週に少なくとも4つのエージェントを同時に実行しているという。

AIの能力向上は複数の評価機関によって確認されている。メトル (METR) と英国政府AIセキュリティ研究所 (UK’s official government AI Security Institute) は、AIが単一のプロンプトで実行できるプログラマーの作業時間を測定しており、これらの数値は指数関数を上回るペースで増加している。また、エポック (Epoch) の実験では、Opus 4.7が14時間の自律作業で、人間であれば2~17週間かかるソフトウェアパッケージを構築した事例も報告された。この作業にかかったトークン費用は251ドルだった。

最先端のAIモデルはAnthropic、オープンAIOpenAI、Google といった米国企業が開発している。これら独自のモデルに対し、公開されているオープンウェイトモデル (open weights models) は通常、最先端から6~12ヶ月遅れており、主に中国企業によって提供されている。これらのモデルもまた、AA-BriefcaseというAI性能テストで示されているように、指数関数的な改善カーブをたどっている。

AIの利用方法は、人間がAIの各ステップを監視・指示する「co-intelligence」型から、自律的に機能するエージェント (agents) への移行が進む。エージェントはツールや実行環境へのアクセスを提供するハーネス (harnesses)や、Claude Code、オープンAIのCodex などの専用アプリと連携し、さらに能力を向上させる。オープンAIと学術エコノミストによる共同研究では、同社内でプログラマーだけでなく、法務や人事といった非技術職もほぼ同等の割合でエージェントを導入していることが示された。オープンAIの業務はAIを管理する形へと変化している。

この変化に伴い、コーディング作業はAIが専門のハーネスやアプリで実行するようになり、他の職種も一種の「コーダー」になりつつある。Claude Codeを利用するユーザーを対象とした別の調査では、ソフトウェアエンジニアと他の職種の間で、コーディングタスクの成功率に差は見られなかった。重要なのはユーザーの専門知識であり、特定のドメインにおける経験が深いほど、Claudeからの有用な出力が得られる傾向にある。これは、非専門家がギャップを埋めるためにチャットボットを利用する世界から、専門家がエージェントを活用して作業を完遂する世界への移行を示唆していると指摘されている。


参考: One Useful Thing (Ethan Mollick) (アーカイブ) — 2026年7月1日 07:18 (JST)

原文ハイライト

"Increasingly, work at OpenAI looks like managing AI."

この記事をシェア
X はてブ LinkedIn