Import AIは5月4日(現地時間)、AIシステムが自ら後継システムを構築する「人間が関与しないAI R&D」が2028年末までに60%以上の確率で実現する可能性を指摘した。同媒体のJack Clark氏は、AI研究がエンドツーエンドで自動化される時代の到来が近いと強調。ただ、2026年中の実現はないものの、1〜2年以内には「モデルがエンドツーエンドで後継を訓練する」という概念実証が出現する可能性も示唆した。

この予測の根拠として、arXiv、bioRxiv、NBERで公開された論文、およびフロンティア企業が展開する製品からの公開情報が挙げられている。

同媒体は、現在のシステム開発におけるエンジニアリング要素を自動化するための全てのピースが既に揃っていると結論付けている。また、スケーリングのトレンドが継続すれば、システムが人間研究者の代替として、新しい研究経路のための創造的なアイデアを提供し、フロンティアを推進する可能性があると述べている。

コーディング能力の進展を示す例として、SWE-Benchの評価が引用された。初期のClaude 2が約2%の成功率だったのに対し、Claude Mythos Previewは93.9%に達し、ベンチマークが事実上飽和している状況にある。多くのフロンティア研究所やシリコンバレーの技術者は、現在、完全にシステムを介してコーディングを行っており、テスト作成やコードチェックにも活用しているという。

また、METRのデータからは、システムが独立してタスクを完了できる時間の増加が示されている。2022年のGPT 3.5は約30秒のタスクに対応したが、2026年のOpus 4.6は既に約12時間のタスクをこなしている。METRのAI予測者であるAjeya Cotra氏は、2026年末までにシステムが約100時間かかるタスクを実行できるようになる可能性もあると見ている。この独立して作業できる時間の劇的な増加は、エージェント型コーディングツールの製品化と相関しており、R&Dにおける多くのタスクが現代のシステムの対応範囲内に収まっていることを示唆している。

さらに、システムは科学論文の再現、機械学習技術の結合、システム自体の最適化といった研究に不可欠な科学的スキルにおいても進歩を見せている。CORE-Benchのようなベンチマークでは、科学論文の実装と実験の実行において大きな進展が報告されている。


参考: Import AI (Jack Clark) — 2026年5月4日 21:32 (JST)

原文ハイライト

"AI systems are about to start building themselves."

この記事をシェア
X はてブ LinkedIn