Epoch AIは2026年6月26日(現地時間)、新しい長期間コーディングベンチマーク「MirrorCode」のローンチを発表した。このベンチマークは、自律AIのコーディング能力の限界を測定することを目指しており、METRとの共同開発による。また、同社は同年中に主要ハイパースケーラーの設備投資額が営業キャッシュフローを上回るとのデータ分析結果も公開した。さらに、中国のAIラボによる1,604件の求人分析や、AI研究開発の自動化を追跡する新しい分類法についても報告した。
MirrorCodeは、実際のソフトウェアエンジニアリング(SWE)タスクにおけるAIモデルの能力を評価するために設計された。本ベンチマークでは、AIモデルにバイオインフォマティクス、Unixユーティリティ、暗号化、インタープリターなど、25種類の実世界のプログラムをソースコードや人間の介入なしで再構築させる。最も困難なプログラムは、人間のエンジニアが数週間から数ヶ月を要すると推定される。既存のSWEベンチマークの多くがタスクあたりの推論予算を1ドルから10ドル、実行時間を数分から最大数時間に制限しているのに対し、MirrorCodeの最大規模のタスクでは単一実行に2,600ドルを要し、AIが19日間人間の介入なしで稼働した事例がある。現在のところ、Claude Opus 4.7が56%の解決率で他のモデルをリードしており、さらなる改善の余地がある。
データ分析では、上級研究員のイサベル・ジュニウィッツ (Isabel Juniewicz) 氏が、Microsoft、Amazon、Alphabet、Meta、Oracleといった世界最大のハイパースケーラーが、運用からのキャッシュインフローを上回る速さで現金設備投資を増やしていることを発見した。多くのハイパースケーラーは、拡大するAIインフラ投資の資金調達のために外部資金を利用しており、またはその検討を進めている。
Epoch AIは、2つのGradient Updatesも公開した。1つは、シェリル・ウー (Cheryl Wu)、J・S・ドゥナン (JS Denain)、アンソン・ホー (Anson Ho) の3氏が中国の主要6社から1,604件以上のAI関連求人情報を分析し、中国のラボが米国企業と同様に多様な戦略を持っていることを指摘している。もう1つは、ジョー・クォン (Joe Kwon) 氏とEpoch AIのジャン=スタニスラス・ドゥナン (Jean-Stanislas Denain) 氏、アンソン・ホー (Anson Ho) 氏が、フロンティアAI研究に関わる60以上のタスクを詳細に分類する新しい手法を提案している。
参考: epochai.substack.com — 2026年6月27日 01:00 (JST)
原文ハイライト"Hyperscaler capex will overtake operating cash flows by the end of 2026."