Epoch AIは2026年6月26日(現地時間)、長時間にわたるAIのコーディング能力を評価するための新たなベンチマーク「MirrorCode」を発表する論文を公開した。このベンチマークは、AIが元のソースコードにアクセスせずにプログラム全体をエンドツーエンドで再実装する能力を測定する目的で設計されており、数週間に及ぶコーディングタスクの実行可能性を示している。
Epoch AIが発表した「MirrorCode」ベンチマークは、AIが大規模なコーディングタスクを自律的に完了できることを示す証拠を提供している。2026年4月10日(現地時間)付けのレポートMirrorCode: Evidence that AI can already do some weeks-long coding tasksによると、AIモデル「Claude Opus」が、16,000行に及ぶ生物情報学ツールキットを自律的に再実装した。これは、人間であれば数週間かかると見られる複雑な作業量に匹敵する。
「MirrorCode」は、特にAIが既存のプログラムを参照することなく、その機能要件を満たすコードをゼロから生成する能力に焦点を当てている。これは、AIがより複雑なソフトウェア開発プロセスにおいて、人間の開発者を支援するだけでなく、一部のタスクを完全に自律的に処理できる可能性を示唆している。ベンチマークの設計においては、実際の開発環境で直面する課題を反映するため、詳細な仕様記述やテストケースといった限定的な情報のみをAIに与えることで、その真の能力を評価している。このアプローチにより、AIの長期的な計画立案能力や、コード生成からデバッグ、テストまでのエンドツーエンドのワークフローを管理する能力が試される。
研究開発チームは、このベンチマークが今後の大規模言語モデル(LLM)の進化を加速させ、より高度なAIアシスタントや自動化された開発ツールの開発に寄与することを期待している。現在のAIモデルが既に一定レベルの自律的なコーディング能力を有していることが示されたことで、ソフトウェア開発の未来におけるAIの役割について、さらなる議論が促進されるだろう。
「MirrorCode」の開発には、Tom Adamczewski、David Owen、David Rein、Florian Brand、Giles Edkins、Allen Hart、およびDaniel O’Connellが関与している。
参考: epoch.ai — 2026年6月25日 09:00 (JST)