Epoch AIとMETRは2026年6月27日(現地時間)、AIが人間にとって数週間を要するソフトウェアプロジェクトの56%を自律的に再構築可能であることを示す新ベンチマーク「MirrorCode」の最終結果を発表した。最良のモデルとされるClaude Opus 4.7は、25の長期的コーディング評価タスクにおいて56%を達成。この成果には、16,000行のGoコードで構成されるバイオインフォマティクスツールキット「gotree」の14時間での再実装が含まれ、これは人間換算で2〜17週かかると見積もられている。
MirrorCodeベンチマークは、既存のコードベースの単一バグ修正や小規模な機能実装を評価する従来のAIコーディングベンチマークとは異なり、AIモデルがソースコードを閲覧することなく、コンパイル済みバイナリ、自然言語ドキュメント、入出力ペアのみからプログラムの完全な挙動を再構築する能力を測定する。この評価中、AIはインターネットにアクセスしたり、人間の介入を受けたりすることはない。
採点メカニズムは、メモリ化による不正解を防ぐため、可視テストセットと非公開テストセットの両方でバイト単位の完全一致を要求する。平均34%のテストがAIに非公開のまま保持され、モデルがオリジナルソース関数を再現する試みでも、ベースラインの類似性スコア0.34が示され、メモリ化に主として依存していないことが確認された。
ベンチマークのデータポイントの中で最も極端な事例として、25のターゲットプログラムのうち1つは、単一の試行に2,600ドルの推論コストと19日間の継続作業を要した。Claude Opus 4.7はgotreeの再実装に14時間を要し、2,001テスト中2,000テスト(99.95%)を251ドルのコストでクリアした。8ヶ月前の主要なAIモデルは同ベンチマークで約30%のスコアであり、より単純なタスクに限定されていた。GPT-5.5は全体の2位、Gemini 3.1 Pro Previewは32%で3位に位置した。
一方で、大規模プログラム、例えば61,461行のコードを持つ設定言語インタープリタ「Pkl」などは、テストされたどのモデルも解決できなかった。Pklの失敗例では、Claude Opus 4.6が遅延評価アーキテクチャが必要であると正しく診断したにもかかわらず、必要なリファクタリングを実行できず、誤ったアーキテクチャ基盤の上で反復を続けた。これは、現在のエージェントシステムの具体的な限界を示すものとMETRの研究者であるデイビッド・ライン (David Rein) 氏は指摘している。
研究者らは、MirrorCodeがAIの実行能力を実証するものであり、現実世界のソフトウェア開発において通常は初期段階で存在しない、正確でプログラム的に検証可能な要件を発見する能力を示すものではないと述べている。
参考: techtimes.com (アーカイブ) — 2026年6月28日 01:37 (JST)
原文ハイライト"AI agents can sustain goal-directed software development across task horizons previously studied"