AI、週単位のコーディングプロジェクト56%解決 METRとEpoch AIが新ベンチマーク発表
Epoch AIとMETRは2026年6月27日(現地時間)、AIが人間にとって数週間を要するソフトウェアプロジェクトの56%を自律的に再構築可能であることを示す新ベンチマーク「MirrorCode」の最終結果を発表した。最良のモデルとされるClaude Opus 4.7は、25の長期的コーディング評価タスクにおいて56%を達成。この成果には、16,000行のGoコードで構成されるバイオインフォマティクスツールキット「gotree」の14時間での再実装が含まれ、これは人間換算で2〜17週かかると見積もられている。