Epoch AI、数学ベンチマーク「FrontierMath v2」公開 旧版42%に誤り
Epoch AIは2026年6月12日(現地時間)、数学能力評価ベンチマーク「FrontierMath: Tiers 1–4」のバージョン2を公開した。元のベンチマークに含まれる問題の42%に軽微ながらも重要な誤りが存在したことが監査で判明し、修正が施された。新しいバージョン2では、AIモデルのスコアが全体的に上昇しており、Anthropicの「Claude Fable 5」がTier 1–3で87%、Tier 4で88%を達成し、現在首位に立っている。