Epoch AI、数学ベンチマーク「FrontierMath v2」公開旧版42%に誤り

Epoch AIは2026年6月12日(現地時間)、数学能力評価ベンチマーク「FrontierMath: Tiers 1–4」のバージョン2を公開した。元のベンチマークに含まれる問題の42%に軽微ながらも重要な誤りが存在したことが監査で判明し、修正が施された。新しいバージョン2では、AIモデルのスコアが全体的に上昇しており、Anthropicの「Claude Fable 5」がTier 1–3で87%、Tier 4で88%を達成し、現在首位に立っている。

Epoch AIは、オリジナルベンチマークの42%の問題に軽微だが重要な誤りがあったことを監査で確認した結果、その修正を経てバージョン2をリリースした。この修正により、モデルのランキングは類似しているものの、全体的なスコアは上昇した。

Anthropic の最新モデル「Claude Fable 5」は、公開されたFrontierMath: Tiers 1–4のリーダーボードでトップを獲得した。Fable 5はTier 1–3で87%、Tier 4で88%のスコアを記録した。これはアンソロピックモデルの数学能力における急速な改善の継続を示している。Fable 5は、同社の「Mythos」モデルの公開版である。

同社は同日、Cyber Vulnerabilities explorerも発表した。これは、AI能力がサイバーセキュリティに与える影響を定量化するためのツールである。2022年以降、CVE Programに報告された脆弱性を追跡し、Microsoft、Google、Apple、Linuxといった21の主要ベンダーやオープンソースプロジェクトでフィルタリングできる。

データインサイトとして、単一データセンターのコンピューティング能力の記録が、2024年8月のSpaceXAIの「Colossus 1」の立ち上げ以来、7ヶ月ごとに倍増していると報告した。Anthropic-Amazon New Carlisle、Microsoft Fairwater Atlanta、Meta Prometheusといった施設がそれぞれ一時的にトップを獲得している。

さらに、2023年に始まったAIインフラブームが、米国GDPに占めるコンピューティングインフラの割合を倍以上に押し上げたとしている。2026年第1四半期には、AI関連のデータセンター建設、コンピューティングハードウェア、ネットワーク機器への投資が米国GDPの約0.8%を占め、コンピューティングインフラ全体ではGDPの約1.5%に達した。これは2015年から2022年の平均約0.7%からの増加であり、AIインフラは米国における民間投資の主要な成長ドライバーとなっている。

参考: epochai.substack.com (アーカイブ) — 2026年6月13日 06:01 (JST)