AI Edgeline
最新まとめ【速報】公式VCベンダー論文音声規制About
キーワードを入力
    最新まとめ【速報】公式VCベンダー論文音声規制About
    キーワードを入力
      最新
      ベンダー・製品 【速報】Vercel、Hobbyユーザー向けBlobストア制限を緩和 ベンダー・製品 Tesla、FSD v14.3.4ロールアウト開始 ニューラルネットモデル統一 ベンダー・製品 ムーンショットAI、1兆パラメータのコーディング特化MoEモデル「Kimi K2.7-Code」をオープンソース公開 ベンダー・製品 【速報】アンソロピック、米政府指令でFable 5とMythos 5のアクセス停止 リサーチ・論文 arena.ai、LLMテキストカテゴリEloランキング6月版を発表 ベンダー・製品 【速報】Vercel、Workflow SDKのNitro v3ネイティブ統合ベータ版を提供 リサーチ・論文 OpenAI WebRTC Audio Session、文書コンテキスト対応で開発者実務に深化 ベンダー・製品 GitHub Copilot CLI、サブエージェント委譲の選択性を改善 VC・資金調達 SpaceXが史上最大のIPO実施、評価額2.1兆ドルに到達 リサーチ・論文 Epoch AI、数学ベンチマーク「FrontierMath v2」公開 旧版42%に誤り ベンダー・製品 【速報】NVIDIA、初のAgentic AIベンチマークでBlackwell Ultra NVL72が性能を主導 リサーチ・論文 【速報】Microsoft、自律型エージェントIreでLOTUSLITE亜種を検出 リサーチ・論文 Claude Fable 5が最優良モデルと評価、Anthropicのセーフガードに注目 ベンダー・製品 Cohere、オープンウェイトの30B MoEコーディングモデル「North Mini Code」を発表 リサーチ・論文 【速報】Google、退役スマホ活用で低炭素コンピューティングプラットフォーム構築を発表
      1 / 15

      Tag

      #FrontierMath

      1 件の関連記事

      リサーチ・論文 · 6月14日 07:18 注目

      Epoch AI、数学ベンチマーク「FrontierMath v2」公開 旧版42%に誤り

      Epoch AIは2026年6月12日(現地時間)、数学能力評価ベンチマーク「FrontierMath: Tiers 1–4」のバージョン2を公開した。元のベンチマークに含まれる問題の42%に軽微ながらも重要な誤りが存在したことが監査で判明し、修正が施された。新しいバージョン2では、AIモデルのスコアが全体的に上昇しており、Anthropicの「Claude Fable 5」がTier 1–3で87%、Tier 4で88%を達成し、現在首位に立っている。

      epochai.substack.com 続きを読む →
      AI Edgeline

      シリコンバレーの超最前線の AI 情報を、毎日最速でアップデート。一次情報を、新聞記事スタイルで届けます。

      カテゴリ

      • 【速報】公式 24h 以内
      • メーカー公式発表
      • VC・資金調達
      • ベンダー・製品
      • リサーチ・論文
      • ポッドキャスト
      • 規制・政策

      編集について

      • 編集方針
      • RSS フィード
      • X (旧 Twitter)
      • GitHub

      すべての記事に原文へのリンクと公開日時を併記しています。一次情報の信頼性を最優先に運営しています。

      © 2026 AI Edgeline