Epoch AIは2026年6月16日(現地時間)、同社の機械学習 (ML) モデルデータベースを更新した。このデータベースは3500を超えるMLモデルの主要な要素を追跡しており、訓練Compute (FLOP)、パラメータ数、データセットサイズ、訓練コスト、電力消費、訓練時間 (日数) といった情報を網羅している。
更新されたデータベースには、Notable AI models、Frontier AI models、Large-scale AI models、そして全てのAIモデルに関するデータが含まれる。これらのデータはCSV形式でダウンロード可能であり、Notable AI Models CSVは2026年6月16日、Large-Scale AI Models CSVは2026年6月10日、Frontier Models CSVは2026年6月8日、All Models CSVは2026年6月16日にそれぞれ更新されている。
データベースに掲載されるモデルのデータは、文献レビュー、Papers With Code、歴史的記述、引用数の多い出版物、主要な会議の議事録、個人の提案など、様々な情報源から収集されている。掲載モデルは、発表時にState-of-the-artであった、1000を超える引用数を持つ、over a million monthly active users、または同等の歴史的重要性を持つものとされている。訓練Computeなどの詳細は、可能な限り出版物から直接収集されるが、モデルアーキテクチャや訓練データ、訓練ハードウェア、期間などの情報から推定される場合もある。
データベース内のデータは、Creative Commons Attribution licenseの下で自由に使用、配布、複製が可能とされている。訓練Compute、パラメータ数、データセットサイズの不確実性に基づいて記録はラベル付けされており、「Confident」はwithin 3x、「Likely」はwithin 10x、「Speculative」はwithin 30xの精度であると説明されている。データセットは、学術出版物、プレスリリース、オンラインニュースなど、様々な情報源を監視することで常に最新の状態に保たれている。Google Search APIを用いた自動検索プロセスにより毎週新しいモデルが特定され、Epoch AIのスタッフによる手動識別によって補完される。主要なモデルはリリースから2週間以内に追加されるべきであるとされている。
参考: epoch.ai — 2026年6月13日 09:00 (JST)
原文ハイライト"Our comprehensive database of over 3500 models tracks key factors driving machine learning progress."