Artificial Analysis、AI評価指数をv4.1に更新エージェント指向ワークロードを重視

Artificial Analysis（アーティフィシャル・アナリシス）は2026年6月16日(現地時間)、モデルインテリジェンス評価指標「Artificial Analysis Intelligence Index（アーティフィシャル・アナリシス・インテリジェンス・インデックス）」をv4.1に更新したと発表した。今回の更新では、エージェント指向ワークロードへのシフトが図られ、評価軸の刷新と新たなタスクごとのメトリクスが導入された。総合指数では未利用モデルのClaude Fable 5（クロード・フェイブル・ファイブ）が首位を獲得。利用可能なモデルの中ではClaude Opus 4.8（クロード・オーパス・フォー・ポイント・エイト）が最高スコアを示し、GPT-5.5が続いている。

Artificial Analysis Intelligence Index v4.1の更新内容は主に三点にわたる。

まず、評価軸の更新とエージェント指向タスクへの再重み付けが行われた。Terminal-Bench HardはTerminal-Bench 2.1に、τ²-Bench Telecomはτ³-Bench Bankingにそれぞれアップグレードされ、より現実的なエージェントシナリオに対応するタスクセットが導入された。また、「GDPval-AA」は「GDPval-AA v2」に更新され、Elo評価基準が人間性能の1000に再設定、フロンティアモデルの審査パネル導入、ターン制限が100から250に引き上げられた。飽和状態にあった「IFBench」はIntelligence Indexから除外された。

次に、タスクあたりのコスト（Cost per Task）、タスクあたりの時間（Time per Task）、タスクあたりのトークン数（Tokens per Task）の三つの新しいタスクごとのメトリクスが導入された。これらはモデルがIntelligence Indexを実行する際の総コスト、総時間、総出力トークンをタスク数で割ることで算出される。第三に、キャッシュされた入力トークンとそのコストへの影響が報告されるようになり、各モデルの実際の実行コストがより正確に反映される。

モデル別の主要な結果では、Claude Fable 5（Opus 4.8をフォールバックとして使用）がIntelligence Index v4.1で60ポイントを獲得し、4ポイント差で首位となった。このモデルは現在利用できないため、利用可能なモデルではClaude Opus 4.8（56ポイント）が最もインテリジェントなモデルとされ、GPT-5.5（55ポイント）が続く。オープンウェイトモデルの中では、DeepSeek V4 Pro（ディープシーク・ブイフォー・プロ）とMiniMax M3（ミニマックス・エムスリー）が共同で44ポイントを記録してリードし、Kimi K2.6（キミ・ケイツーポイントシックス）が43ポイント、MiMo-V2.5-Pro（ミモ・ブイツーポイントファイブ・プロ）が42ポイントで続く。

コスト面では、Claude Opus 4.8がタスクあたり1.78ドルで最も高価な利用可能モデルであり、Claude Fable 5はタスクあたり3.25ドルで全体の最高値を示した。GPT-5.5はタスクあたり0.99ドルでClaude Opus 4.8とほぼ同等のIntelligence Indexスコアを達成している。DeepSeek V4 Proはタスクあたり0.04ドルと際立っており、他の主要なプロプライエタリモデルと比較して20倍から45倍安価である。

時間面では、Grok 4.3（グロック・フォーポイントスリー）がタスクあたり1.5分で最速を記録した。Claude Sonnet 4.6（クロード・ソネット・フォーポイントシックス）は13.5分で最も長く、約9倍の差がある。Claude Opus 4.8は6.4分、GPT-5.5は3.7分でタスクを完了する。Gemini 3.1 Pro Preview（ジェミニ・スリーポイントワン・プロ・プレビュー）は1.6分で46ポイントのスコアを達成している。Claude Sonnet 4.6がClaude Opus 4.8よりタスク時間が長いのは、Intelligence Indexの実行により多くの出力トークンを使用するためである。

Intelligence Index v4.1で最も重みが高い評価項目はGDPval-AA v2で、全体の20%を占める。この評価ではClaude Fable 5が1818でトップ、Claude Opus 4.8が1638、GPT-5.5が1531と続いている。その他の評価項目の重みは、Terminal-Bench 2.1が16%、τ³-Bench Bankingが14%、Humanity’s Last Examが12%、AA-Omniscience Accuracyが8%、SciCodeが8%、GPQAが6%、AA-LCRが6%、CritPtが6%、AA-Omniscience Non-Hallucinationが4%となっている。

参考: artificialanalysis.ai (アーカイブ) — 2026年6月16日 11:11 (JST)