Artificial Analysis(アーティフィシャル・アナリシス)は2026年6月16日(現地時間)、モデルインテリジェンス評価指標「Artificial Analysis Intelligence Index(アーティフィシャル・アナリシス・インテリジェンス・インデックス)」をv4.1に更新したと発表した。今回の更新では、エージェント指向ワークロードへのシフトが図られ、評価軸の刷新と新たなタスクごとのメトリクスが導入された。総合指数では未利用モデルのClaude Fable 5(クロード・フェイブル・ファイブ)が首位を獲得。利用可能なモデルの中ではClaude Opus 4.8(クロード・オーパス・フォー・ポイント・エイト)が最高スコアを示し、GPT-5.5が続いている。

Artificial Analysis Intelligence Index v4.1の更新内容は主に三点にわたる。

まず、評価軸の更新とエージェント指向タスクへの再重み付けが行われた。Terminal-Bench HardはTerminal-Bench 2.1に、τ²-Bench Telecomはτ³-Bench Bankingにそれぞれアップグレードされ、より現実的なエージェントシナリオに対応するタスクセットが導入された。また、「GDPval-AA」は「GDPval-AA v2」に更新され、Elo評価基準が人間性能の1000に再設定、フロンティアモデルの審査パネル導入、ターン制限が100から250に引き上げられた。飽和状態にあった「IFBench」はIntelligence Indexから除外された。

次に、タスクあたりのコスト(Cost per Task)、タスクあたりの時間(Time per Task)、タスクあたりのトークン数(Tokens per Task)の三つの新しいタスクごとのメトリクスが導入された。これらはモデルがIntelligence Indexを実行する際の総コスト、総時間、総出力トークンをタスク数で割ることで算出される。第三に、キャッシュされた入力トークンとそのコストへの影響が報告されるようになり、各モデルの実際の実行コストがより正確に反映される。

モデル別の主要な結果では、Claude Fable 5(Opus 4.8をフォールバックとして使用)がIntelligence Index v4.1で60ポイントを獲得し、4ポイント差で首位となった。このモデルは現在利用できないため、利用可能なモデルではClaude Opus 4.8(56ポイント)が最もインテリジェントなモデルとされ、GPT-5.5(55ポイント)が続く。オープンウェイトモデルの中では、DeepSeek V4 Pro(ディープシーク・ブイフォー・プロ)とMiniMax M3(ミニマックス・エムスリー)が共同で44ポイントを記録してリードし、Kimi K2.6(キミ・ケイツーポイントシックス)が43ポイント、MiMo-V2.5-Pro(ミモ・ブイツーポイントファイブ・プロ)が42ポイントで続く。

コスト面では、Claude Opus 4.8がタスクあたり1.78ドルで最も高価な利用可能モデルであり、Claude Fable 5はタスクあたり3.25ドルで全体の最高値を示した。GPT-5.5はタスクあたり0.99ドルでClaude Opus 4.8とほぼ同等のIntelligence Indexスコアを達成している。DeepSeek V4 Proはタスクあたり0.04ドルと際立っており、他の主要なプロプライエタリモデルと比較して20倍から45倍安価である。

時間面では、Grok 4.3(グロック・フォーポイントスリー)がタスクあたり1.5分で最速を記録した。Claude Sonnet 4.6(クロード・ソネット・フォーポイントシックス)は13.5分で最も長く、約9倍の差がある。Claude Opus 4.8は6.4分、GPT-5.5は3.7分でタスクを完了する。Gemini 3.1 Pro Preview(ジェミニ・スリーポイントワン・プロ・プレビュー)は1.6分で46ポイントのスコアを達成している。Claude Sonnet 4.6がClaude Opus 4.8よりタスク時間が長いのは、Intelligence Indexの実行により多くの出力トークンを使用するためである。

Intelligence Index v4.1で最も重みが高い評価項目はGDPval-AA v2で、全体の20%を占める。この評価ではClaude Fable 5が1818でトップ、Claude Opus 4.8が1638、GPT-5.5が1531と続いている。その他の評価項目の重みは、Terminal-Bench 2.1が16%、τ³-Bench Bankingが14%、Humanity’s Last Examが12%、AA-Omniscience Accuracyが8%、SciCodeが8%、GPQAが6%、AA-LCRが6%、CritPtが6%、AA-Omniscience Non-Hallucinationが4%となっている。


参考: artificialanalysis.ai (アーカイブ) — 2026年6月16日 11:11 (JST)

原文ハイライト

"because it uses more output tokens to run the Intelligence Index."

この記事をシェア
X はてブ LinkedIn