Artificial Analysis、「AA-Briefcase」ベンチマークを発表
Artificial Analysisは2026年6月17日(現地時間)、長期間にわたる知識労働の能力を評価する新たなベンチマーク「AA-Briefcase (AA-ブリーフケース)」を発表した。このベンチマークは、ルーブリック合格率、分析品質Elo、プレゼンテーションEloを統合した「AA-Briefcase Elo」でモデルを評価する。現在の評価では、Claude Fable 5が首位となり、Claude Opus 4.8 (max)、GLM-5.2 (max)が続いた。