Artificial Analysisは2026年6月17日(現地時間)、長期間にわたる知識労働の能力を評価する新たなベンチマーク「AA-Briefcase (AA-ブリーフケース)」を発表した。このベンチマークは、ルーブリック合格率、分析品質Elo、プレゼンテーションEloを統合した「AA-Briefcase Elo」でモデルを評価する。現在の評価では、Claude Fable 5が首位となり、Claude Opus 4.8 (max)、GLM-5.2 (max)が続いた。
AA-Briefcaseは、業界専門家が構築した、複雑なプロジェクトにおける現実的な知識労働タスクをテストするためのベンチマークである。モデルは複数週にわたる知識労働プロジェクトで評価され、多数のリンクされたタスクと数千の入力ソースファイルを含む。
AA-Briefcase Eloは、ルーブリック合格率、分析品質Elo、プレゼンテーションEloを統合した指標である。評価結果では、Claude Fable 5が最も高いAA-Briefcase Eloを達成し、Claude Opus 4.8 (max)、GLM-5.2 (max)がそれに続く。GPT-5.5 (xhigh)は4位となっている。オープンウェイトモデルの中ではGLM-5.2 (max)がリーダーであり、エージェンティック能力とコストのトレードオフにおいて魅力的な選択肢であるとされている。
AA-Briefcaseは、モデルが現実の知識労働で実際に使用される方法をシミュレートするよう設計されている。単一で切断されたプロンプトを超え、整合性のある長期間のプロジェクトでモデルを評価する。タスクは毎週構築され、共通の組織的コンテキストを利用し、財務モデル、役員向けプレゼンテーション、デザインモックアップといった企業成果物の作成を要求する。また、数百の入力ファイルにわたる推論をモデルに要求し、Slackスレッド、メール、会社文書、会議記録、大規模データエクスポートといった断片化された多数のソースを扱う。
タスクはデータサイエンス、製品管理、企業戦略の専門家によって数ヶ月かけて開発され、Google、McKinsey & Company、Boston Consulting Groupなどの企業からの経験が反映されている。これにより、現実世界の知識労働に特有の曖昧さ、複雑なコンテキスト、競合する優先順位をより忠実に反映している。
AA-Briefcaseのタスクあたりのコストは、テストされたモデル間で800倍以上の差がある。Claude Fable 5はベンチマークをリードするが、タスクあたり平均31ドルを超える。一方、DeepSeek V4 Flash (Max)はタスクあたり約0.04ドルである。GLM-5.2 (max)は、Claude Opus 4.8 (max)よりEloスコアが約90低いが、コストは25%未満であり、優れた価格性能比を提供する。
参考: artificialanalysis.ai — 2026年6月18日 09:00 (JST)
原文ハイライト"GLM-5.2 (max) is the clear leader among open-weight models"