Hugging Face Blogが2026年5月27日(現地時間)付けで報じたところによると、Artificial AnalysisとIBM Software Innovation Labはエージェント型エンタープライズITタスク向けの新ベンチマークシリーズ第一弾「ITBench-AA」を発表した。初期のSite Reliability Engineering (SRE) タスクにおいて、最先端のモデルでもスコアは50%を下回った。

ITBench-AAのSREタスクは、Kubernetesインシデント対応におけるモデル性能を評価する。モデルとエージェントは、ログの読み取り、依存関係のトレース、複雑なインフラ全体での根本原因エンティティ特定を通じて、ライブシステムを診断する。基盤となるITBenchデータセットはIBMが開発し、Artificial AnalysisがIBMと約6ヶ月間協力して、最先端のAI評価のためのデータセット実装を開発した。今後はフィナンシャルオペレーションズ (FinOps) および最高情報セキュリティ責任者 (CISO) タスクへの拡張を予定している。

主要な結果として、クロード・オーパス4.7 (Claude Opus 4.7) が47%で首位となり、GPT-5.5が46%、Qwen3.7 Maxが42%で続く。全てのフロンティアモデルが50%を下回る結果となり、ITBench-AA SREは既存のエージェント型ベンチマークの中で最も飽和度の低いものの一つとなった。ターミナルベンチ (Terminal-Bench) ではフロンティアモデルがより高いスコアを示している。

ターン数と精度の関係では、長い試行回数が必ずしも高い精度に繋がるとは限らない。GPT-5.5がタスクあたり平均31ターンで46%を記録した一方、ジェミニ3.1プロプレビュー (Gemini 3.1 Pro Preview) は平均83ターンで30%のスコアだった。過剰に調査するモデルは、偽陽性を報告する傾向にある。オープンウェイトモデルではGLM-5.1が40%で首位となり、ジェミニ3.5フラッシュ (Gemini 3.5 Flash) と同等のスコアをより低いコストで達成している。

ITBench-AA SREは合計59のSREタスクで構成され、40の公開タスクと19の新しい保留タスクが含まれる。各タスクはKubernetesインシデントのスナップショットを提供し、モデルはインシデントの原因となった最小限の独立した根本原因Kubernetesエンティティを特定する。評価には、オープンソースのスターラップ (Stirrup) リファレンスハーネスが使用され、モデルはサンドボックス化されたファイルシステムへのシェルアクセスを通じて問題を解決する。


参考: Hugging Face Blog — 2026年5月28日 02:20 (JST)

原文ハイライト

"Frontier Models Score Below 50% on the First Benchmark for Agentic Enterprise IT Tasks"

この記事をシェア
X はてブ LinkedIn