IBM Researchは2026年5月17日(現地時間)、汎用人工知能(AI)エージェントシステムの性能と運用コストを比較するためのオープンベンチマーク「The Open Agent Leaderboard」を発表した。このリーダーボードは、単一のモデルではなく、エージェントが利用するツール、処理手順の計画、アクション間の記憶機能、エラー回復能力といったシステム全体を評価対象とする。同時に、評価フレームワーク「Exgentic」と、その方法論および評価結果を詳述した論文も公開され、これらのリソースは直ちに利用可能となっている。

このリーダーボードは、特定のタスクに限定されず、多様な設定、ツール、ルール、制約に対応するエージェントの汎用性を測定することを目的としている。評価においては、システムの機能品質だけでなく、運用コストも報告する。これにより、単に機能するシステムだけでなく、実際に実環境へ展開する価値があるかを示すことを目指している。

評価には、以下の6種類のベンチマークが組み込まれている。

  • SWE-Bench Verified
  • BrowseComp
  • AppWorld
  • tau2-Bench Airline
  • tau2-Bench Retail
  • tau2-Bench Telecom

これらのベンチマークは、コーディング、カスタマーサービス、テクニカルサポート、個人アシスタンス、リサーチといった、現実世界における幅広い作業設定を網羅するように選定された。各ベンチマークは元々独立して設計されたものだが、タスク、コンテキスト、アクションに関する統一プロトコルを導入することで、共通の構造の下で連携が図られている。

初期の分析結果から、汎用エージェントはすでに特定のタスクに特化したシステムと同等の競争力を持つことが示されている。複数のケースにおいて、ベンチマーク固有のチューニングを行っていないエージェントが、対象タスク向けに直接構築されたシステムに匹敵する、あるいはそれを上回る性能を発揮している。また、エージェントの性能は失敗の仕方によっても大きく異なり、実験では失敗した実行が成功した実行と比較して20%から54%高いコストを要した。結果を左右する主要な要因はモデルの選択にあるが、エージェントアーキテクチャ、特にツール選択の最適化がパフォーマンス向上に顕著な差をもたらしている。


参考: Hugging Face Blog — 2026年5月18日 12:51 (JST)

この記事をシェア
X はてブ LinkedIn