IBM Researchが汎用AIエージェント評価の新リーダーボードとフレームワーク発表
IBM Researchは2026年5月17日(現地時間)、汎用人工知能(AI)エージェントシステムの性能と運用コストを比較するためのオープンベンチマーク「The Open Agent Leaderboard」を発表した。このリーダーボードは、単一のモデルではなく、エージェントが利用するツール、処理手順の計画、アクション間の記憶機能、エラー回復能力といったシステム全体を評価対象とする。同時に、評価フレームワーク「Exgentic」と、その方法論および評価結果を詳述した論文も公開され、これらのリソースは直ちに利用可能となっている。