Hugging Face Blogは2026年6月18日(現地時間)、エージェントが多様なツールを効果的に活用するための新たなベンチマーク手法に関する記事を発表した。同社はこの評価のため、「ハーネス」と称するツールを導入。これは、エージェントが特定のタスクを達成するまでに要する作業量を詳細に計測するもので、人気ライブラリ「transformers」をケーススタディとして採用している。評価は、オープンモデルと専門のコーディングエージェントによって推進され、Hugging Face Jobs上で並列実行される。
エージェントは、タスクの記述からライブラリの選択、呼び出しの記述、実行、そして自身のデバッグに至るまで、ソフトウェアとの連携を通じて作業を遂行します。この新たな動きは、ライブラリ開発において、コードが正確かつ高速であるだけでなく、エージェントが効果的に操作できるよう設計されるべきという概念を提唱しています。
従来のベンチマークが最終的な結果のみに焦点を当てていたのに対し、ハギングフェイスは、エージェントが結果に至るまでに要した作業量を計測することを目指します。同社は、エージェント向けに最適化されたツールには「テストされていること」と「文書化されていること」が不可欠であると指摘。APIが明確で、ドキュメントが広範であり、エージェントが有用なファイルや例に迅速にアクセスできる構造が求められます。
hf CLIの再設計では、エージェントが使用するトークンが1.3倍から1.8倍、最大で6倍削減された実績があります。ハギングフェイスは、transformersライブラリにおいても同様の改善が可能かを検証しています。
評価は、エージェントがtransformersにアクセスする3つの異なるバリアントで行われます。これらには、bare pip install transformers、clone the full transformers sources、skill a packaged Skillが設定されています。各タスクの実行は、モデル、リビジョン、タスクの組み合わせごとに個別のHugging Face Jobとして並列に実行され、比較の公平性が保たれます。結果とトレースはHugging Face Bucketに格納されます。
ベンチマークは、match %(期待される結果が含まれるか)、median timeとmedian tokens(エージェントが要した時間とトークン数)、runs with error %(エラー発生率)、marker adoption(ツール定義の振る舞いマーカーの採用率)など、複数の軸で各実行をスコアリングします。これらの指標は、ライブラリの改善や異なるエージェントおよびモデルの性能評価に利用される見込みです。
参考: Hugging Face Blog — 2026年6月18日 09:00 (JST)
原文ハイライト"Is it agentic enough? Benchmarking open models on your own tooling"