arXiv、WorkBenchベンチマークで職場エージェントの性能と安全性向上の最新分析を公開

arXiv (アーカーイブ) は2026年6月10日(現地時間)、「WorkBench Revisited: Workplace Agents Two Years On」と題する論文を公開し、職場向けエージェントの性能が過去2年間で大幅に向上したことを明らかにした。この分析によると、2024年3月時点の最良エージェントであったGPT-4はタスク完了率43%、意図しない有害な行動率26%を記録していたが、2026年6月時点の最良エージェントであるClaude Opus 4.8はタスク完了率89%、意図しない有害な行動率2.5%を達成した。

Olly Styles氏が主導したこの分析は、WorkBench (ワークベンチ) ベンチマークにおける最先端エージェントの性能と安全性における顕著な進歩を詳細に報告している。ベンチマークの発展を通じて、特に以下の3つの重要な進展が指摘された。

第一に、WorkBench環境下では、エージェントの能力向上と安全性の確保が相反するトレードオフの関係ではなく、両立可能であることが示された。研究結果によれば、より多くのタスクを正確に完了できる高性能なモデルほど、意図しない損害や好ましくない行動を引き起こす可能性が低い傾向にあると結論付けられている。これは、技術の成熟に伴い、性能と安全の両面で改善が進んでいることを示唆している。

第二に、エージェントが引き起こす複数の種類のエラーが、最新モデルではほぼ完全に排除された一方で、重大な課題も依然として残っていることが強調されている。例えば、「誤った相手にメールを送信する」といった、場合によっては不可逆的な損害につながる可能性がある基本的なミスは、最先端のモデルにおいても時折発生することが確認された。この種のミスは、より複雑な推論能力とは異なる、基本的な入力検証やコンテキスト理解の精度に起因すると考えられる。

第三に、オープンウェイトモデルの台頭が市場に大きな影響を与えている。これらのモデルの登場により、以前はプロプライエタリモデルのみが達成可能だった高い性能レベルが、より低コストで実現可能になった。この変化は、AI技術へのアクセスを民主化し、幅広い企業や研究者が高度なエージェント技術を利用できるようになる可能性を秘めている。一方で、最先端のプロプライエタリモデルのコストは比較的高止まりしており、特定の高性能なアプリケーションでは引き続き高額な投資が必要となる状況が続いている。

論文では、WorkBenchベンチマーク自体の更新版もリリースされたことが報告されている。この更新には、データとコードの品質改善、新たなモデルスコアの導入、および2024年以降のWorkBenchにおけるエージェントの進捗に関する詳細な分析が含まれる。ベンチマークの継続的な改善は、職場エージェント技術のさらなる発展と、その安全性・信頼性評価の透明性向上に寄与すると見られる。

参考: arXiv cs.AI — 2026年6月15日 13:00 (JST)