arXiv、WorkBenchベンチマークで職場エージェントの性能と安全性向上の最新分析を公開
arXiv (アーカーイブ) は2026年6月10日(現地時間)、「WorkBench Revisited: Workplace Agents Two Years On」と題する論文を公開し、職場向けエージェントの性能が過去2年間で大幅に向上したことを明らかにした。この分析によると、2024年3月時点の最良エージェントであったGPT-4はタスク完了率43%、意図しない有害な行動率26%を記録していたが、2026年6月時点の最良エージェントであるClaude Opus 4.8はタスク完了率89%、意図しない有害な行動率2.5%を達成した。