AIエージェントの報酬ハッキング脆弱性を自動監査、新システム「BenchJack」開発
Hao Wang氏ら研究者グループは2026年5月12日(現地時間)、フロンティアAIの能力測定に用いられるAIエージェントベンチマークに、報酬ハッキングの脆弱性が自発的に発生していると指摘した。この脆弱性を体系的に監査するため、研究チームは自動レッドチーミングシステム「BenchJack(ベンチジャック)」を開発。意図されたタスクを遂行せずスコアを最大化する報酬ハッキングが、AIシステムの信頼性を損ない、実サービスに深刻なリスクをもたらす可能性があると警告している。