リサーチ・論文

arXiv、AI評価結果報告の新基準「EvalCards」を論文で提案

arXiv(アーカイブ)cs.AIは2026年6月8日(現地時間)、AI(人工知能)評価結果の報告における一貫性の欠如を指摘し、この課題に対処するための運用可能なレポート層「EvalCards(評価カード)」を提案する論文を発表した。同論文は、評価結果の比較困難さや情報欠落の問題を解決するため、ベンチマークメタデータ、評価実行データ、モデルメタデータを統一された記録に統合する仕組みを詳述しており、AI評価報告の透明性と信頼性向上に寄与すると期待される。

リサーチ・論文

macOS向け新ベンチマーク「MacArena」公開、CUA評価の課題解決へ

ヴィクター・ミューリン (Victor Muryn) 氏らの研究チームは6月4日(現地時間)、macOS環境でコンピュータ使用エージェント (Computer-use agents: CUAs) を評価するための新しいベンチマーク「MacArena」を導入したと発表した。同日付けで学術論文プレプリントサーバarXiv cs.LGに報じられた。既存のmacOS向けベンチマークが対応アプリケーションやタスク範囲が限定的であり、Apple Siliconとの互換性がないといった課題を解決し、より包括的な評価基準を提示する。

リサーチ・論文

AIエージェントの報酬ハッキング脆弱性を自動監査、新システム「BenchJack」開発

Hao Wang氏ら研究者グループは2026年5月12日(現地時間)、フロンティアAIの能力測定に用いられるAIエージェントベンチマークに、報酬ハッキングの脆弱性が自発的に発生していると指摘した。この脆弱性を体系的に監査するため、研究チームは自動レッドチーミングシステム「BenchJack(ベンチジャック)」を開発。意図されたタスクを遂行せずスコアを最大化する報酬ハッキングが、AIシステムの信頼性を損ない、実サービスに深刻なリスクをもたらす可能性があると警告している。

リサーチ・論文

WildClawBench、LLM/VLMエージェントの長期評価ベンチマークを公開

arXiv cs.CLは5月11日(現地時間)、Shuangrui Ding氏らが、大規模言語モデル (LLM) およびビジョン言語モデル (VLM) を活用するエージェントの実環境での長期的な性能を評価するための新たなベンチマーク「WildClawBench」を発表した。このベンチマークは、実際のCLI環境下で実ツールにアクセスし、タスクを遂行するエージェントの能力を測定する。人間が作成した60のバイリンガルかつマルチモーダルなタスクで構成され、各タスクは平均8分の実行時間と20以上のツール呼び出しを含む。