アーカイブ (arXiv)、AIエージェント寿命評価ベンチマーク「AgingBench」発表
アーカイブ (arXiv) cs.AIは2026年5月25日(現地時間)、新たなベンチマーク「エイジングベンチ (AgingBench)」を導入する論文を発表した。このベンチマークは、長寿命のAIエージェントが運用システムにデプロイされた後、どの程度の期間にわたり信頼性を維持するかを評価するために設計された。本論文は、初期のベンチマークにおいて、永続的な運用システムとして展開されるAIエージェントが直面するこの基本的な信頼性問題が見過ごされてきた点を指摘している。