アーカイブ (arXiv)、AIエージェント寿命評価ベンチマーク「AgingBench」発表

アーカイブ (arXiv) cs.AIは2026年5月25日(現地時間)、新たなベンチマーク「エイジングベンチ (AgingBench)」を導入する論文を発表した。このベンチマークは、長寿命のAIエージェントが運用システムにデプロイされた後、どの程度の期間にわたり信頼性を維持するかを評価するために設計された。本論文は、初期のベンチマークにおいて、永続的な運用システムとして展開されるAIエージェントが直面するこの基本的な信頼性問題が見過ごされてきた点を指摘している。

本論文では、モデルの重みが固定されていても、エージェントが対話履歴の圧縮、増大するメモリストアからの情報取得、事実の更新と修正、定期的メンテナンスを通じてその有効状態を変化させ続けると説明されている。このため、信頼性はベースモデルの一時的な特性ではなく、エージェントハーネス全体の寿命特性となる。

エイジングベンチ (AgingBench) は、デプロイされたエージェントの劣化の有無だけでなく、その劣化の形態や修理すべきターゲットを測定する縦断的な信頼性ベンチマークである。エージェントの劣化を圧縮劣化 (compression aging)干渉劣化 (interference aging)改訂劣化 (revision aging)メンテナンス劣化 (maintenance aging)の4つのメカニズムに分類する。これらの故障を診断するため、エイジングベンチは時間的依存性グラフとペアの反実仮想プローブ（counterfactual probes）を使用し、メモリパイプラインの書き込み、取得、利用ステージにおける診断プロファイルを生成する。

7つのシナリオ、14のモデル、複数のメモリポリシー、およびランナー制御エージェントと自律エージェントの両方にわたる約400回の実行（8〜200セッション）の結果、エージェントの劣化は一次元ではないことが示された。行動テストでは問題がなくても事実の精度が低下する可能性、派生状態の追跡が単一モデル内で急激に崩壊する可能性、同じ誤った回答でも診断プロファイルに応じて異なる修理が必要となる可能性が指摘されている。これらの結果は、信頼性の高いエージェントのデプロイには、初期モデルの性能だけでなく、寿命評価、メカニズムレベルの診断、およびステージをターゲットとした修理が必要であることを示唆している。

参考: arXiv cs.AI — 2026年5月27日 13:00 (JST)