arXiv、パーソナライズ行動予測の新ベンチマーク「BehaviorBench」導入
arXiv cs.AIは2026年6月1日(現地時間)、Liangwei Yang氏と他の11名の共著者による論文で、実世界の行動トレースからパーソナライズされた意思決定モデリングを評価する新ベンチマーク「BehaviorBench」を導入したと発表した。このベンチマークは、既存のユーザー理解に関する評価データの限定性や、シミュレートされたユーザー、モデル生成行動に基づく従来のベンチマークが人間の行動から乖離する可能性といった課題に対応する。