arXiv cs.AIは2026年6月1日(現地時間)、Liangwei Yang氏と他の11名の共著者による論文で、実世界の行動トレースからパーソナライズされた意思決定モデリングを評価する新ベンチマーク「BehaviorBench」を導入したと発表した。このベンチマークは、既存のユーザー理解に関する評価データの限定性や、シミュレートされたユーザー、モデル生成行動に基づく従来のベンチマークが人間の行動から乖離する可能性といった課題に対応する。

BehaviorBenchは、公開されている予測市場およびオンチェーン記録からウォレットレベルの意思決定履歴を再構築することで、これらの課題に取り組む。具体的には、従来のベンチマークが抱えていた、人間の実際の行動との系統的な乖離を是正することを目指している。

このベンチマークは、以下の2つの主要なタスクレイヤーで構成されている。

  1. Belief prediction: 市場におけるユーザーの最終的な態度と確信度を予測する。これは、ユーザーが特定の事象に対してどのような信念を抱いているかを定量的に評価する。
  2. Trade prediction: 個々の取引の方向(買いか売りか)と量(取引規模)を予測する。これは、ユーザーの具体的な市場行動を詳細に捉えることを目的としている。

評価データは、合計2,000の評価ウォレットにわたる広範な情報を含んでおり、具体的には141,445のBeliefインスタンスと1,485,972のTradeインスタンスが対象となった。この大規模なデータセットを用いることで、多様なユーザー行動のパターンを捕捉し、より現実的な評価を可能にしている。

研究チームは、パーソナライゼーションの有効性を探るため、以下の4つの異なる履歴インターフェースの下で、フロンティアモデルとオープンウェイトの生成モデルの評価を実施した。

  • パーソナライゼーションなし:個別のユーザー情報を用いないベースラインモデル。
  • 直接的な最近の履歴:ユーザーの直近の行動履歴を直接利用するモデル。
  • 生成されたユーザープロファイル:過去の行動から生成されたユーザーの特性プロファイルを用いるモデル。
  • 取得されたサポートウォレットエビデンス:関連するウォレットの追加情報を活用するモデル。

評価結果からは複数の重要な知見が得られた。まず、パーソナライゼーションは、Trade predictionタスクと比較してBelief predictionタスクにおいて一貫してモデル性能の改善をもたらすことが示された。これは、確信度の予測において個々のユーザー特性がより強く影響することを示唆する。また、モデルのランキングがタスクレイヤーや採用するメトリクスによって変動すること、そして異なる履歴インターフェースがそれぞれ異なる種類の失敗モードを露呈することも明らかになった。BehaviorBenchは、シミュレートされたユーザーの行動だけでなく、実世界の行動的証拠をパーソナライズされた方法でどのように活用できるかを研究するための新たな評価設定を提供する。


参考: arXiv cs.AI (アーカイブ) — 2026年6月3日 13:00 (JST)

この記事をシェア
X はてブ LinkedIn