arXivは2026年5月7日(現地時間)、Xiangyuan Xue氏らの研究チームが、大規模言語モデル(LLM)をインタラクティブエージェントとして最適化する新フレームワーク「Strategic Trajectory Abstraction (StraTA)」を発表したと報じた。StraTAは、エージェント型強化学習に軌道レベルの戦略を導入することで、既存手法が抱える長期的意思決定における探索とクレジット割り当ての課題解決を目指す。ALFWorld、WebShop、SciWorldでの実験では、サンプル効率と最終性能の向上を示した。
大規模言語モデル(LLM)はインタラクティブエージェントとしての活用が進んでいる。しかし、既存手法は主に反応的であるため、長期的な意思決定における探索とクレジット割り当て双方に課題を抱え、最適化が困難な状況にあったと指摘されていた。
今回発表されたStrategic Trajectory Abstraction (StraTA)は、以下の二つの主要なメカニズムでこの課題に取り組む。
- 戦略サンプリング: 初期タスク状態からコンパクトな戦略をサンプリングし、その戦略に基づいて後続のアクションを条件付ける。
- 共同学習: 階層的なGRPO(Generalized advantage actor-critic Policy Optimization)スタイルのロールアウト設計を用いて、戦略生成とアクション実行を共同で学習させる。
さらに、多様な戦略ロールアウトと批判的な自己判断によって、このフレームワークは強化される。
実験結果
研究チームはALFWorld、WebShop、SciWorldの各環境でStraTAを評価した。その結果、StraTAは強力なベースラインと比較して、サンプル効率と最終性能を一貫して向上させることが示された。
- ALFWorld: 93.1%の成功率を達成。
- WebShop: 84.2%の成功率を記録。
- SciWorld: 総合スコア63.5%を記録し、既存のクローズドソースモデルを上回った。
著者
本論文の著者は、以下の8名である。
- Xiangyuan Xue (シアンユアン・シュエ)
- Yifan Zhou (イーファン・チョウ)
- Zidong Wang (ジドン・ワン)
- Shengji Tang (シェンジ・タン)
- Philip Torr (フィリップ・トーア)
- Wanli Ouyang (ワンリ・オウヤン)
- Lei Bai (レイ・バイ)
- Zhenfei Yin (ジェンフェイ・イン)
参考: arXiv cs.CL — 2026年5月8日 02:51 (JST)
原文ハイライト"StraTA: Incentivizing Agentic Reinforcement Learning with Strategic Trajectory Abstraction"