LLMエージェント計画能力向上へ、自己進化型ワールドモデルWorldEvolver発表

arXiv cs.AIは2026年6月29日(現地時間)、シュアン・チャン (Xuan Zhang) 氏らの研究チームが、大規模言語モデル (LLM) エージェントの計画能力に予測性能を付与する自己進化型ワールドモデルフレームワーク「ワールドエボルバー (WorldEvolver)」を発表しました。ワールドエボルバーは、展開時にコンテキストを改訂しつつ、エージェントの意思決定を劣化させる可能性のある不安定な予測に対処するため、下流エージェントとすべてのモデルパラメータを凍結する機構を特徴としています。

シュアン・チャン (Xuan Zhang) 氏、ウェンシュアン・チャン (Wenxuan Zhang) 氏、シーキオン・ン (See-Kiong Ng) 氏、ヤン・デン (Yang Deng) 氏によるこの研究は、長期的なLLMエージェントの予測能力実現を目指し、以下の3つの主要モジュールを統合しています。

エピソード記憶 (Episodic Memory): 検索ベースのシミュレーションを通じて、実際のアクション遷移を効果的に活用します。
セマンティック記憶 (Semantic Memory): 予測と観測の不一致から、持続的なヒューリスティックルールを抽出し、モデルの学習を促進します。
選択的予測 (Selective Foresight): エージェントの推論コンテキストに組み込む前に、信頼度の低い予測をフィルタリングすることで、不確実性による誤判断を回避します。

従来のLLMエージェントは、計画策定において短期的な推論に優れる一方で、複雑な環境下での長期的な行動計画や、予測の不確実性への対応に課題を抱えていました。先行研究は推論チェーンを構築することで計画の論理性を高めましたが、動的な環境変化に対する予測の修正能力や、誤った予測が長期的な計画に与える影響への対策は限定的でした。ワールドエボルバー (WorldEvolver) は、これらの課題に対し、テスト時における継続的なメモリ改訂と、信頼性の低い予測を排除する選択的予測メカニズムによって、より堅牢な計画能力を提供します。

評価は、エーエルエフワールド (ALFWorld) とサイエンスワールド (ScienceWorld) という複雑なテキストベースの環境で行われました。ワールドモデルの予測精度はワードツーワールド (Word2World) を、下流エージェントの成功率はエージェントボード (AgentBoard) を用いて測定されました。広範な実験の結果、ワールドエボルバーは3つのバックボーンにおいて最高の予測精度を達成し、他のワールドモデルベースラインと比較して、下流エージェントの成功率で優れた性能を示しました。これは、テスト時のメモリ改訂が予測忠実度と計画パフォーマンスの両方を向上させることを明確に実証しています。

この研究成果は、特にシミュレーション環境での高度なエージェント開発において実務的な含意を持ちます。例えば、ゲームAI、ロボティクス、自動運転シミュレーションなど、予測に基づいた意思決定が不可欠な領域において、LLMエージェントがより自律的かつ信頼性の高い行動を計画できるようになる可能性を秘めています。ワールドエボルバーの採用により、エージェントは変化する環境に適応しながら、長期的な目標達成に向けて柔軟に戦略を修正できるようになり、これにより開発者はより複雑で動的なシステムを設計しやすくなるでしょう。また、予測の不確実性を管理する機能は、エージェントの信頼性向上に直結し、現実世界での応用に向けた重要な一歩となります。

参考: arXiv cs.AI (アーカイブ) — 2026年6月30日 02:58 (JST)