Qwen-AgentWorldは2026年6月23日(現地時間)、汎用エージェント向け言語ワールドモデル「Qwen-AgentWorld-35B-A3B」および「Qwen-AgentWorld-397B-A17B」を発表し、Hugging Faceでオープンウェイトとして公開した。これらのモデルは、エージェント環境をシミュレートする能力を持ち、長期的な思考連鎖推論を通じて7つのドメインをカバーする。言語ワールドモデルの評価用に「AgentWorldBench」も同時公開された。
ワールドモデルは、現在の観測とアクションに基づいて環境ダイナミクスを予測し、推論および計画のための中心的認知メカニズムとして機能する。Qwen-AgentWorldは、言語モデルに基づくワールドモデリングが汎用エージェントの限界をさらに押し広げる方法を調査した。
Qwen-AgentWorld-35B-A3BとQwen-AgentWorld-397B-A17Bは、7つのドメインをカバーするエージェント環境をシミュレート可能な最初の言語ワールドモデルである。これらは、実世界の7つのドメインにおける10M以上の環境インタラクショントラジェクトリ(軌跡)を活用し、CPT、SFT、RLからなる3段階の訓練パイプラインを通じて開発された。
言語ワールドモデルの評価には、9つの確立されたベンチマークにおける5つのフロンティアモデルの実世界インタラクションから構築された包括的なベンチマーク「AgentWorldBench」が用いられた。実証結果では、Qwen-AgentWorldが既存のフロンティアモデルを大幅に上回る性能を示している。
ワールドモデリングは、汎用エージェントを強化する2つの補完的なパラダイムを提供する。第一に、分離された環境シミュレーターとして、Qwen-AgentWorldは数千の実世界環境の拡張可能で制御可能なシミュレーションをサポートし、リアル環境のみの訓練を上回る成果をもたらす。第二に、統合されたエージェント基盤モデルとして、ワールドモデル訓練は7つのエージェントベンチマーク全体でダウンストリーム性能を向上させる非常に効果的なウォームアップとして機能する。
原文ハイライト"A world model predicts environment dynamics based on current observations and actions"