Adam J. Thorpe氏らは2026年5月28日(現地時間)、科学論文プレプリントサービス「arXiv cs.AI」に掲載された論文で、身体化された人工知能(Embodied AI)のワールドモデルには物理的実現可能性が不可欠であると提言した。彼らは、既存の観測予測型ワールドモデルが、視覚的にはもっともらしいものの物理的に誤ったシミュレーション結果(ロールアウト)を生成する問題を指摘している。

Thorpe氏らは、この問題が構造的なものであると説明している。異なる物理システムが見た目では区別できなくても、介入を受けると振る舞いが異なることがあるためだ。著者らは、可視シーンを固定し、潜在的な物理的要素を変化させた制御ベンチマークを用いてこの問題を明らかにした。その結果、既存モデルが実行不可能なアクションを推奨したり、相互作用の結果を誤って予測したり、安全でない振る舞いを保証したりする可能性が示された。

論文は、Embodied AIには介入クエリに回答する上で十分な、最も単純な物理的抽象化を特定するワールドモデルが必要であると主張している。このようなモデルは、環境表現、潜在状態とパラメータ推定、アクション指定、介入ダイナミクス、クエリレベルの応答を含むモジュール式コンポーネントで構成される。自律的なオーケストレーターは、関連する抽象化を特定し、互換性のある学習済みコンポーネントと構造化されたコンポーネントをクエリごとに構成する必要があるとしている。

この分解により、モデルは解釈可能になり、そのコンポーネントは検証可能になり、出力はクエリに対して監査可能になる。論文は、最も詳細なモデルではなく、クエリに関連する区別を維持する最も単純なモデルこそが適切な抽象化であるという設計原則を提示している。著者らは、既存システムが正しく答えられないクエリに対してこのアプローチを実証し、オーケストレーターが計画、制御、検証のために物理的に実現可能なモデルを動的に組み立て、適応させる方法を概説した。


参考: arXiv cs.AI (アーカイブ) — 2026年6月1日 13:00 (JST)

原文ハイライト

"Physically Viable World Models: A Case for Query-Conditioned Embodied AI"

この記事をシェア
X はてブ LinkedIn