学術論文公開サイトarXiv cs.LGは2026年5月22日(現地時間)、ジアイ・ファン氏の研究論文を公開した。同研究は、ワールドモデルが言語的教師なし学習なしに物理的探索を通じて意味的表現を獲得する可能性を示している。物理世界の幾何学的構造が、ワールドモデルが表現を組織化する主要な原理であると主張。VAE(Variational Autoencoder)ベースのワールドモデルを訓練した結果、その潜在空間が物理的幾何学を反映する空間的意味構造を発達させることが判明した。

ジアイ・ファン氏らは、言語による教師なし学習を一切行わず、ランダムな身体的探索によってVAEベースのワールドモデルを訓練する実験を行った。訓練されたモデルの潜在空間は、物理的幾何学に鏡像のように対応する空間的意味構造を形成したと報告されている。

具体的には、方向精度において訓練済みエンコーダーが0.677±0.029を記録したのに対し、ランダムに初期化されたエンコーダーは0.547だった。また、位置Representational Similarity Analysis(RSA)では、訓練済みエンコーダーが0.192±0.047を示し、ランダムエンコーダーの0.029と比較して6.6倍の改善が見られた。これは、訓練がConvolutional Neural Network(CNN)の帰納的バイアスを超える、真の構造的組織化を誘発することを示すものとされている。

さらに、20の時系列チェックポイントにわたり、予測性能と意味的アライメントが共に改善すること(Spearman r=-0.61, p=0.004)が確認された。これは、両者の改善を導く共有ドライバーが存在するという説と一致する。標準的なKL正則化(beta=0.1)を適用した場合、エンコーダーは幾何学的構造から逸脱し、50,000ステップまでに予測性能と意味的アライメントが同時にほぼ偶然レベルにまで崩壊した。一方、betaを0.001に減少させると、幾何学的アクセスが回復し、両方の能力も共に回復した。

これらの発見は、物理世界の幾何学がワールドモデル表現の組織化原理であることを確立し、意味的に接地された身体エージェント(embodied agents)の設計に直接的な影響を与えるとしている。


参考: arXiv cs.LG (アーカイブ) — 2026年5月29日 13:00 (JST)

原文ハイライト

"Emergent Semantic Representations in World Models through Physical Interaction without Linguistic Supervision"

この記事をシェア
X はてブ LinkedIn