物理AI向けオムニモーダル世界モデル「Cosmos 3」、最先端性能を確立

arxiv.orgは6月1日(現地時間)、物理AI（Physical AI）分野に特化したオムニモーダル世界モデル「Cosmos 3」が発表されたと伝えた。この新モデルは、言語、画像、動画、音声、アクションシーケンスの5つの異なるモダリティを単一の混合トランスフォーマーアーキテクチャで処理・生成可能であり、Physical AIにおける多様な理解および生成タスクにおいて、新たな最先端の性能を達成したと報告されている。

「Cosmos 3」は、柔軟な入出力構成を可能にする革新的なアーキテクチャを中核に据える。この単一フレームワークは、ビジョン・言語モデル、動画生成器、世界シミュレーター、および世界・アクションモデルといった多様な機能を統合。これにより、Physical AI、すなわち物理世界で活動するエージェントの知能開発に対し、スケーラブルかつ汎用的な基盤としての実用性が示された。

従来のAIモデルが特定のデータ形式（モダリティ）に特化していたのに対し、「Cosmos 3」は言語、画像、動画、音声、アクションシーケンスという五つの主要モダリティを同時に処理し、相互に関連付けながら学習する。このオムニモーダルなアプローチは、人間が外界を認識し、理解し、行動するプロセスを模倣することを目指すものだ。例えば、テキスト指示からの画像生成や、動画内容の分析による物理的アクション予測など、異なる情報源を横断した高度な推論と生成が可能となる。

Physical AIの分野では、ロボットや自律システムが現実世界で効果的に機能するため、環境のダイナミクスや物理法則を内部的にシミュレーションする「世界モデル」が不可欠である。「Cosmos 3」は、この世界モデルをオムニモーダルなデータに基づいて構築することで、エージェントが複雑な状況下でも未来を予測し、計画を立て、最適な意思決定を行うための強固な基盤を提供する。これにより、ロボットが不確実な環境で適応的に行動したり、シミュレーション環境での学習を効率化したりする道が拓かれる。

「Cosmos 3」モデルの後学習済みバージョンは、テクニカルレポート作成時点で既に高い評価を得ている。独立評価機関であるアーティフィシャル・アナリシス（Artificial Analysis）は、このモデルを最高のオープンソースText-to-Image（テキスト-画像）モデルおよびImage-to-Video（画像-動画）モデルとして認定。また、ロボアリーナ（RoboArena）は、物理的なタスクを実行するエージェントの行動モデルとして、最高のポリシーモデルであると評価している。これらの評価は、「Cosmos 3」が単なる研究成果に留まらず、実用的な応用において強力な性能を発揮することを示唆する。

Physical AI分野におけるオープンな研究と展開を加速するため、開発チームは「Cosmos 3」に関連する広範なリソースを公開している。これには、モデルを動かすためのコード、学習済みモデルのチェックポイント、多様なタスクに対応するために厳選された合成データセット、そして性能を客観的に評価するためのベンチマークが含まれる。これらのリソースは、Linux Foundationが提供するOpenMDW-1.1 Licenseの下で利用可能となっており、世界中の研究者や開発者が「Cosmos 3」を基盤とした新たなイノベーションを創出するための支援が期待される。

参考: arxiv.org — 2026年6月1日 09:00 (JST)