NVIDIAは2026年5月31日(現地時間)、物理AI推論とアクション生成のための初のオープンなオムニモデル「NVIDIA Cosmos 3」を発表した。Hugging Faceで提供を開始したこのモデルは、ロボット工学、自動運転車、スマートスペース向けの物理世界のシミュレーションと理解を支援する。ワールド生成、物理推論、アクション生成を単一の統合モデルに集約し、MoT (Mixture-of-Transformers) アーキテクチャに基づいて構築されている。

Cosmos 3は、テキスト、画像、動画、音声、アクションを含むすべてのモダリティを単一のアーキテクチャ内で処理する。これにより、テキスト、画像、動画、アクション入力から物理的に妥当な動画の世界を生成し、動きや因果関係、空間関係といった物理プロパティについて推論し、現在の状態に基づいて将来の動画やアクションシーケンスを予測することが可能となる。

今回のリリースでは、効率的な推論に最適化された8Bパラメーターモデルの「Cosmos 3 Nano」と、大規模な合成データ生成 (SDG) および研究向けに設計された32Bパラメーターモデルの「Cosmos 3 Super」の2つのモデルサイズが提供される。Cosmos 3 NanoはRTX PRO 6000 GPUのようなワークステーション級コンピューティングで動作し、Cosmos 3 SuperはNVIDIA HopperおよびBlackwell GPUで動作する。

また、Cosmos 3はHugging Face Diffusersライブラリと統合されており、世界生成パイプラインを容易に利用できる。発表の一環として、NVIDIAは物理AIコミュニティがワールドファウンデーションモデルをトレーニングおよび評価するのを支援するため、Embodied-Robot-Scenes、Physical-Interaction-Scenes、Spatial-Reasoning、Digital-Human-Scenesといった合成データ生成 (SDG) データセットをHugging Faceで公開している。


参考: Hugging Face Blog (アーカイブ) — 2026年6月1日 04:43 (JST)

原文ハイライト

"single, unified omni-model that combines world generation, physical reasoning, and action generation"

この記事をシェア
X はてブ LinkedIn