NVIDIAは2026年5月31日(現地時間)、ロボットや自動運転車、視覚AIエージェントが実世界で行動する前に思考することを支援する、新しいオープンな世界基盤モデル「NVIDIA Cosmos 3」を発表した。COMPUTEXで開催されたNVIDIA GTC Taipeiで公開されたこのモデルは、ビジョン推論、マルチモーダル生成、行動予測を統合し、開発者が物理的文脈を持つ世界データを生成するのを助ける。
Cosmos 3は、知覚、予測、行動の能力を強化する目的で構築された。そのmixture-of-transformers(ミクスチャーオブトランスフォーマー)アーキテクチャにより、推論ブロックがまずシーンの状況を解釈し、その後生成ブロックがその文脈を用いて物理的に根拠のある出力、例えば合成ビデオやロボットタスクデータなどを生成する。このモデルは、テキスト、ビデオ、画像、周囲の音、行動にわたるマルチモーダル生成を可能にする。
Cosmos 3は汎用基盤モデルとして、シーン、動き、ロボットの行動間の関係を広範に理解するよう多様なデータで訓練されている。オムニモデルとしてネイティブな行動生成機能を備え、関節角度、グリッパー位置、軌道点などの数値行動データを生成し、ロボットがタスクを完了するための動きを記述できる。開発者はCosmos 3を特定のエンボディメント、カメラレイアウト、ワークスペース、またはタスクに特化させてファインチューニング可能である。
NVIDIA GEARチームはCosmos 3を用いてビデオ行動モデルを開発しており、これによりエンボディードエージェントがゲーム、シミュレーション、実世界のロボット環境で推論、移動、行動を学習する。Agile RobotsもCosmos 3を活用し、自律的かつ精密に産業タスクを処理するヒューマノイドなどのエンボディメント向けに、行動条件付きロボットデータを生成してポリシー開発に利用している。
また、Cosmos 3はスマートシティやスマート空間での推論能力を持つ。交通システム、工場、倉庫、公共空間において、ビデオシステムが時間の経過に伴う活動を解釈し、異常を検知し、複雑な環境でより豊かな文脈をオペレーターに提供する。Linker VisionはCosmosのビジョン言語推論能力を使用し、ライブカメラストリームを分析し、空間的文脈を理解し、洞察を抽出し、数千のフィードにわたる根本原因分析を実行する。
開発者は、build.nvidia.comでCosmos 3を試すことができ、Hugging Faceからオープンモデルをダウンロード、GitHubのリソースでモデルのカスタマイズと合成データの生成、NVIDIA NIMマイクロサービスでのデプロイが可能である。Linux FoundationのOpenMDW 1.1ライセンスにより、物理AIワークフロー全体でモデルマテリアルを使用できる。Cosmos 3はVANTAGE-Bench、TAR challenge、Artificial Analysisのオープンウェイトリーダーボード、Physics-IQ、R-Bench、PAI-Benchなど、複数のベンチマークで上位にランクインしている。
参考: NVIDIA Blog (AI) (アーカイブ) — 2026年6月1日 13:45 (JST)
原文ハイライト"brings vision reasoning, multimodal generation and action prediction together to help robots"