NVIDIAは2026年6月3日(現地時間)、Computer Vision and Pattern Recognition (CVPR) カンファレンスにおいて、NVIDIA Researchが物理AIに関する3つの論文を発表した。これらの論文は、ロボットの高度な把持、自律走行車の迅速な判断、大規模なエージェント訓練という異なる課題に対応し、多様なアプリケーション間で汎化するシステムを大規模訓練で構築するという共通テーマを持つ。
発表された3つの論文は以下の通り。
一つ目の「GraspGen-X」は、ゼロショット把持のための初の基盤モデルである。これは、これまでのロボット把持用AIシステムが特定のグリッパーに特化していた制約を解消する。本モデルは、新しいグリッパーの幾何学的形状と未知のオブジェクトが与えられた際に、ロボットがオブジェクトを把持するための信頼性の高い把持姿勢の提案を生成する。このモデルは、数千のオブジェクト形状と合成グリッパー構成にわたる20億のシミュレートされた把持データで訓練された。ロボット開発者は、グリッパーごとの訓練サイクルを不要にし、複数の一般的なグリッパーにそのまま適用できる。
二つ目の「LCDrive」は、自律走行車が組み込みハードウェア上で思考を高速化するためのモデルだ。高コストなテキストベースの推論をコンパクトな潜在表現に置き換え、システムが人間が読める推論ステップではなく、コンパクトな潜在空間で思考できるようにする。これにより、テキストベースの推論と同等の出力軌道品質を約半分のトークン量で実現する。本モデルはNVIDIA Alpamayo上で構築され、既存の車両データから派生した教師データを用いて訓練された。
三つ目の「NitroGen」は、汎用的なゲームプレイAI基盤モデルである。NVIDIA Isaac GR00Tロボット基盤モデルアーキテクチャを活用し、多様な仮想環境でエンボディドエージェントを大規模に訓練する。本モデルは1,000以上のゲームと40,000時間以上のインタラクションを通じて訓練され、戦闘、ナビゲーション、探索といったゲームプレイ行動における汎化能力を示した。低データ条件では、以前の最先端の手法と比較して最大52%のパフォーマンス向上を達成した。このモデルはオープンソースとしてGitHubとHugging Faceで公開されている。
NVIDIAはCVPRで、研究者や開発者が自律走行車、ロボット、ビジョンAIシステムの開発を加速するための新たな物理AIエージェントスキルも発表した。
参考: NVIDIA Blog (AI) — 2026年6月4日 00:00 (JST)