allenaiが言語誘導型3Dモーション予測モデル「MolmoMotion」を発表

allenaiは2026年6月17日(現地時間)、言語による指示に基づき3Dモーションを予測する新モデル「MolmoMotion」を発表した。同社は同時に、過去最大規模の3D点群軌跡と動作記述のコレクション「MolmoMotion-1M」と、オブジェクト中心の3Dモーション予測精度を測るベンチマーク「PointMotionBench」も公開した。

MolmoMotionは、動画フレーム、オブジェクト上の3D点、および意図する動作を記述したテキスト指示（例：テーブルの上の木製ボウルを動かして回転させる）を与えられ、それらの点が数秒後に3D空間でどのように動くかを予測する。既存の予測手法と比較して大幅に高い性能を達成している。このモデルは、ロボットのプランニングや、軌跡に基づいてビデオを生成するアプリケーションでの利用が想定される。

MolmoMotionは、オブジェクトに付随する3D点としてモーションを表現することで、フルビデオをレンダリングするコストをかけずにモーションを捕捉する。この表現は、クラスに依存せず、ビュー安定性があり、下流システムで直接利用できるという特性を持つ。バックボーンにはMolmo 2を使用し、言語指示を画像内のオブジェクトと点に接続し、将来の3D軌跡を予測する。

モデルには、将来の座標をステップごとに予測する「MolmoMotion-AR」と、連続3D空間で軌跡を予測し、複数の妥当な未来がある場合の不確実性を表現するのに適した「MolmoMotion-FM」の2つのバリアントがある。

MolmoMotionのトレーニングのため、allenaiは独自の自動パイプラインを構築し、MolmoMotion-1Mデータセットを作成した。これは1.16Mの動画から抽出された、アクションが記述されオブジェクトに紐付けられた3D点群軌跡のコレクションであり、736種類のモーションタイプと5.6Kの異なるオブジェクトを網羅する。また、予測性能を評価するために、人間が検証したベンチマークPointMotionBenchを公開した。これは2.7Kのビデオクリップで構成される。モデルのウェイト、MolmoMotion-1Mデータセット、およびPointMotionBenchベンチマークは、コミュニティが研究、改善、カスタマイズできるようオープンにリリースされている。

参考: Hugging Face Blog (アーカイブ) — 2026年6月17日 03:06 (JST)