xAIのイーサン・ヒー氏、動画エージェントモデルを次世代の主流と位置づけ

Latent Spaceは2026年6月1日(現地時間)、xAIのGrok Imagine開発責任者であるイーサン・ヒー（Ethan He）氏が、動画エージェントモデルが今後の主要トレンドになるとの見解を示したと報じた。ヒー氏は、動画モデルの知能は主に大規模言語モデル（LLM）から得られるものであり、動画データによるトレーニングではないと主張。次世代の動画生成は、単なる動画モデルではなく、動画エージェントになると予測した。

イーサン・ヒー氏は、NVIDIAのCosmos World Model開発を主導した後、xAIに参画し、3ヶ月でGrok Imagineを構築した経緯がある。Grok Imagineは、720Pでの動画生成、動画編集、音声機能を備え、高速かつ費用対効果の高い動画生成モデルとして提供されている。

ヒー氏は、動画モデルの性能がリアリズム、一貫性、プロンプトの順守において大幅に向上し、費用対効果も高まる中で、次の進化はクリエイティブなタスク全体で計画、生成、編集、批評、反復を実行できるシステムになると説明した。現在、Grok Imagine Agent Mode (Beta)が、計画、生成、編集を自動で行うクリエイティブエージェントとして提供されている。

同氏は、モデル開発における反復速度の重要性を強調し、データやトレーニングパイプラインの小さなバグ修正がモデル品質に大きな改善をもたらすと指摘した。動画エージェントは今後数年のトレンドとなり、その先にはFlipbookやNeural OSのような生成されるUIの未来があり、将来のインターフェースはユーザーの意図からピクセルへの変換に進む可能性に言及した。また、動画モデルの将来は、拡散モデルだけでなく、言語モデルとエージェントに依存する可能性が高いとの見方を示した。

動画モデルのトレーニングには、ストレージ、データ転送、GPU時間のコストがかかる一方で、ステップ蒸留やOpenAI sCMのような一貫性モデルが動画推論を大幅に高速化するとも述べられた。ヒー氏は現在xAIを離れ、大規模言語モデル（LLM）に焦点を移している。

参考: Latent Space — 2026年5月29日 03:41 (JST)