Google、4秒画像生成と会話型ビデオ編集の新AIモデルを発表

Googleは7月1日(現地時間)、生成系AIメディアモデル「Nano Banana 2 Lite」と「Gemini Omni Flash」をリリースしました。「Nano Banana 2 Lite」はテキストから画像を4秒で生成し1枚あたり0.034ドルで提供され、「Gemini Omni Flash」は自然言語での会話を通じてビデオを生成・編集します。このモデルは出力1秒あたり0.10ドルの料金で提供されます。両モデルは、開発者向けにGoogle AI StudioとGemini APIを通じて6月30日より利用可能となっています。

これらのモデルの同時リリースは、高速度での画像生成とステートフルな会話型ビデオ編集を単一のワークフローに統合するパイプラインとして重要です。開発者はNano Banana 2 Liteで生成した画像を直接Gemini Omni Flashに渡してアニメーション化し、カメラアングル調整やキャラクターの入れ替え、シーンの再照明といった自然言語コマンドで、1セッションあたり最大3回まで結果を調整できます。

Nano Banana 2 Liteは、GoogleのNano Banana画像ファミリーで最速かつ最低コストのモデル (モデル識別子 gemini-3.1-flash-lite-image) として位置付けられています。Googleは、このモデルが速度とコストが主要な制約となる、迅速なアイデア出しと高速度開発パイプライン向けに構築されたと述べています。4秒という低レイテンシーにより、画像生成がライブデザインツールやEコマースコンフィギュレーター、ユーザーが結果を待つ消費者向け機能に組み込める速度に達するとされます。Google AI StudioとGemini APIを統括するLogan Kilpatrick（ローガン・キルパトリック）氏は、生成速度がアイデア出しを上回る効果を「魔法のよう」と表現しました。同モデルはプロンプトへの信頼性の高い忠実性、複数世代にわたるキャラクターの一貫性、画像内の判読可能なテキストを維持するとGoogleは表明しており、これらは広告やマーケティングのユースケースに不可欠な機能とされています。

一方、Gemini Omni Flash（モデル識別子 gemini-omni-flash-preview）は、従来のAIビデオツールの「生成・エクスポート」というパラダイムを破ります。Geminiのマルチモーダル推論エンジンを基盤とし、画像、音声、ビデオのパイプラインを同時に推論し、統一された出力を生成します。Google DeepMindのプロダクトマネジメントディレクターであるNicole Brichtova（ニコル・ブリチトバ）氏は、これをGeminiの知性と我々のメディアモデルのレンダリング能力を組み合わせた進歩の次のステップと説明しました。現在の実装では、1セッションあたり最大3回の連続編集が可能です。このモデルは現在、クリップ長が10秒に制限されていますが、Googleはこれを展開上の決定であり、より長い期間のサポートを予定していると説明しています。実在の人物の名前や肖像を含むビデオの生成・編集は拒否され、ディープフェイクのリスクを制限するとしています。

企業による導入も進んでおり、WPPはクライアント向けのAIコンテンツ生成プラットフォーム「WPP Open」にGemini Omni Flashを統合しました。AdobeはNano Banana 2 LiteとGemini Omni Flashの両モデルの統合計画を発表しています。

参考: techtimes.com — 2026年7月1日 16:27 (JST)